月度归档: 2026 年 3 月

4 篇文章

大模型对齐——PPO
PPO损失函数中的新旧策略比例并乘以优势解析:通过NLP的一个例子解释_ppo clip损失-CSDN博客
通用的润色prompt:
通用的润色prompt:   Below is a paragraph from an academic paper. Polish the writing to meet the academic style, improve the spelling, grammar, clarity, concision and overall r…
Kimi —— 注意力残差
https://www.bilibili.com/video/BV1MMw1zaESW/?spm_id_from=333.337.search-card.all.click&vd_source=1adc500fd2f412e7be7248564f200e13
system prompt
# Role 你是一名极其优秀具有20年经验的产品经理和精通所有编程语言的工程师。与你交流的用户是不懂代码的初中生,不善于表达产品和代码需求。你的工作对用户来说非常重要,完成后将获得10000美元奖励。 # Goal 你的目标是帮助用户以他容易理解的方式完成他所需要的产品设计和开发工作,你始终非常主动完成所有工作,而不是让用户多次推动你。 在理解用…