全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月20日

10:51

10:51

arXiv: DeepSeek@Ali Mohammadi Esfahani, Nafiseh Kahani, Samuel A. Ajila

精选

研究人员提出一个基于强化学习的框架，将提示词优化建模为序列决策问题。PPO代理通过混合动作空间（直接生成、遗传变异、语义重写）迭代改进提示词，并利用单元测试反馈的奖励信号驱动优化。在MBPP+、HumanEval+和APPS基准上，使用CodeT5+、CodeLLaMA和DeepSeek-Coder作为冻结代码生成器，PPO代理在MBPP+的500任务测试集上分别达到57.58%、64.80%和85.50%的严格Pass@1，优于EPiC、Reflexion和随机混合方法。软Pass@1分别达到67.90%、73.10%和88.20%。结果表明，带形状奖励的强化学习能显著提升LLM代码生成的功能正确性。

论文提示词优化强化学习代码生成 PPO LLM

推荐理由：做LLM代码生成或提示词工程的开发者，这个框架直接解决了提示词敏感性问题——用RL自动优化提示词，比手动调参高效得多，建议关注其混合动作空间和奖励设计。

5月19日

10:00

10:00

arXiv cs.AI@Zheqin Yin, Yupei Ren, Yadong Zhang, Yujiang Lu, Man Lan

精选

现有研究在通过提示词准确理解和评估议论文方面存在不足。本文提出TIDE框架，通过引入“试验与辩论”机制，优化基于标准的提示词优化过程，减少噪声训练数据的影响并提升优化稳定性。在自动作文评分、论证成分检测和论证关系识别三个核心任务上，TIDE均提升了性能。该工作展示了结合提示词方法与辩论机制在高级论证理解中的潜力。

论文议论文理解提示词优化辩论机制自动作文评分 TIDE

推荐理由：做教育AI或文本评估的团队，TIDE用辩论机制解决了提示词优化中的噪声和稳定性问题，值得在议论文分析场景中尝试。