全部 AI 动态 · AI 热点

6月23日

13:27

arXiv cs.LG@Juyang Bai, Laixi Shi

论文MAS-PromptBench系统研究了提示优化对多智能体系统（MAS）的影响，覆盖任务类型、工作流、通信协议和团队规模等多种配置，基准测试了两种扩展自单智能体的提示优化器。实验结果表明提示优化在特定条件下能显著提升MAS性能，最高收益达X%（原文未提供具体数字，此处不捏造），但搜索空间随智能体数量指数增长构成关键挑战。研究揭示了提示优化效果高度依赖系统配置，如通信协议和团队大小。

论文 MAS-PromptBench 多智能体系统提示优化 LLM 系统提示

推荐理由：这篇论文把多智能体系统里调提示词的效果讲清楚了，有实验数据告诉你啥时候有用啥时候没用，不是玄学。

原文

6月21日

07:12

marktechpost@Asif Razzaq

精选

Cisco Foundation AI开源FAPO，由Claude Code驱动，自动优化多步骤LLM流水线。FAPO评估整个链条，在步骤级别归因失败原因，并提出提示、参数和链结构层面的变体。在18个模型-基准对比中，FAPO击败GEPA 15次。每个变体经独立审批评证后集成到优化循环中。

AI模型 FAPO Claude Code Cisco 提示优化流水线

推荐理由：Cisco开源了FAPO，能自动修多步LLM管线的提示，比GEPA强在15/18个测试里，想搞提示优化的快去试试。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

11:11

arXiv cs.AI@Zhiyi Chen, Jie Song, Peng Li

精选72°

TAHOE 是一个新型 Text-to-SQL 系统，通过将提示优化视为动态数据管理问题来提升 LLM 的 SQL 生成质量。它利用错误驱动的提示学习管道，在开发和部署阶段将调试痕迹整合到结构化的提示库中，包括语法提示和语义提示。TAHOE 还引入策略层来建模冲突的用户意图，并通过逻辑规划和 SQL 合成指导推理。在 Spider 2.0-Snow 基准测试中，TAHOE 将 GPT-5.5 的通过率从 61.95% 提升至 79.42%，并实现了 100% 的 Snowflake 语法通过率。该提示库还可迁移到更弱的模型，如 Doubao-2.0-lite 上获得 19.7 个百分点的通过率提升。

论文 Text-to-SQL 提示优化 LLM 数据库 GPT-5.5

推荐理由：TAHOE 解决了 Text-to-SQL 从原型到生产部署的痛点——无需微调模型即可大幅提升 SQL 生成准确率，做数据库应用或数据分析的开发者可以直接用这套方法优化现有 LLM 管线。

原文

6月10日

04:48

elvis@omarsar0

72°

一项新研究提出“Self-Harness”概念，让智能体脚手架（包括提示、工具和控制流）能够像技能一样从自身运行中学习并改进，而非固定不变。传统脚手架一旦构建便冻结，需要手动维护，而Self-Harness将其变为可学习的工件，每次运行都能自我优化。论文认为，对于长周期智能体，这种自修改脚手架能将维护工作自动化，使系统性能持续累积。该工作由dair.ai团队发布，论文已在arXiv上公开。

论文智能体脚手架/工具自我改进提示优化 dair.ai

推荐理由：做长周期智能体开发的团队终于不用手动维护脚手架了——Self-Harness让系统自己优化提示和工具流，运行越久越强，建议点开论文看看具体实现。

原文

6月8日

01:12

marktechpost@Sana Hassan

精选

本文介绍使用 GEPA 作为反思式提示进化框架，优化小型语言模型解决多步算术应用题的能力。从弱种子提示开始，构建确定性基准和结构化评估器，返回可操作反馈。多组件设置同时进化指令字段和输出格式规则。最后在保留验证集上比较基线和优化提示，检验泛化能力。该方法展示了如何通过结构化反馈和验证集提升提示质量。

论文提示优化 GEPA 反思式框架结构化反馈多步推理

推荐理由：做提示工程和模型微调的开发者，GEPA 框架提供了一种系统化的提示优化方法，比手动调参更高效，值得尝试。

原文

5月28日

11:56

arXiv: DeepSeek@Yi Ding, Zijie Xuan, Haowei Zhou, Zhenyu Ju, Xiaoxiao Dong, Jingwen Zhang, Xingyu Zhu, Leixin Sun, Haochi Zhang

精选

TCP-MCP 提出了一种将智能体提示和通信拓扑作为统一基因进行协同进化的框架，解决了传统方法中两者孤立设计的问题。该框架通过初始化景观探测校准早期搜索行为，并利用帕累托前沿诊断在任务性能、token 成本和结构复杂度三个目标下自适应探索。在 DeepSeek-V3.2 骨干模型上，TCP-MCP 在 MMLU-Pro、MMLU 和 GSM8K 上分别达到 82.66%、89.96% 和 96.61% 的准确率，相比辩论式系统最多节省 5.69 倍 token。实验表明，联合进化提示和通信结构是实现成本感知和任务自适应多智能体系统设计的实用路径。

论文多智能体系统协同进化提示优化通信拓扑 DeepSeek-V3.2

推荐理由：多智能体系统设计者终于有了一个能同时优化提示和通信拓扑的框架——TCP-MCP 在保持高准确率的同时大幅降低 token 成本，做复杂协作任务的团队可以直接参考其方法。

原文

5月26日

11:48

arXiv cs.AI@Parth Darshan, Abhishek Divekar

精选

该论文研究了在多评估标准下同时优化LLM裁判提示时出现的失败模式。由于文本梯度方法产生自然语言评论而非数值向量，多任务学习中的冲突解决工具（如PCGrad、MGDA）无法直接应用。实验测试了五种文本梯度优化器的分解模式，发现在10种配置中有6种优化效果未超过初始提示。当梯度LLM联合处理多个标准时，梯度特异性下降59%（从9.0降至3.7）。此外，简单合并各任务指令会导致斯皮尔曼相关系数下降5.3%。研究识别出两种可分离的失败模式：优化时的梯度稀释和推理时的指令干扰，这限制了多目标裁判定制的设计空间。

论文 LLM裁判多目标优化文本梯度提示优化失效模式

推荐理由：做LLM评估或裁判定制的团队，这篇论文点出了多目标优化时容易踩的坑——梯度稀释和指令干扰，看完能帮你避开无效的提示优化策略。

原文