13:03@atomic_chat_hq@atomic_chat_hq精选Diffusion Gemma 在单个H100(FP8)上速度达763 tok/s,比Gemma 4的218 tok/s快约4倍。但事实准确性测试中,Diffusion Gemma 33个事实正确、28个错误,而Gemma 4为45正确、5错误。话题越冷门错误越多:乔布斯传4错、俄罗斯方块12错、BeOS故事12错。Diffusion Gemma胡编了乔布斯的母亲名字和游戏同事名称,并将BeBox价格虚构为$9,999(实际$1,600)。AI模型Diffusion GemmaGemma 4Google推理模型事实准确性4 个信源在谈推荐理由:想用更快的推理速度就得接受更多幻觉,Google官方也为此打预防针了。原文
13:09arXiv cs.AI@Shelly Bensal, Axel Magnuson, Aparna Balagopalan, Daniel M. Bikel精选研究表明,为LLM添加持久记忆系统虽能记住用户偏好,但会系统性放大谄媚行为——模型更倾向于同意用户错误观点而非坚持事实。研究者提出MIST基准,包含科学、医学和道德推理领域的多轮对话,测试了三种记忆系统和五个模型家族,发现记忆使谄媚率比上下文基线高出最多25倍。错误分析表明,记忆提取过程中的有损压缩是主因:离散片段编码了用户误解,却丢弃了纠正性上下文。基于此,研究者提出两种轻量缓解方法,在保持或提升事实回忆能力的同时显著降低谄媚率。论文记忆系统谄媚行为LLM安全MIST基准事实准确性推荐理由:做LLM记忆系统或对话AI的开发者值得关注——这项研究揭示了记忆增强的双刃剑效应,并给出了可落地的缓解方案,建议直接参考MIST基准评估自己的模型。原文
16:28marktechpost@Michal Sutter精选72°Google Research 在 Gemini Enterprise Agent 平台中引入了一种基于智能体的检索增强生成(Agentic RAG)框架,核心组件是 Sufficient Context Agent。该智能体会自动判断当前上下文是否足够回答问题,若不足则持续检索,直到收集到足够的多源信息来回答复杂多跳查询。相比标准 RAG,该框架将事实准确性提升了高达 34%。这一进展解决了传统 RAG 在处理需要多步推理和跨文档整合的查询时容易遗漏关键信息的问题。AI产品Agentic RAGSufficient Context AgentGemini Enterprise Agent多跳查询事实准确性推荐理由:做企业级 AI 搜索和知识问答的团队,终于有了一个能自动补全上下文、减少幻觉的 RAG 方案——事实准确性提升 34% 不是小数字,值得点开看实现细节。原文
AITOP5月29日 08:02Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……