全部 AI 动态 · AI 热点

6月26日

04:42

04:42

Gary Marcus@GaryMarcus

精选

一项使用1720亿token的测试发现，LLM在文档问答中无法完全避免幻觉。最佳模型在32K上下文编造答案率为1.19%，强模型通常为5%-7%，中等模型约25%。当上下文扩展到200K时，所有模型编造率至少10%。研究表明幻觉不仅源于检索失败，模型在事实缺失时仍过度自信回答。

论文 LLM 幻觉文档问答上下文长度 RAG

推荐理由：别以为用文档就能让LLM老老实实回答，1.19%的幻觉率也是定时炸弹，尤其长上下文风险更高。

6月17日

09:27

09:27IT之家（博客/媒体）

精选

智谱发布并开源 GLM-5.2 模型，支持 1M 无损上下文。在 Code Arena 盲测中取得全球可用模型第一。在多个长程任务基准上表现介于 Claude Opus 4.7 与 4.8 之间。编程基准上保持开源 SOTA，与 Claude Opus 4.8 可比。已适配华为昇腾、平头哥等国产算力平台，单位 token FLOPs 降至 2.9 倍。

AI模型 GLM-5.2 智谱 Code Arena 开源模型上下文长度

推荐理由：智谱的 GLM-5.2 开源了，1M 上下文还拿了 Code Arena 第一，编程和长任务都强，国产算力也能跑。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？