04:42Gary Marcus@GaryMarcus精选一项使用1720亿token的测试发现,LLM在文档问答中无法完全避免幻觉。最佳模型在32K上下文编造答案率为1.19%,强模型通常为5%-7%,中等模型约25%。当上下文扩展到200K时,所有模型编造率至少10%。研究表明幻觉不仅源于检索失败,模型在事实缺失时仍过度自信回答。论文LLM幻觉文档问答上下文长度RAG推荐理由:别以为用文档就能让LLM老老实实回答,1.19%的幻觉率也是定时炸弹,尤其长上下文风险更高。原文
09:27IT之家(博客/媒体)精选智谱发布并开源 GLM-5.2 模型,支持 1M 无损上下文。在 Code Arena 盲测中取得全球可用模型第一。在多个长程任务基准上表现介于 Claude Opus 4.7 与 4.8 之间。编程基准上保持开源 SOTA,与 Claude Opus 4.8 可比。已适配华为昇腾、平头哥等国产算力平台,单位 token FLOPs 降至 2.9 倍。AI模型GLM-5.2智谱Code Arena开源模型上下文长度推荐理由:智谱的 GLM-5.2 开源了,1M 上下文还拿了 Code Arena 第一,编程和长任务都强,国产算力也能跑。原文