X·KOLX:arXiv: Anthropic (@Jason Starace)
一项预注册的对照研究系统比较了三种不同 scaffold(ReAct、多智能体 Planner-Actor-Rater、Planner-then-Executor)在五个模型(Claude Opus 4.7、Sonnet 4.6、Haiku 4.5、Gemini 3.1 Pro Preview、GPT-5.5)上的 GAIA 验证集表现。研究发现,仅 scaffold 选择就使同一模型的准确率波动高达 28 个百分点,证实了 scaffold 变化至少产生 10 个百分点的差距。更令人意外的是,更强大的模型并未对 scaffold 更不敏感——在更难的 Level 2 任务中,最强模型反而从结构化 scaffold 中获益最多。多智能体设计在 Anthropic 模型家族中优于 ReAct,但跨模型提供商时优势消失。结构化 scaffold 调用工具次数更少,但在困难任务中从错误中恢复的能力更强。这些结果表明,单 scaffold 的能力评估数字是 scaffold 条件性的,且随着模型改进,评估差距未必会缩小。
X·KOLX:arXiv: DeepSeek (@Saeid Jamshidi, Arghavan Moradi Dakhel, Kawser Wazed Nafi, Foutse Khomh)
该研究分析了多智能体LLM系统中幻觉的动态传播过程,通过500次级联实验追踪事实不一致性。结果显示,3级级联将归一化幻觉分数从0.422降至0.272,但事实准确性从0.789降至0.769,揭示了幻觉抑制与事实保留之间的权衡。不同模型表现各异:LLaMA-3-70B-Instruct幻觉最低,GPT-5.3生成更快但幻觉率更高。领域分析表明,科学领域幻觉较低,抽象领域较高。
X·KOLX:arXiv: DeepSeek (@Jianguo Zhu)
研究者发现了一种针对检索增强生成(RAG)系统的新型间接提示注入攻击模式,称为DACSI(文档作者控制信号冒充)。攻击者通过编写看似元数据、来源或策略信号的文档文本,让模型误将其视为可信的控制指令,从而绕过安全边界。该攻击无需显式命令,利用RAG将用户查询、检索文档和系统标签混合到同一自然语言提示中的设计缺陷。在DeepSeek V4 Pro、Qwen3.5-397B等6种模型上的实验表明,该攻击在多数模型上有效,尤其在高易感性设置中。研究建议通过源/通道分离来缓解此类攻击。
X·KOLX:arXiv: DeepSeek (@Yan Wang, Qifan Zhang, Jiachen Yu, Tian Liang, Dongyang Ma, Xiang Hu, Zibo Lin, Chunyang Li, Zhichao Wang, Jia Li, Yujiu Yang, Haitao Mi, Dong Yu)
FlashMemory-DeepSeek-V4 提出了一种名为 Lookahead Sparse Attention (LSA) 的新型推理范式,通过神经记忆索引器预测未来上下文需求,仅保留关键 KV 块在 GPU 内存中。该架构采用解耦训练策略,将索引器作为独立双编码器训练,无需加载主模型。在 LongBench-v2、LongMemEval 等长上下文评测中,LSA 将物理 KV 缓存压缩至全上下文基线的 13.5%,同时下游准确率平均提升 0.6%。在 50 万 token 极端长度下,物理 KV 缓存开销降低超过 90%,且不损害模型核心推理能力。
X·KOLX:arXiv: DeepSeek (@Xiaojun Wu, Cehao Yang, Honghao Liu, Xueyuan Lin, Wenjie Zhang, Zhichao Shi, Xuhui Jiang, Chengjin Xu, Jia Li, Jian Guo)
Bayesian-Agent 是一个跨框架的 LLM Agent 技能优化框架,它将可复用的技能和 SOP 视为关于冻结模型在特定提示、上下文和环境下能否成功的假设。该框架记录验证过的轨迹证据,维护每个技能的特征条件分类后验,并根据后验状态执行修补、拆分、压缩、退役和探索等操作。在 deepseek-v4-flash 上,增量修复将 SOP-Bench 从 80% 提升至 95%,Lifelong AgentBench 从 90% 提升至 100%,RealFin-Bench 从 45% 提升至 65%。该框架还支持 GenericAgent、mini-swe-agent 和 Claude Code 等后端,表明 Agent 技能进化应视为后验引导的优化,而非未校准的提示积累。代码已开源。