X·KOLX:pandaily (@contact@pandaily.com (Pandaily))
中国科学技术大学(USTC)研究人员开源了一种创新的智能体驱动长上下文训练范式,该范式通过智能体引导的数据生成和训练策略,显著提升了长上下文处理效率。实验表明,一个30亿参数的模型在长上下文任务上达到了与阿里巴巴Qwen3-235B模型相当的性能,而参数量仅为后者的八分之一。这一突破降低了长上下文模型训练的门槛,为资源有限的团队提供了高效方案。该范式已开源,有望推动长上下文AI应用的普及。
X·KOLX:arXiv: Anthropic (@Arquimedes Canedo, Grama Chethan)
当AI Agent调用API遇到验证错误时,传统做法返回自然语言错误描述,但Agent往往无法有效修复。该论文提出Self-Reflective API,在验证失败时返回机器可读的结构化恢复建议(recovery_feedback.suggestions[]),使Agent能直接修复请求并重试,无需外部推理。在30个样本、3个LLM、10个对抗任务的实验中,结构化建议在Anthropic模型上将任务完成率提升36.7-40个百分点,且每个成功token效率提升1.8-2.2倍。在gpt-4o-mini上效果不显著,但计费API的二次验证确认了模式。研究还发现了LLM基准测试中两类未记录的答案泄露问题,并开源了审计工具。
X·KOLX:arXiv: DeepSeek (@Jiongjiong Gu, Jianfeng Wang, Zidong Han, Yongqiao Wang, Pengfei Xia, Mingjie Zhang, Hong Liu, Yuanyi Xia, Jiajia Chu, Yifeng Tang, Hui Zang, Xin Yao, Qijie Qiu, Yuzhao Wang, Chuanfei Xu, Lin Zhang, Zhuonan Lai, Hongming Huang, Jiawei Qiu, Gong Zhang, Zhong Ming, Weipeng Cao)
FlexNPU 提出了一种透明的用户空间虚拟化层,用于华为Ascend NPU,通过拦截AscendCL API并路由操作到设备守护进程,实现无需修改模型代码、AI框架或NPU驱动即可解耦应用与物理设备。该方案支持动态PD共置调度,根据prefill(计算密集)和decode(内存带宽受限)的互补资源特性灵活调整,解决了静态PD分离的资源不平衡和数据移动问题。在384卡Ascend 910C部署DeepSeek-R1时,相比静态PD分离,吞吐量提升5.15%和26.33%;在Qwen2.5-7B上,相比静态PD共置,TTFT降低超过92%且TPOT几乎不变。实验表明,透明NPU虚拟化是实现高效、响应式LLM服务的实用基础。