09:34arXiv: DeepSeek@Ruiyang Ma, Teng Ma, Junru Li, Hantian Zha, Xuchun Shang, Qingda Hu, Zheng Liu, Xinjun Yang, Tao Ma, Guojie Luo精选71°长上下文LLM推理的内存瓶颈日益突出。传统RDMA解耦内存池对于稀疏注意力模型效率低下,仍需完整获取KV缓存。SAC系统利用CXL的低延迟、缓存行粒度加载/存储语义,仅在推理时按需获取所需的top-k KV条目。在DeepSeek-V3.2上使用SGLang的评估显示,相比RDMA基线,SAC实现了2.1倍吞吐量提升、9.7倍TTFT降低和1.8倍TBT降低。论文SACCXLKV缓存稀疏注意力DeepSeek-V3.23 个信源在谈推荐理由:长上下文推理,内存传输是瓶颈。新方案SAC用CXL按需取KV缓存,比RDMA吞吐量翻倍、延迟降到十分之一,做稀疏推理的值得一看。原文
09:25arXiv: DeepSeek@Jingkun Luo, Yifan Sun, Da-Tian Peng, Guanxiong PeiSenFlow将混合文档中的句子级AI文本检测重构为结构化预测问题,在图传播与线性链CRF基础上实现整文档级联合解码。MOSAIC基准包含16,000篇混合文档,由DeepSeek-V3.2和Kimi K2生成,并引入困惑度一致性过滤。在跨域迁移最难协议下,SenFlow平均Macro-F1比现有方法高出4.15个百分点。研究还发现,即使经困惑度过滤后,AI插入的句子长度仍存在生成器依赖的差距。论文SenFlowMOSAICDeepSeek-V3.2Kimi K2AI生成文本检测2 个信源在谈推荐理由:这篇论文用SenFlow模型做混合人机文本检测,在MOSAIC基准上比现有方法高出4个多点的F1分数,还发现AI句子有长度特征。原文
11:57arXiv: DeepSeek@Tai Tran Tan, An Dinh Thien该论文描述了SemEval-2026 Task 6的系统,针对美国总统采访中的政治回避策略分类。比较了两种范式:使用QLoRA对Qwen3(4B-32B)进行参数高效微调,以及使用结构化CoT提示推理模型DeepSeek-V3.2和Grok-4-Fast。Grok-4-Fast在子任务2(9类回避)上取得Macro F1 0.5147,子任务1(3类清晰度)上0.7979,分别排名第8和第13。消融实验表明层次化标签和少样本示例提升了效果,但最强提示变体间Macro F1无显著差异。论文Grok-4-FastDeepSeek-V3.2Qwen3推理模型政治回避检测1 个信源在谈推荐理由:想知道怎么用CoT提示检测政治回避?这篇论文拿Grok-4-Fast跑出了0.51的F1,比微调Qwen3强,还分析了怎么设计提示最有效。原文
11:56arXiv: DeepSeek@Yi Ding, Zijie Xuan, Haowei Zhou, Zhenyu Ju, Xiaoxiao Dong, Jingwen Zhang, Xingyu Zhu, Leixin Sun, Haochi Zhang精选TCP-MCP 提出了一种将智能体提示和通信拓扑作为统一基因进行协同进化的框架,解决了传统方法中两者孤立设计的问题。该框架通过初始化景观探测校准早期搜索行为,并利用帕累托前沿诊断在任务性能、token 成本和结构复杂度三个目标下自适应探索。在 DeepSeek-V3.2 骨干模型上,TCP-MCP 在 MMLU-Pro、MMLU 和 GSM8K 上分别达到 82.66%、89.96% 和 96.61% 的准确率,相比辩论式系统最多节省 5.69 倍 token。实验表明,联合进化提示和通信结构是实现成本感知和任务自适应多智能体系统设计的实用路径。论文多智能体系统协同进化提示优化通信拓扑DeepSeek-V3.2推荐理由:多智能体系统设计者终于有了一个能同时优化提示和通信拓扑的框架——TCP-MCP 在保持高准确率的同时大幅降低 token 成本,做复杂协作任务的团队可以直接参考其方法。原文
11:54arXiv: DeepSeek@Hanjiang Wu, Abhimanyu Rajeshkumar Bambhaniya, Sarbartha Banerjee, Tuhin Khare, Sudarshan Srinivasan, Suvinay Subramanian, Souvik Kundu, Madhu Kumar, Midhilesh Elavazhagan, William Won, Amir Yazdanbakhsh, Tushar Krishna这篇论文系统研究了混合专家(MoE)大模型推理中的多级解耦策略,从分块预填充聚合、预填充-解码解耦到最新的算子级 Attention-FFN 解耦(AFD)。AFD 将注意力计算和 MoE-FFN 执行分别部署在不同 GPU 组上,以应对 MoE 模型中内存受限的注意力、计算密集的专家 FFN 以及 MoE 路由通信带来的异构资源需求。通过结合设备级内核测量和高保真网络模拟的框架,论文在真实工作负载下评估了各级解耦的收益与局限。结果表明,在严格的 TTFT/TPOT 服务等级目标下,AFD 在 DeepSeek-V3.2 上可维持约 4000 tokens/s 的系统吞吐量,而传统非 AFD 部署无法满足要求。论文还给出了根据工作负载和模型架构划分注意力与 FFN 的实用建议,为当前机架/集群级部署及未来解耦 AI 基础设施提供了设计原则。论文MoE推理优化解耦架构Attention-FFNDeepSeek-V3.2推荐理由:MoE 模型推理的瓶颈终于被系统性地拆解了——Attention-FFN 解耦让吞吐量提升到传统方案无法企及的水平,做大规模 MoE 推理部署的团队可以直接参考论文中的分区策略来优化集群。原文