10:37arXiv: DeepSeek@Xuan Zhao, Haonan He, Qingyu Yang, Minglei Li, Jingqi Ye, Zelin Tan, Bo Wan, Peng Ye提出ParametricSkills框架,将自由格式的文本技能在测试时转换为LoRA参数适配器。该框架利用大规模技能库和OpenCode合成的单/多轮轨迹训练超网络。在六个软件工程子任务上,比上下文学习平均提升6.44个点(由DeepSeek-V4-Flash评判),BERT Score和F1分数也更高。参数化技能具有累积性,为测试时持续学习提供了初步方向。论文ParametricSkillsOpenCodeDeepSeek-V4-FlashLoRA软件工程2 个信源在谈推荐理由:这篇论文把技能文本直接转成模型参数,编程任务上比上下文学习高出6分多,还能不断积累,挺实用的。原文
16:31Pandaily@contact@pandaily.com (Pandaily)中国AI大模型API调用量连续九周位居全球第一。DeepSeek-V4-Flash、MiMo-V2.5和MiniMax M3是调用量最高的三个模型。同期美国市场份额从72%暴跌至33%,中国模型的API调用优势正在扩大。行业DeepSeek-V4-FlashMiMo-V2.5MiniMax M3API调用量市场份额5 个信源在谈推荐理由:中国AI模型API调用量九周全球第一,DeepSeek、MiMo、MiniMax这些国产模型很猛,美国份额从72%掉到33%,值得看看。原文
11:07arXiv cs.AI@Alexander V. Kozachok, Alexander M. Nazimov, Shamil G. Magomedov该研究扩展了Text2DSL自动生成领域特定语言代码的工作,用DeepSeek-V4-Flash作为教师模型,在结构化上下文(BNF语法、API规范、词汇表)下生成数据,经AST验证(使用esprima)和运行时验证(polkitd与pkcheck)的流水线,将PolkitBench语料从4,204对扩充到10,073对,其中AST有效性达100.0%、运行时通过率99.7%。在GigaChat-10B-A1.8B上对八种消融条件(C0-C7)评估发现:无上下文时语法有效从97.6%降至58.5%而完整上下文仅从98.6%降至97.4%,完整上下文C7在所有指标上最优,词汇表对语义质量贡献最大(组合得分+0.198),API和BNF分别对结构有效性贡献+24.7和+22.3个百分点。论文Text2DSLDeepSeek-V4-FlashGigaChat-10B-A1.8BPolkitBench模型蒸馏推荐理由:这篇论文用DeepSeek-V4-Flash生成了上万条验证过的Polkit规则,并通过消融实验证明结构化上下文不是锦上添花,词汇表才是提升语义质量的关键。原文
15:49Pandaily@contact@pandaily.com (Pandaily)76°根据OpenRouter数据,中国AI模型在API调用量上已连续六周超过美国,其中DeepSeek-V4-Flash位居榜首,MiniMax M3首次进入全球前三。这一趋势显示中国AI模型在应用层面正快速追赶并超越美国,尤其在性价比和实用性上获得开发者青睐。MiniMax M3的崛起标志着中国AI生态的多元化,不再仅依赖单一模型。行业中国AIAPI调用量DeepSeek-V4-FlashMiniMax M3OpenRouter1 个信源在谈推荐理由:中国AI模型在API调用量上持续领先美国,说明国产模型在实用性和成本上已获开发者认可,做AI应用或模型选型的团队值得关注这一趋势,MiniMax M3的突破尤其值得一试。原文
12:37arXiv: DeepSeek@Faizan Faisal精选一项新研究评估了GPT-5.4、DeepSeek-V4-Flash和Gemma-4-E4B在临床SOAP笔记生成中的表现,发现启用推理能力反而显著降低了GPT-5.4的输出质量。研究使用OMI Health、ACI-Bench和PriMock57三个数据集,通过2x2实验设计控制推理和检索增强生成(RAG)两个因素。结果显示,非推理配置的GPT-5.4整体质量最高,而DeepSeek-V4-Flash在推理配置中表现最佳。同源RAG带来模型依赖的小幅提升,但推理能力不应被假设为能自动改善对保真度敏感的临床文档生成。论文推理模型临床文档SOAP笔记GPT-5.4DeepSeek-V4-Flash推荐理由:医疗AI开发者注意了:推理模型在临床文档任务上可能适得其反,做医疗NLP的团队在部署前务必做任务专属评估,别盲目相信推理能力。原文