13:00@atomic_chat_hq@atomic_chat_hqStepFun 的 Step 3.7 Flash 模型与 DeepSeek V4-Flash 在物理动画生成任务中直接对比。任务要求编写自包含 HTML5 Canvas 动画,包含高尔顿板、旋转六边形中弹跳的球、五个同步节拍器三个场景。Step 3.7 Flash 输出 59.6k tokens (9分57秒),DeepSeek V4-Flash 输出 52.5k tokens (6分21秒)。虽然 DeepSeek 更快,但 StepFun 在物理模拟、视觉效果和逻辑渲染三个维度全面获胜。AI模型Step 3.7 FlashDeepSeek V4-FlashStepFun代码生成基准测试1 个信源在谈推荐理由:StepFun 的 Step 3.7 Flash 在生成物理动画上把 DeepSeek V4-Flash 比下去了,慢点但模拟和画面都好很多。原文
10:49arXiv: DeepSeek@Xiaonan Xu, Wenjing Wu精选一篇来自 arXiv 的论文系统研究了技能文档的呈现粒度对大型语言模型智能体任务成功率的影响。实验基于 SkillsBench 基准,包含 30 个领域平衡的任务,测试了 GPT-5.5 和 DeepSeek V4-Flash 两种模型。结果显示,提供技能文档相比无技能条件,任务平均通过率提升 18 到 36 个百分点,效果显著。然而,技能文档的抽象程度(低抽象 vs 高抽象)以及是否包含示例对成功率的影响很小且统计上不显著。该研究表明,技能可用性是关键因素,而呈现细节的调整影响有限且依赖模型。论文LLM Agent技能文档任务成功率GPT-5.5DeepSeek V4-Flash推荐理由:做 LLM Agent 开发的团队终于有了实证依据:给智能体塞技能文档比纠结怎么写更管用。建议直接参考这个实验设计来优化自己的 RAG 或工具调用策略。原文