13:07@atomic_chat_hq@atomic_chat_hq精选智谱GLM-5.2与月之暗面Kimi K2.7 Code在三个物理模拟HTML5编程任务中对比。GLM-5.2使用12,640 tokens完成全部任务,包括台球碰撞、弹簧上方方块弹跳和高尔顿板,粒子和动量表现正确。Kimi K2.7 Code仅用7,420 tokens,但三个场景均出现严重错误:方块穿透弹簧、台球碰撞不真实、高尔顿板珠子重叠。评测显示GLM-5.2在物理模拟细节和精度上显著优于Kimi K2.7 Code。AI模型GLM-5.2Kimi K2.7智谱代码生成物理模拟推荐理由:智谱的GLM-5.2写物理模拟代码完胜Kimi K2.7,三个场景全部精准,Kimi翻车在弹簧穿透和球乱撞上。原文
13:02@atomic_chat_hq@atomic_chat_hq精选Fable 5 模型在三个真实物理模拟任务(混沌双摆、高尔顿板、WCSPH 旋转桶中水)中生成的 HTML5 仿真效果优于 Opus 4.8。水模拟中,Fable 5 生成的水体更连续稳定,而 Opus 4.8 在器壁附近出现较大空隙、粒子散落且流体不稳定。Fable 5 的生成成本为 3.35 美元(68.7k tokens,耗时 14 分 47 秒),Opus 4.8 为 0.93 美元(38.9k tokens,耗时 8 分 10 秒)。AI模型Fable 5Opus 4.8物理模拟代码生成HTML510 个信源在谈推荐理由:Fable 5 写物理仿真比 Opus 4.8 更扎实,尤其水粒子效果更真实,虽然贵了点但值得一试。原文
05:56elvis@omarsar0精选Block 公司构建了名为 Builderbot 的内部 AI 系统,通过 orchestrator 代理协调多个代理跨代码库工作。工程师在 Slack 中标记 Builderbot,系统即可自动研究、规划并发布代码。该平台每天处理 200,000 次操作,每周合并 1,500 个拉取请求,占 Block 全部生产代码变更的 15%。原本需要数月的工作现在只需数天完成。AI产品BuilderbotBlock智能体代码生成编程助手2 个信源在谈推荐理由:Block 内部搞了个 Builderbot,每天自动处理 20 万次操作、合并 1500 个 PR,把几个月的工作缩短到几天,效率太猛了。原文
20:29AlphaSignal@AlphaSignalAI精选MPMWorlds是一个包含95,000个2D仿真视频的基准,覆盖液体、雪、沙子和弹性体。模型观看2.5秒场景后预测后续运动。代码生成方法能保持长期物理稳定性,但无法从帧中读取位置,隐藏坐标后精度骤降。扩散模型可捕获短期几何,但物体随时间消失、运动不真实。混合两种方法的简单门控机制超越单一模型。论文MPMWorlds物理模拟代码生成扩散模型视频理解推荐理由:这篇论文用MPMWorlds测试了AI看视频写物理代码的能力,发现代码生成稳但缺位置感知,扩散模型短时准但长期漂移,混合模型效果最好。原文
09:03berryxia@berryxia精选12B参数的Gemma 4 12B Coder GGUF模型基于Google的gemma-4-12B-it微调,专门针对代码生成和复杂推理。训练数据使用了Composer 2.5的真实通过案例,并由Fable 5辅助补全困难case,确保推理步骤导向可运行代码。模型采用GGUF格式,可在12GB显存的显卡甚至CPU上离线运行。下载量已突破6000,社区反馈在本地代码调试、补全、算法生成等场景表现出色。AI模型Gemma 4 12B Coder GGUFFable 5代码生成本地模型10 个信源在谈推荐理由:Gemma 4 12B Coder 把 Fable 5 的推理链蒸馏到本地,12GB 显卡就能跑顶级代码生成,再也不用担心 API 费用和限制原文
02:36Perplexity@perplexity_ai精选Perplexity 宣布将 Deep Research 作为原生技能集成到其 Computer 产品中。该功能现在连接到驱动 Computer 的智能体框架,能够访问搜索、代码生成、长期运行的沙箱、连接器、工具和授权数据。这一整合使得用户可以在 Computer 环境中直接进行深度研究,无需切换工具。该功能目前对 Pro 和 Max 订阅用户开放。AI产品PerplexityDeep Research智能体搜索代码生成推荐理由:Perplexity 把深度研究能力直接嵌入到智能体框架里,做研究或数据分析的团队可以省去来回切换工具的麻烦,Pro/Max 用户值得立刻试试。原文
12:17Simon Willison’s Weblog(博客/媒体)精选Simon Willison 发布了 llm 0.32a3 版本,该版本的代码几乎完全由 Anthropic 的新模型 Claude Fable 5 编写。这标志着 AI 辅助编程进入新阶段,开发者只需描述需求即可获得完整实现。Simon 在博客中详细记录了这一过程,展示了 AI 生成代码的质量和效率。对于使用 llm 工具或关注 AI 编程的开发者来说,这是一个值得关注的里程碑。AI产品Claude Fable 5llmAI 编程代码生成开源/仓库10 个信源在谈推荐理由:Simon Willison 用实践证明了 Claude Fable 5 的代码生成能力,做工具开发或 AI 编程的团队可以看看 AI 如何独立完成一个完整项目,值得点开了解细节。原文
11:59arXiv cs.AI@George Perrett, Javae Elliott, Jennifer Hill, Marc Scott精选一篇新论文指出,当前LLM基准测试存在局限性,常基于训练数据中的内容评估性能,且未充分衡量可靠性和错误严重程度。研究者设计了一个需要编写代码完成数据分析任务的新基准,对比前沿LLM与人类专家的表现。结果显示,人类专家在多项指标上平均表现更好,且性能波动更小。该研究为LLM并非始终达到人类专家水平提供了证据,并强调了在基准评估中测量方差和错误严重程度的重要性。论文LLM基准测试人类专家可靠性代码生成推荐理由:这篇论文戳破了LLM“达到人类专家水平”的常见叙事,做AI评估或依赖LLM做高精度任务的团队值得细读,看完会对基准测试的可靠性有更深思考。原文
11:44Cognition@cognition_labs精选76°Devin 平台现已集成 Claude Fable 5 模型,该模型在 FrontierCode 基准测试中排名第一。FrontierCode 是评估真实工程任务中代码合并性和质量的基准。这一更新意味着开发者可以在 Devin 中使用当前最强的代码生成模型之一,提升自动化编程效率。AI产品DevinClaude Fable 5代码生成基准测试编程助手10 个信源在谈推荐理由:对于使用 Devin 做自动化编程的团队,Fable 5 的集成直接提升了代码质量和合并成功率,值得立即体验。原文
11:09arXiv cs.LG@Yuling Shi, Caiqi Zhang, Yuexian Li, Haopeng Wang, Yeheng Chen, Nigel Collier, Xiaodong Gu精选大型语言模型越来越多地用于代码生成,但静默错误程序带来安全风险。现有不确定性估计方法多继承自自然语言,忽略了代码的三个独特特性:单个错误标记可破坏整个程序(标记脆弱性)、算法意图与具体实现可能不一致(意图-代码差距)、以及程序可执行。研究者提出三个正交不确定性轴:词汇(Top-K token熵)、算法(伪代码一致性)和功能(行为一致性)。在五个代码LLM上,三轴集成将平均AUROC从0.696提升至0.776(+8.1点),且单次Top-K token熵在Qwen3-14B上匹配最强多基线,成本降低3倍以上。这表明代码不确定性估计需要代码特定的设计。论文代码生成不确定性估计LLM安全/可靠性Qwen3-14B推荐理由:代码生成的不确定性评估长期被自然语言方法误导,这篇论文给出了三个正交维度,做代码LLM安全评估或部署的团队值得仔细看,能直接改进选择性预测和人工审查流程。原文
13:07arXiv cs.LG@Guancheng Tu, Xiangjun Fu, Suhao Yu, Yao Tang, Haoqiang Kang, Lianhui Qin, Yizhe Zhang, Jiatao Gu精选大型语言模型通过显式思维链(CoT)提升推理能力,但文本CoT强制中间计算通过离散、串行的令牌流进行,效率低下。潜在推理通过在紧凑连续状态中进行中间计算,提供了更高带宽的替代方案。然而,现有潜在推理方法牺牲了CoT的关键优势,如从左到右生成、概率采样、KV缓存兼容性和可处理似然估计。本文提出NF-CoT框架,通过在LLM骨干网络内实例化TARFlow风格的归一化流,对从显式CoT中提取的紧凑连续思维进行可处理概率建模。NF-CoT在代码生成基准测试中,相比显式CoT和先前潜在推理基线,提高了通过率,同时大幅降低了中间推理成本。论文潜在推理归一化流思维链代码生成NF-CoT推荐理由:NF-CoT解决了潜在推理中丢失CoT关键优势的痛点,做LLM推理优化和代码生成的开发者可以直接参考其方法,提升效率。原文
09:05Aravind Srinivas@AravSrinivas精选76°Perplexity CEO Arav Srinivas 宣布,公司正从传统的“搜索作为网络抓取工具调用”转向“搜索即代码”架构。新架构让 AI 智能体直接编写 Python 代码调用搜索栈,而非逐次循环函数调用。这一转变旨在适应未来智能体环境中代码执行成为知识工作主流方式的趋势,使多步骤原语组合更自然,对智能体框架的变更更具适应性,并能受益于下一代模型在编程能力上的持续提升。该架构已通过 Perplexity Agent API 提供,并默认用于 Computer 模式。AI产品搜索即代码Perplexity智能体AI 架构代码生成推荐理由:Perplexity 把搜索从工具调用升级为代码生成,解决了智能体多步搜索效率低、难适配的问题。做 AI 智能体或搜索产品的开发者值得关注,可以直接在 Agent API 里体验。原文
00:33Hugging Face: Blog(博客/媒体)精选72°JetBrains 发布了 Mellum2,一个 12B 参数的混合专家(MoE)模型,专为代码生成和软件工程任务优化。该模型在 HumanEval 和 SWE-bench 等基准测试中表现优异,超越了同等规模的模型。Mellum2 基于 JetBrains 的代码数据训练,旨在为开发者提供更高效、更准确的代码补全和生成能力。该模型现已开源,可在 Hugging Face 上获取。AI模型JetBrainsMellum2MoE代码生成开源/仓库推荐理由:JetBrains 的 Mellum2 为 IDE 内代码生成带来了更精准的 MoE 方案,用 JetBrains 全家桶的开发者可以直接在 Hugging Face 上体验,看看它能否提升你的编码效率。原文
AITOP5月29日 08:02Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……
10:07arXiv: DeepSeek@Zhaohui Zheng, Chenhang He, Shihao Wang, Yuxuan Li, Ming-Ming Cheng, Lei Zhang精选论文提出Digit Entropy Loss(DEL),一种用于大语言模型(LLM)数值学习的新损失函数。现有方法如Number Token Loss和Discretized Distance Loss分别导致数字分布过尖锐或过平坦,而DEL通过将无监督熵优化改造为有监督形式,并摒弃数值距离项,解决了这一问题。DEL支持整数、小数和小数点,将学习目标从单个数字扩展到浮点数域。在CodeLlama、Mistral、DeepSeek和Qwen-2.5等四个代表性LLM上的七个数学推理基准测试中,DEL在预测准确性和数值距离上均优于现有方法。论文数值学习损失函数数学推理代码生成LLM训练推荐理由:数值预测是数学推理和代码生成的基础能力,DEL直接改进了LLM对数字的学习效果。做数学推理或代码生成模型训练的团队,值得关注这个新损失函数,它简单有效且开源可用。原文
10:51arXiv: DeepSeek@Ali Mohammadi Esfahani, Nafiseh Kahani, Samuel A. Ajila精选研究人员提出一个基于强化学习的框架,将提示词优化建模为序列决策问题。PPO代理通过混合动作空间(直接生成、遗传变异、语义重写)迭代改进提示词,并利用单元测试反馈的奖励信号驱动优化。在MBPP+、HumanEval+和APPS基准上,使用CodeT5+、CodeLLaMA和DeepSeek-Coder作为冻结代码生成器,PPO代理在MBPP+的500任务测试集上分别达到57.58%、64.80%和85.50%的严格Pass@1,优于EPiC、Reflexion和随机混合方法。软Pass@1分别达到67.90%、73.10%和88.20%。结果表明,带形状奖励的强化学习能显著提升LLM代码生成的功能正确性。论文提示词优化强化学习代码生成PPOLLM推荐理由:做LLM代码生成或提示词工程的开发者,这个框架直接解决了提示词敏感性问题——用RL自动优化提示词,比手动调参高效得多,建议关注其混合动作空间和奖励设计。原文
14:22arXiv cs.AI@Xuying Ning, Katherine Tieu, Dongqi Fu, Tianxin Wei, Zihao Li, Yuanchen Bei, Jiaru Zou, Mengting Ai, Zhining Liu, Ting-Wei Li, Lingjie Chen, Yanjun Zhao, Ke Yang, Bingxuan Li, Cheng Qian, Gaotang Li, Xiao Lin, Zhichen Zeng, Ruizhong Qiu, Sirui Chen, Yifan Sun, Xiyuan Yang, Ruida Wang, Rui Pan, Chenyuan Yang, Dylan Zhang, Liri Fang, Zikun Cui, Yang Cao, Pan Chen, Dorothy Sun, Ren Chen, Mahesh Srinivasan, Nipun Mathur, Yinglong Xia, Hong Li, Hong Yan, Pan Lu, Lingming Zhang, Tong Zhang, Hanghang Tong, Jingrui He精选72°本文提出“代码即智能体框架”概念,认为代码不仅是输出,更是智能体推理、行动、环境建模和执行验证的操作基础。论文从三个层次系统梳理:框架接口(代码连接推理与行动)、框架机制(规划、记忆、工具使用与反馈控制)、框架扩展(单智能体到多智能体协作)。覆盖编程助手、GUI/OS自动化、具身智能、科学发现、DevOps等应用场景,并指出评估、验证、状态共享等开放挑战。该视角为构建可执行、可验证、有状态的AI智能体系统提供了统一路线图。论文智能体代码生成框架/架构多智能体协作综述推荐理由:这篇综述把代码在智能体系统中的角色从“输出”提升到了“基础设施”层面,做智能体框架设计或工具链开发的团队值得一读,能帮你理清当前方法的脉络和未来方向。原文
10:13arXiv cs.AI@Shuyin Ouyang, Zhaozhi Qian, Faroq AL-Tam, Muhammad AL-Qurishi, Jie M. Zhang精选该论文系统研究了扩散语言模型在代码生成中的强化学习后训练,重点探索了三种维度:奖励设计、提示条件采样和任务难度。研究发现,静态检查作为无需执行的奖励信号,在HumanEval上使DiffuCoder从53.9提升至67.1,在LiveCodeBench上从14.9提升至15.5,同时减少9.4%的推理时间。中等程度的AST提示在困难任务上最有效,而奖励设计的最佳选择依赖于任务难度:相似度奖励在简单子集上更优,静态检查在困难子集上更可靠。这些发现表明,奖励设计和训练指导显著影响扩散RL在代码生成中的表现。论文代码生成强化学习扩散模型静态分析奖励设计推荐理由:做代码生成模型训练的团队会发现,静态检查奖励比执行测试更高效且能避免能力悬崖,建议在困难任务上优先采用。原文