全部 AI 动态 · AI 热点

AITOP

6月11日

16:53

AI Will@FinanceYF5

AI模型 Claude Fable 5 前端开发代码生成排行榜 Anthropic

推荐理由：前端开发者可以关注这个新标杆——Claude Fable 5 在 HTML 和 React 子榜全拿第一，做 UI 生成或组件开发的团队值得试试。

原文

09:01

lmarena.ai@lmarena_ai

88°

Claude Fable 5 在 Code Arena 前端榜单中排名第一，全面领先 Opus-4.8。它在所有子榜单（HTML、React）和所有子类别（品牌营销、参考设计、数据分析、消费产品、游戏、模拟、内容创作工具）中均位列第一。同时，Fable 5 在 Agent Arena 中也以最大优势领先 Opus-4.8 和 GPT-5.5，在任务成功率和用户评价上表现突出，尽管可操控性稍弱。该模型在数百万真实世界长期代理任务中测试，涵盖代码编写、幻灯片制作、网页研究、应用构建和文档分析。Anthropic 的这一里程碑标志着前端开发与智能体领域的重要进步。

AI模型 Claude Fable 5 前端开发智能体代码生成 Anthropic

推荐理由：前端开发者可以直接用 Fable 5 提升 HTML/React 项目效率，智能体任务执行能力也远超竞品，做复杂自动化流程的团队值得关注。

原文

6月10日

14:19

AI Will@FinanceYF5

83°

开发者 Riley Brown 使用 Claude Fable (Mythos) 模型，仅通过一条提示就构建了一个类似 Replit 的移动应用，该应用能够构建、预览、编辑 Web 应用。提示中指定了使用 Daytona 进行沙盒隔离、Convex 作为数据库。整个过程展示了 Claude 在代码生成和复杂应用构建方面的强大能力，从单条提示到完整功能应用仅需一步。

AI产品 Claude 代码生成应用构建 Replit 全栈开发

推荐理由：这条消息展示了 Claude 在代码生成上的惊人突破——单条提示就能构建一个功能完整的 Replit 克隆，做全栈开发的团队值得看看，这可能会改变你构建原型的方式。

原文

13:54

歸藏(guizang.ai)@op7418

博主归藏测试了 Fable 5 模型，发现其在漏洞分析和 bug 寻找方面表现很强，但在代码生成上并不完美，写出的代码常有明显 bug，需要多次修复。相比 Fable 4.8，Fable 5 在某些方面提升显著，但在另一些方面提升有限，整体呈现偏科特点。该测试提醒开发者不要盲目依赖单一模型，需根据任务场景选择合适工具。

AI模型 Fable 5 漏洞分析代码生成模型评测偏科

推荐理由：做安全审计或漏洞分析的开发者可以重点关注 Fable 5 的强项，但写代码的团队要谨慎——它可能不是万能替代品，建议实测后再决定是否迁移。

原文

13:51

歸藏(guizang.ai)@op7418

用户归藏测试了 Fable 5 模型，发现其在漏洞分析和 bug 寻找方面表现很强，但在代码生成上并不完美，写出的代码常有明显 bug，需要多次修复才能完成。整体来看，Fable 5 是一个偏科严重的模型，某些方面比 4.8 好很多，但另一些方面提升有限。该评测为开发者提供了实际使用中的参考。

AI模型 Fable 5 模型评测漏洞分析代码生成偏科模型

推荐理由：做安全审计或漏洞分析的开发者可以重点关注 Fable 5 的强项，但写代码时别完全依赖它——实测有坑，建议搭配其他模型使用。

原文

13:48

AI Will@FinanceYF5

83°

开发者 Chris 使用 Claude 5 fable (extra high) 模型，通过单条提示“Make a Pokémon clone”生成了一款完整的宝可梦克隆游戏。模型经过1小时推理，一次性输出了约8000行代码，包含了全部151只第一代宝可梦的真实精灵图（正面/背面）、队伍图标、叫声、基础属性、类型、升级技能表、进化链、捕获率和成长曲线。这一成果展示了大型语言模型在复杂游戏开发中的潜力，无需多次迭代即可生成完整功能。

AI产品 Claude 游戏开发代码生成宝可梦 AI产品

推荐理由：游戏开发者或AI爱好者会震惊——Claude 用单条提示就完成了通常需要团队数周的工作，想测试AI极限的人可以直接看代码。

原文

12:17

12:17Simon Willison’s Weblog（博客/媒体）

精选

Simon Willison 发布了 llm 0.32a3 版本，该版本的代码几乎完全由 Anthropic 的新模型 Claude Fable 5 编写。这标志着 AI 辅助编程进入新阶段，开发者只需描述需求即可获得完整实现。Simon 在博客中详细记录了这一过程，展示了 AI 生成代码的质量和效率。对于使用 llm 工具或关注 AI 编程的开发者来说，这是一个值得关注的里程碑。

AI产品 Claude Fable 5 llm AI 编程代码生成开源/仓库

推荐理由：Simon Willison 用实践证明了 Claude Fable 5 的代码生成能力，做工具开发或 AI 编程的团队可以看看 AI 如何独立完成一个完整项目，值得点开了解细节。

原文

11:59

arXiv cs.AI@George Perrett, Javae Elliott, Jennifer Hill, Marc Scott

精选

一篇新论文指出，当前LLM基准测试存在局限性，常基于训练数据中的内容评估性能，且未充分衡量可靠性和错误严重程度。研究者设计了一个需要编写代码完成数据分析任务的新基准，对比前沿LLM与人类专家的表现。结果显示，人类专家在多项指标上平均表现更好，且性能波动更小。该研究为LLM并非始终达到人类专家水平提供了证据，并强调了在基准评估中测量方差和错误严重程度的重要性。

论文 LLM 基准测试人类专家可靠性代码生成

推荐理由：这篇论文戳破了LLM“达到人类专家水平”的常见叙事，做AI评估或依赖LLM做高精度任务的团队值得细读，看完会对基准测试的可靠性有更深思考。

原文

11:44

Cognition@cognition_labs

精选76°

Devin 平台现已集成 Claude Fable 5 模型，该模型在 FrontierCode 基准测试中排名第一。FrontierCode 是评估真实工程任务中代码合并性和质量的基准。这一更新意味着开发者可以在 Devin 中使用当前最强的代码生成模型之一，提升自动化编程效率。

AI产品 Devin Claude Fable 5 代码生成基准测试编程助手

推荐理由：对于使用 Devin 做自动化编程的团队，Fable 5 的集成直接提升了代码质量和合并成功率，值得立即体验。

原文

00:13

Google Gemini App@GeminiApp

精选

Gemini 3.5 Flash 能处理复杂视觉数据并转化为可运行的交互代码。它可分析参考图像的照明条件，构建一个交互式3D可视化器来预览光照设置。该模型演示了从视觉输入到功能性代码的端到端能力。

AI模型 Gemini 3.5 Flash 代码生成 3D可视化 Google

推荐理由：看Gemini 3.5 Flash从图生成3D代码

原文

6月9日

12:44

AI Will@FinanceYF5

Claude Code负责人Boris Cherny分享了他个人工作方式的巨大转变：6个月前所有代码还是他手写，现在全部由Claude生成。他的角色从写代码变成了向Claude描述功能需求，然后审查和微调结果。这反映了AI编程助手正在从根本上改变开发者的工作模式，从执行者转变为管理者。对于开发者而言，这意味着需要适应新的协作方式，而非被替代。

AI产品 Claude Code AI编程助手开发者工作流代码生成 Boris Cherny

推荐理由：Boris Cherny的亲身经历揭示了AI编程的落地真相——不是替代开发者，而是把开发者从手写代码中解放出来。做开发的团队和个人，建议看看这种新工作流怎么落地。

原文

11:09

arXiv cs.LG@Yuling Shi, Caiqi Zhang, Yuexian Li, Haopeng Wang, Yeheng Chen, Nigel Collier, Xiaodong Gu

精选

大型语言模型越来越多地用于代码生成，但静默错误程序带来安全风险。现有不确定性估计方法多继承自自然语言，忽略了代码的三个独特特性：单个错误标记可破坏整个程序（标记脆弱性）、算法意图与具体实现可能不一致（意图-代码差距）、以及程序可执行。研究者提出三个正交不确定性轴：词汇（Top-K token熵）、算法（伪代码一致性）和功能（行为一致性）。在五个代码LLM上，三轴集成将平均AUROC从0.696提升至0.776（+8.1点），且单次Top-K token熵在Qwen3-14B上匹配最强多基线，成本降低3倍以上。这表明代码不确定性估计需要代码特定的设计。

论文代码生成不确定性估计 LLM 安全/可靠性 Qwen3-14B

推荐理由：代码生成的不确定性评估长期被自然语言方法误导，这篇论文给出了三个正交维度，做代码LLM安全评估或部署的团队值得仔细看，能直接改进选择性预测和人工审查流程。

原文

6月8日

09:39

arXiv: DeepSeek@Yu Yu, Zhihong Sun, Jia Li, Yao Wan, Chuanyi Li, Hongyu Zhang, Ruyun Wang, Tao Huang, Zhi Jin, Ge Li, Chen Lyu

大型语言模型生成的代码虽语法正确，但运行速度通常远慢于人类优化代码。现有方法通过后迭代优化或微调模型来提升效率，但未能显式编码高效代码的结构模式。为此，研究者提出EffiSkel框架，通过三种互补策略提取并学习效率骨架（抽象的可复用结构模式），并采用多任务学习联合优化代码生成与骨架预测。实验表明，在Mercury基准上，基于DeepSeek-Coder (7B)的EffiSkel相比EffiCoder和CodeDPO，效率比分别提升11.11%和3.71%，平均加速比分别提升0.36和0.22。该工作为提升LLM生成代码的运行时性能提供了新思路。

论文代码生成效率优化结构模式多任务学习 LLM

推荐理由：做代码生成或LLM推理优化的开发者，EffiSkel直接解决了生成代码跑得慢的痛点——不用等后优化，训练时就注入效率骨架，值得关注其开源实现。

原文

6月7日

09:48

Greg Brockman@gdb

精选

OpenAI联合创始人Greg Brockman在推文中分享了他使用Codex的体会。他反思自己不使用Codex时，原因通常是缺少上下文（93次提及）、需要编写Skill（21次转发），或单纯没想到（657个赞）。他认为很少因为任务超出模型能力，当前模型能力“过盈”感觉很大（26164次查看）。这段经验提示开发者应多尝试用Codex，问题多出在应用方式而非能力限制。

技巧 Codex OpenAI 代码生成编程助手

推荐理由：Codex比你想象得更强

原文

6月6日

16:39

16:39IT之家（博客/媒体）

Anthropic 通过数据标注公司 Snorkel AI 的“Marlin”项目，雇佣约 1000 名人类软件工程师来微调 Claude Code 的性能。外包人员每项任务（约一小时）报酬 280 美元，负责编写提示词、审查代码并进行 A/B 测试，以训练模型生成更简化、易维护的代码。该项目旨在让 Claude Code 更贴近真实开发环境，目前仍在进行中，外包人员不知道所评估的模型版本。此举反映了 AI 公司依赖人类反馈来提升模型质量的行业趋势。

AI产品 Claude Code Anthropic 代码生成人类反馈外包训练

推荐理由：Anthropic 用真金白银砸出更懂开发的 Claude Code，做 AI 编程工具或依赖代码生成模型的团队值得关注——人类工程师的精细反馈正在定义下一代编程助手的质量天花板。

原文

6月5日

16:33

16:33IT之家（博客/媒体）

腾讯内部调整AI Token额度分配机制，从全员统一改为按工作任务动态调配，强调总投入只增不减。新机制保障能带来显著提效和价值产出的员工Token额度，不搞消耗量排名，避免焦虑。有员工代码量是他人3倍，管理升级后未受影响，反而获增配额。此前腾讯高管表示今年大部分代码由AI生成，工程师更专注架构设计。

行业腾讯 AI Token 资源分配代码生成管理机制

推荐理由：腾讯这次调整解决了AI资源分配中的公平与效率问题，做AI工具或内部AI平台的团队值得关注，看看如何平衡投入与产出。

原文

13:07

arXiv cs.LG@Guancheng Tu, Xiangjun Fu, Suhao Yu, Yao Tang, Haoqiang Kang, Lianhui Qin, Yizhe Zhang, Jiatao Gu

精选

大型语言模型通过显式思维链（CoT）提升推理能力，但文本CoT强制中间计算通过离散、串行的令牌流进行，效率低下。潜在推理通过在紧凑连续状态中进行中间计算，提供了更高带宽的替代方案。然而，现有潜在推理方法牺牲了CoT的关键优势，如从左到右生成、概率采样、KV缓存兼容性和可处理似然估计。本文提出NF-CoT框架，通过在LLM骨干网络内实例化TARFlow风格的归一化流，对从显式CoT中提取的紧凑连续思维进行可处理概率建模。NF-CoT在代码生成基准测试中，相比显式CoT和先前潜在推理基线，提高了通过率，同时大幅降低了中间推理成本。

论文潜在推理归一化流思维链代码生成 NF-CoT

推荐理由：NF-CoT解决了潜在推理中丢失CoT关键优势的痛点，做LLM推理优化和代码生成的开发者可以直接参考其方法，提升效率。

原文

11:09

11:09IT之家（博客/媒体）

腾讯高级执行副总裁汤道生在腾讯云AI产业应用大会上透露，今年腾讯大部分代码由AI生成，工程师更多时间用于架构设计和指导AI。腾讯已重组AI研发团队，搭建Hy3 preview模型，AI全面提速。腾讯总裁刘炽平表示，去年AI投入180亿元，今年至少翻倍。这一趋势表明AI正深度改变软件开发流程，工程师角色从写代码转向监督和优化AI输出。

行业 AI编程代码生成腾讯工程师 AI基础设施

推荐理由：腾讯作为国内科技巨头，其AI生成代码的实践对软件开发团队有直接参考价值——工程师可以少写代码、多关注架构，建议关注AI编程的团队点开看看。

原文

6月4日

16:44

AI Will@FinanceYF5

在 Build 大会上，某团队一次性发布了七款新模型，覆盖推理、代码生成、图像处理、语音转录和语音合成等核心能力。这些模型从零构建，采用干净的数据血统，追求极致效率，并作为一个模型家族无缝协作。此举展示了多模态 AI 模型家族化发展的新趋势，为开发者提供了更全面的工具链。

AI产品推理模型代码生成图像生成语音合成多模态

推荐理由：多模态模型家族化是当前 AI 发展的关键方向，做全栈 AI 应用的开发者可以直接关注这七款模型如何协作，提升开发效率。

原文

6月3日

08:24

a16z@a16z

a16z 合伙人 Yoko Li 指出，当前最有趣的视觉 AI 工具不再直接生成像素，而是生成最终输出背后的源代码。这一转变解锁了可编辑性、迭代能力和反馈循环，这是纯像素模型无法比拟的。视觉代码生成市场正围绕运行时（artifact 渲染或执行的环境）进行组织。这标志着视觉 AI 从“生成图片”向“生成可编辑的代码”演进，为设计师和开发者提供了更灵活的工作流。

行业视觉AI 代码生成 a16z 设计工具前端开发

推荐理由：a16z 点出了视觉 AI 从像素到代码的关键转向，做设计工具、前端开发或创意编程的团队值得关注——这可能是下一代视觉工作流的底层逻辑。

原文

6月2日

10:16

@OpenAIDevs@OpenAIDevs

OpenAI 宣布其 Codex 模型现已集成到 Amazon Bedrock 平台，开发者可以直接在 AWS 环境中使用 Codex 进行代码生成和自动化任务。这一集成降低了使用门槛，让 AWS 用户无需额外配置即可调用 Codex 的能力。Codex 擅长将自然语言转换为代码，适用于快速原型开发、自动化脚本编写等场景。此举标志着 OpenAI 与 AWS 的深度合作，进一步拓展了 Codex 在企业级应用中的覆盖范围。

AI产品 Codex Amazon Bedrock 代码生成 AWS OpenAI

推荐理由：AWS 开发者终于可以在 Bedrock 里直接用 Codex 写代码了，省去跨平台调用的麻烦，做云上自动化的团队建议试试。

原文

09:05

Aravind Srinivas@AravSrinivas

精选76°

Perplexity CEO Arav Srinivas 宣布，公司正从传统的“搜索作为网络抓取工具调用”转向“搜索即代码”架构。新架构让 AI 智能体直接编写 Python 代码调用搜索栈，而非逐次循环函数调用。这一转变旨在适应未来智能体环境中代码执行成为知识工作主流方式的趋势，使多步骤原语组合更自然，对智能体框架的变更更具适应性，并能受益于下一代模型在编程能力上的持续提升。该架构已通过 Perplexity Agent API 提供，并默认用于 Computer 模式。

AI产品搜索即代码 Perplexity 智能体 AI 架构代码生成

推荐理由：Perplexity 把搜索从工具调用升级为代码生成，解决了智能体多步搜索效率低、难适配的问题。做 AI 智能体或搜索产品的开发者值得关注，可以直接在 Agent API 里体验。

原文

00:33

00:33Hugging Face: Blog（博客/媒体）

精选72°

JetBrains 发布了 Mellum2，一个 12B 参数的混合专家（MoE）模型，专为代码生成和软件工程任务优化。该模型在 HumanEval 和 SWE-bench 等基准测试中表现优异，超越了同等规模的模型。Mellum2 基于 JetBrains 的代码数据训练，旨在为开发者提供更高效、更准确的代码补全和生成能力。该模型现已开源，可在 Hugging Face 上获取。

AI模型 JetBrains Mellum2 MoE 代码生成开源/仓库

推荐理由：JetBrains 的 Mellum2 为 IDE 内代码生成带来了更精准的 MoE 方案，用 JetBrains 全家桶的开发者可以直接在 Hugging Face 上体验，看看它能否提升你的编码效率。

原文

5月29日

21:49

shao__meng@shao__meng

Grok Build 0.1 模型现已集成到 Cursor 编辑器中，用户可以直接在 Cursor 中使用 Grok 进行代码生成和构建。这一更新为 Cursor 用户提供了新的 AI 编程助手选择，尤其适合需要快速原型开发和代码补全的开发者。目前该功能已上线，用户可立即体验。

AI产品 Grok Build Cursor 编程助手代码生成 AI 编辑器

推荐理由：Cursor 用户多了一个强大的模型选择——Grok Build 0.1 擅长代码生成，做快速原型或日常开发的可以直接切换试试。

原文

10:07

berryxia@berryxia

76°

ZenMux 平台现已免费提供 Claude Opus 4.8 体验，用户可直接通过 API 调用。有开发者用其生成纯 Three.js 图元构建的波音 747-400 飞机，从提示词到完整可运行 HTML 页面一次成型，比例严谨、细节到位。该模型在 SWE-bench、Terminal-Bench 等多项榜单排名第一，专为 Agent 与长程编码设计，代码与多模态理解能力显著提升。ZenMux 提供零延迟首发和限时免费额度，并支持按量计费与 Builder 套餐。

AI产品 Claude Opus 4.8 ZenMux Three.js 代码生成 Agent

推荐理由：Claude Opus 4.8 的复杂空间推理与工程代码能力在真实场景中得到了验证，做 3D 可视化或 Agent 开发的团队可以直接在 ZenMux 上免费试，一次成型的效果值得亲自跑一遍。

原文

05:55

Mike Krieger@mikeyk

88°

Anthropic 今日发布 Claude Opus 4.8 模型，早期用户 Mikey K. 分享了两周使用体验。该模型在代码生成中更诚实，会主动标注不确定的部分，并在交付前自我检查代码缺陷。用户表示 Opus 4.8 已成为其首选模型，尤其适合长时间自主运行的任务。这一改进提升了 AI 编程的可靠性和透明度。

AI模型 Claude Opus 4.8 代码生成自我审查编程助手 Anthropic

推荐理由：Claude Opus 4.8 的自我审查能力解决了 AI 代码质量不可控的痛点，做复杂编程或自动化任务的开发者可以直接上手体验。

原文

02:18

GitHub@github

88°

Anthropic 的 Claude Opus 4.8 现已正式可用，并开始在 GitHub Copilot 中逐步推出。早期测试显示，该模型在代码理解和生成方面相比前代有明显进步，尤其在处理复杂问题和大代码库导航时表现突出。开发者可以直接在 VS Code 或 Copilot CLI 中尝试。这标志着 AI 编程助手在真实开发场景中的能力又向前迈进了一步。

AI产品 Claude Opus 4.8 GitHub Copilot 代码生成编程助手 Anthropic

推荐理由：Claude Opus 4.8 在复杂代码理解和生成上实现了可感知的提升，做大型项目或维护遗留代码的开发者值得立即在 Copilot 中体验，看看它能否帮你省下调试时间。

原文

5月28日

17:56

宝玉@dotey

讨论 Agent 生成结果是否需要人工审查，关键在于验证方法是否可靠以及模型能力是否足够强。对于代码生成，中间结果可减少人工检查，但初始的 Plan/Design 和最终审查仍需人工把关。有观点认为，非专业架构师的人工审查可能反而带偏项目，Agent 提供的思路可能更优。

行业 Agent 人工审查代码生成验证方法模型能力

推荐理由：做 AI Agent 开发或使用的团队，看完会重新思考人工审查的边界——不是所有环节都需要人，但关键节点不能放。

原文

11:57

arXiv: DeepSeek@Loc Pham, Lang Hong Nguyet Anh, Thanh Le-Cong

现有大模型在函数式编程语言（如Haskell、OCaml、Scala）上表现远逊于命令式语言。研究者发现，单独微调每种语言无法共享函数式抽象，而多语言混合微调又会导致跨语言干扰。为此，他们提出FPMoE，一个基于稀疏混合专家架构的轻量级开源代码生成模型，包含三个语言专用专家和一个共享专家，后者捕捉单子推理、类型导向编程等跨语言模式。在FPEval基准上，FPMoE仅用3B活跃参数就超越了微调基线，性能匹敌DeepSeek-Coder-6.7B、Qwen2.5-Coder-14B-Instruct等更大模型。

论文函数式编程代码生成稀疏混合专家 Haskell OCaml Scala 开源/仓库

推荐理由：函数式编程开发者终于有了专属的代码生成模型——FPMoE用稀疏MoE解决了跨语言干扰和抽象丢失两大痛点，且3B参数就能达到14B模型的效果，值得Haskell/OCaml/Scala用户直接上手测试。

原文

5月26日

21:31

Ate-a-Pi@svpino

Oracle 在 AI 领域发力，其 26ai 版本实现了多项突破性功能。用户可以直接在数据库中运行大语言模型和嵌入模型，无需将数据发送到外部。数据库支持混合向量搜索（语义+关键词），并引入 JSON 关系二元性视图，兼顾关系模型的稳定性和 JSON 的灵活性。内置代码生成工具可辅助编写 SQL。这些特性让 Oracle 从传统企业级数据库转型为 AI 原生平台。

AI产品 Oracle AI 数据库向量搜索 JSON 关系二元性代码生成

推荐理由：数据库内直接运行 LLM 和嵌入模型，解决了数据隐私和传输延迟痛点，做企业级 AI 应用的开发者可以直接在 Oracle 中实现智能搜索和生成，省去额外架构。

原文

5月21日

10:07

arXiv: DeepSeek@Zhaohui Zheng, Chenhang He, Shihao Wang, Yuxuan Li, Ming-Ming Cheng, Lei Zhang

精选

论文提出Digit Entropy Loss（DEL），一种用于大语言模型（LLM）数值学习的新损失函数。现有方法如Number Token Loss和Discretized Distance Loss分别导致数字分布过尖锐或过平坦，而DEL通过将无监督熵优化改造为有监督形式，并摒弃数值距离项，解决了这一问题。DEL支持整数、小数和小数点，将学习目标从单个数字扩展到浮点数域。在CodeLlama、Mistral、DeepSeek和Qwen-2.5等四个代表性LLM上的七个数学推理基准测试中，DEL在预测准确性和数值距离上均优于现有方法。

论文数值学习损失函数数学推理代码生成 LLM训练

推荐理由：数值预测是数学推理和代码生成的基础能力，DEL直接改进了LLM对数字的学习效果。做数学推理或代码生成模型训练的团队，值得关注这个新损失函数，它简单有效且开源可用。

原文

5月20日

10:51

arXiv: DeepSeek@Ali Mohammadi Esfahani, Nafiseh Kahani, Samuel A. Ajila

精选

研究人员提出一个基于强化学习的框架，将提示词优化建模为序列决策问题。PPO代理通过混合动作空间（直接生成、遗传变异、语义重写）迭代改进提示词，并利用单元测试反馈的奖励信号驱动优化。在MBPP+、HumanEval+和APPS基准上，使用CodeT5+、CodeLLaMA和DeepSeek-Coder作为冻结代码生成器，PPO代理在MBPP+的500任务测试集上分别达到57.58%、64.80%和85.50%的严格Pass@1，优于EPiC、Reflexion和随机混合方法。软Pass@1分别达到67.90%、73.10%和88.20%。结果表明，带形状奖励的强化学习能显著提升LLM代码生成的功能正确性。

论文提示词优化强化学习代码生成 PPO LLM

推荐理由：做LLM代码生成或提示词工程的开发者，这个框架直接解决了提示词敏感性问题——用RL自动优化提示词，比手动调参高效得多，建议关注其混合动作空间和奖励设计。

原文

03:04

03:04IT之家（博客/媒体）

76°

在2026谷歌I/O大会上，谷歌宣布推出专为科研设计的Gemini模型——Gemini for Science。该模型能够追踪最新论文、将研究目标转化为可执行代码，并生成新的科学假设。谷歌还提及了模拟人工智能的未来方向，计划模拟更复杂的系统甚至虚拟细胞。目前，谷歌已有多个项目处于临床前阶段，涵盖免疫疾病和癌症，旨在加速药物发现过程。

AI产品 Gemini 科研助手论文追踪代码生成药物发现

推荐理由：科研人员终于有了AI助手来追踪论文和写实验代码，做生物医药或材料科学的团队可以直接用Gemini for Science加速研究，建议点开看看具体怎么用。

原文

5月19日

14:22

arXiv cs.AI@Xuying Ning, Katherine Tieu, Dongqi Fu, Tianxin Wei, Zihao Li, Yuanchen Bei, Jiaru Zou, Mengting Ai, Zhining Liu, Ting-Wei Li, Lingjie Chen, Yanjun Zhao, Ke Yang, Bingxuan Li, Cheng Qian, Gaotang Li, Xiao Lin, Zhichen Zeng, Ruizhong Qiu, Sirui Chen, Yifan Sun, Xiyuan Yang, Ruida Wang, Rui Pan, Chenyuan Yang, Dylan Zhang, Liri Fang, Zikun Cui, Yang Cao, Pan Chen, Dorothy Sun, Ren Chen, Mahesh Srinivasan, Nipun Mathur, Yinglong Xia, Hong Li, Hong Yan, Pan Lu, Lingming Zhang, Tong Zhang, Hanghang Tong, Jingrui He

精选72°

本文提出“代码即智能体框架”概念，认为代码不仅是输出，更是智能体推理、行动、环境建模和执行验证的操作基础。论文从三个层次系统梳理：框架接口（代码连接推理与行动）、框架机制（规划、记忆、工具使用与反馈控制）、框架扩展（单智能体到多智能体协作）。覆盖编程助手、GUI/OS自动化、具身智能、科学发现、DevOps等应用场景，并指出评估、验证、状态共享等开放挑战。该视角为构建可执行、可验证、有状态的AI智能体系统提供了统一路线图。

论文智能体代码生成框架/架构多智能体协作综述

推荐理由：这篇综述把代码在智能体系统中的角色从“输出”提升到了“基础设施”层面，做智能体框架设计或工具链开发的团队值得一读，能帮你理清当前方法的脉络和未来方向。

原文

10:13