全部 AI 动态 · AI 热点

6月30日

09:19

掘金本周最热@猫猫头啊

精选

文章对比了Step 3.7 Flash、DeepSeek V4 Flash、Gemini 3.5 Flash在Agent场景下的代码生成效率、响应速度和工具调用稳定性。测试采用Claude Code工具，第一个案例从零搭建开发者日志站，Step 3.7 Flash一次生成，输出25.7k tokens，成本¥1.22，耗时2m30s；DeepSeek V4 Flash成本¥0.72，输出14k tokens。第二个案例搭建GitHub项目雷达，Step 3.7 Flash无错误完成，Gemini 3.5 Flash有2次自动修复报错。在视觉效果和稳定性上Step 3.7 Flash表现更优，但DeepSeek V4 Flash成本更低。

AI模型 Step 3.7 Flash DeepSeek V4 Flash Gemini 3.5 Flash 智能体代码生成

推荐理由：最近这几个Flash模型我帮你试了，Step 3.7 Flash写博客页和抓GitHub项目都很稳，页面好看，一次跑通，成本也就一两块钱，值得试试。

原文

6月29日

18:02

18:02IT之家（博客/媒体）

根据编程助手Cursor的数据，过去半年里无需人工审核直接上线生产环境的AI生成代码变更占比显著上升。AI产出代码的留存通过率也随之大幅提升，表明开发者认为其可靠性正在提高。尽管Cursor未直接量化代码质量，但平台数据显示AI在软件开发流程中承担更多工作。

AI产品 Cursor AI编码智能体代码生成编程助手

推荐理由：Cursor最近的数据告诉我们，开发者越来越敢让AI代码直接上线了，不用人盯着。比例半年涨了不少，说明AI写的代码确实更靠谱了。

原文

13:49

Microsoft AI@MicrosoftAI

微软宣布MAI-Code-1-Flash模型现已面向GitHub Copilot Business和Enterprise用户全面开放。该模型专注于代码生成，强调速度和效率，旨在帮助开发者用更少资源构建更多功能。MAI-Code-1-Flash是微软内部开发的轻量级代码模型，针对商业和企业级使用场景优化。通过集成到GitHub Copilot，用户可直接在代码编辑器中获得实时补全和建议。

AI模型 MAI-Code-1-Flash GitHub Copilot Microsoft 编程助手代码生成

推荐理由：微软把自家MAI-Code-1-Flash模型放进GitHub Copilot了，写代码更快更省资源，Business和Enterprise用户赶紧试试。

原文

13:49

Microsoft AI@MicrosoftAI

精选

微软推出新编程模型 MAI-Code-1-Flash，在真实 GitHub Copilot 环境中训练，具备高速和 token 高效特性。该模型可通过 VS Code 的 Copilot Chat 完成规划、构建、运行和测试。演示中，它从单个 frost banner 生成完整季节性快照并通过测试，耗时几分钟，成本仅几美分。

AI模型 MAI-Code-1-Flash Microsoft 编程助手代码生成 GitHub Copilot

推荐理由：微软出了个新模型 MAI-Code-1-Flash，直接在 Copilot 里跑，能自动把草图变成完整测试通过的代码，又快又便宜。

原文

6月28日

23:45

Aadit Sheth@aaditsh

Elon Musk 宣布 Grok 4.5 基于 1.5T 参数的 V9 基础模型，并加入 Cursor 代码数据进行补充训练，已在 SpaceX 和 Tesla 内部私有 beta 测试。早期评估显示其性能接近甚至可能超过 Opus 模型，RL 持续优化模型。SpaceX 计划今年每月发布一个完全从零训练的新模型。目前 Cursor 拥有 700 万日活开发者，多数因使用 Claude 开始使用 Cursor。

AI模型 Grok 4.5 Cursor SpaceX Opus 代码生成

推荐理由：Grok 4.5 用 Cursor 数据训练，性能直逼 Opus，而且 SpaceX 要每月发新模型，代码圈和 AI 圈都该看看。

原文

6月27日

12:23

Decoder@Matthias Bastian

精选

Epoch AI 发布新基准 MirrorCode，测试 AI 模型能否在无原始代码时重建完整程序。Claude Opus 4.7 以 56% 的解决率领先，曾在 14 小时内重建 16,000 行工具包。个别模型为单个 MirrorCode 任务连续运行 19 天，花费 2,600 美元。所有测试模型在最复杂任务上均失败。

AI模型 MirrorCode Epoch AI Claude Opus 4.7 代码生成基准测试

推荐理由：Epoch AI 搞了个新基准 MirrorCode，专测 AI 能不能凭空抄作业。Claude Opus 4.7 解了一半，但最难的题全挂，甚至有个模型烧了 19 天才花掉 2600 刀。

原文

6月26日

16:21

Pandaily@contact@pandaily.com (Pandaily)

阿里巴巴的 TRAE Work 平台新增 Design 模式，将需求分析、界面设计与代码生成整合在一个 AI 环境中。该模式下，用户可直接从 sketched wireframes 或 Figma 设计稿生成前端代码，支持 React/Vue 等框架。TRAE Work 基于通义千问模型，此次更新实现了从需求文档到可运行代码的闭环。

AI产品 TRAE Alibaba 编程助手代码生成设计模式

推荐理由：阿里 TRAE Work 加了个 Design 模式，现在能直接拿需求文档或设计稿生成代码，省去中间环节。

原文

02:58

Gary Marcus@GaryMarcus

Anthropic工程师在一场40分钟工作坊中展示了如何利用循环（loops）构建可运行数天的AI智能体。他们透露，Anthropic内部30%以上的代码已由循环编写，这极大加快了交付速度。工作坊拆解了智能体循环、工具调用、记忆管理和子智能体等核心组件。该方法被视为神经符号AI的典型应用，在持久任务执行上明显优于传统无循环生成式方法。

技巧 Anthropic 智能体 Agent循环工作流代码生成

推荐理由：Anthropic工程师手把手教你用循环搭建能跑好几天的智能体，内部30%代码都这么写，比大部分500美元的vibe编程课实在。

原文

6月25日

10:35

arXiv cs.LG@Alexandre Bouayad

WoFT（Weave of Formal Thought）提出一个形式化引擎和约束解码器，基于完整Tree-sitter规范实现语法验证的完备性。通过将GLR解析与推测性词法分析结合，解码器仅保留可扩展为有效程序前缀的子词标记。该方法还采用重加权睡眠（RWS）算法优化重要性加权证据下界（IW-ELBO），训练模型在生成中插入非终结符符号。在Python上对StarCoder2-3B进行微调后，每词元交叉熵相比文本SFT基线降低14.3%。

论文 WoFT StarCoder2 Tree-sitter 语法验证代码生成

推荐理由：想写更少bug的代码？WoFT帮你模型边生成边检查语法，比普通微调少14%错误，而且学会了用语法树当草稿纸。

原文

05:39

lmarena.ai@lmarena_ai

71°

GLM-5.2 (Max) 在 Code Arena: Frontend 排名第二，仅次于 Fable 5，但击败了 Claude Opus 4.8 (Thinking) 和 Opus 4.7 (Thinking)。对 Kimi-K2.6 胜率 61.0%，对 Sonnet 4.6 胜率 59.4%，对 Opus 4.7 (Thinking) 胜率 55.0%。最接近的挑战来自 GPT-5.5 (xHigh)（41.7% vs 40.0%）和 Opus 4.6（47.0% vs 42.4%）。与前任 GLM-5.1 打成平手（45.5% - 45.5%）。在 Brand & Marketing、Data & Analytics 等多项子类别中排名第一。

AI模型 GLM-5.2 Opus Kimi-K2.6 代码生成前端开发

推荐理由：GLM-5.2 在前端任务上干掉了 Claude Opus 系列，对 Kimi 和 Sonnet 胜率超 60%，开源模型里相当能打。

原文

03:24

Genspark@genspark_ai

Genspark 推出 Genspark Design，一款基于 Claude Opus 4.7 的 AI 设计工具。用户无需设计背景即可从草图生成专业设计，支持 UI 原型、视频、HTML 动画和海报。可上传 Figma 文件或保存设计复用于项目，并一键将设计转化为工作代码（基于 Genspark Code）。目前处于首发定价阶段。

AI产品 Genspark Design Claude Opus 4.7 设计工具代码生成 Figma

推荐理由：不用学设计软件，上传 Figma 或画个草图就能出 UI、视频、动画，还能一键转代码，设计师和产品经理都该试试。

原文

6月24日

16:25

marktechpost@Michal Sutter

文章对比了2026年16款生成式AI编码工具，分析了其核心特征与最佳适用场景。这些工具从逐行自动补全扩展到全应用生成、多智能体构建流水线。无需手动配置即可生成前端、后端和基础设施代码。适用于初级AI工程师和软件工程师。

AI产品生成式AI编码工具代码生成编码助手工具对比

推荐理由：还在手动写代码？2026年16款AI编码工具大比拼，看哪个最适合你的项目。从补全到全栈生成，一篇搞定选型。

原文

13:30

量子位@henry

Anthropic对其编程助手Claude Code进行了重要升级。目前该公司约65%的产品代码已由Claude Tag参与完成。这表明AI在大型模型公司的内部开发中渗透率已相当高。

AI产品 Claude Code Anthropic Claude Tag 编程助手代码生成

推荐理由：Claude Code又升级了，Anthropic自家65%的代码都用它写，编程助手的能力值得一试。

原文

10:42

AI Will@FinanceYF5

精选

Anthropic发布了Claude Tag，将其嵌入Slack，用户可在频道中像@同事一样@它分配任务。该功能在频道内共享上下文，无需重复解释。开启ambient模式后，Claude Tag会主动跟进未解决的任务。Anthropic内部65%的代码由Claude Tag生成。目前Enterprise和Team用户可用。

AI产品 Anthropic Claude Tag Slack 智能体代码生成

推荐理由：把Claude当同事用：Slack里@它分配任务，自动记忆上下文，Ambient模式主动跟进未解决问题。

原文

6月23日

12:52

Ate-a-Pi@svpino

如果你还在人工审查全部AI生成的代码，那说明效率太低。代码审查已成为软件开发的最大瓶颈。Santiago Valdarrama（@svpino）分享了改进方法，核心是减少审查范围、使用自动化工具、建立信任机制。他建议只审查关键路径代码，利用AI辅助审查，并逐步放宽对低风险代码的审查比例。

技巧代码生成 AI编程代码审查开发效率工作流

推荐理由：Santiago Valdarrama说别傻了，100%审查AI代码拖慢整个团队。他给了具体改进策略：缩小审查范围、用工具自动化，让开发快起来。

原文

11:08

arXiv cs.AI@Alexander V. Kozachok, Alexander M. Nazimov, Shamil G. Magomedov

论文将自然语言到DSL代码生成定义为Text2DSL新问题，并引入PolkitBench数据集，含4204对自然语言-Polkit规则对。实验在GigaChat-10B-A1.8B（18亿活跃参数）和Nemotron-3-Nano-30B-A3B（30亿活跃参数）两个MoE模型上测试。提供结构化上下文（BNF语法、API说明、允许标识符词汇）后，语法有效性达98.6-99.4%，结构有效性提升9.7-35.5个百分点，CodeBLEU分数提升60-95%。

论文 Text2DSL PolkitBench DSL 代码生成 LLM

推荐理由：这篇论文定义了Text2DSL任务，带了一个4204条规则的数据集PolkitBench，还发现喂给模型语法规则能让代码生成质量暴增，不用微调。

原文

6月21日

15:25

@koltregaskes@koltregaskes

GLM-5.2 在 DeepSWE 编程基准上取得 44% 的得分，超过 Kimi-K2.7 Code，成为目前最强的开源模型。不过它的运行成本更高，且每次输出更多 tokens。与封闭模型相比，Claude Fable 5 以 70% 的得分领先，差距明显。

AI模型 GLM-5.2 Kimi-K2.7 DeepSWE 开源模型代码生成

推荐理由：智谱的 GLM-5.2 代码上刚赢了 Kimi 的 K2.7，但更贵输出也更多，离顶级闭源还有距离。

原文

15:09

AI Will@FinanceYF5

Bessemer Venture Partners的最新调研显示，90%的技术/工程团队已将AI融入核心流程。具体数据：代码生成工具使用率92%，代码审查增强工具使用率79%，Agentic开发工具使用率60%。调研指出，团队间的真正差距不在于是否使用AI，而在于提速后能否维持代码质量和业务理解。

行业代码生成代码审查 Agentic开发 AI工程 BVP

推荐理由：BVP调研数据很实在：92%团队在用AI写代码，但真正拉开差距的是质量和理解，不是工具本身。

原文

14:59

idoubi@idoubicc

clonesite.ai 由 lumina__team 的 D 哥开发，能通过输入网址自动复刻网页，还原度达到95%以上。复刻过程中使用 browser-cli 对源网站进行语义重建和截图比对，每个元素经校对，最终交付基于 TanStack 的 TSX 组件代码。该工具目前仅支持单页面复刻，用户需在复刻完成后付费下载整套代码，用于项目冷启动。

AI产品 clonesite.ai lumina__team TanStack 网页复刻代码生成

推荐理由：D 哥做的 clonesite.ai 能直接输入网址复刻网页，还原度95%以上，交付 TanStack 代码，比同类 Agent 都准。

原文

6月19日

11:31

arXiv cs.AI@Maria Ivanova, Pavel Zadorozhny, Rodion Levichev, Ivan Petrov, Adamenko Pavel, Ivan Lopatin, Alexey Kutalev, Dmitrii Babaev

LiveCodeBench (LCB) 是广泛采用的代码生成基准，但仅限Python。新基准Multi-LCB将LCB任务转化为12种编程语言，包括Python、C++、Java等，保持原始污染控制和评估协议。研究者在Multi-LCB上评估了24个LLM，发现模型存在Python过拟合、语言特定污染和跨语言性能差异。Multi-LCB为多语言代码评估提供了严格的新基准，直接暴露了当前LLM在Python之外的短板。

AI模型 Multi-LCB LiveCodeBench 代码生成多语言基准测试

推荐理由：想测AI写代码的真本事？别只看Python了。Multi-LCB覆盖12种语言，一测就知道模型是不是只会Python，结果可能让你意外。

原文

11:28

marktechpost@Sana Hassan

本文使用Hugging Face加载的Salesforce CodeGen实现端到端工作流。除基础推理外，添加函数提取、语法检查、静态安全检查和单元测试验证。对最佳N个候选项进行重排序，组合多轮程序合成并实验不同提示风格。最后可视化迷你基准测试并将生成的工件导出为可复用文件。

技巧 Salesforce CodeGen Hugging Face Python 代码生成单元测试

推荐理由：手把手教你用Salesforce CodeGen写Python函数，还能自动验证和重排序，适合想提升代码生成质量的开发者。

原文

11:00

Augment Code@augmentcode

Augment Code 团队在 Cosmos 项目中使用一个 worker agent 处理整个设计文档，生成单个数千行 PR。该 agent 不仅实现设计，还自行修复 CI 失败并处理审查意见，无需拆 ticket 或 agent 间交接。团队认为单 agent 持有完整上下文能产出更连贯的变更，避免分块导致的假设不一致。此方法适用于大型项目，与多数团队的小范围 agent 工作方式形成对比。

技巧 Augment Cosmos 智能体代码生成 PR

推荐理由：Augment Code 分享了他们如何让一个 agent 一口气完成整个设计文档实现，省去拆 ticket 和接力，适合做大项目的人参考。

原文

09:35

arXiv: DeepSeek@Shi Chen, Rongcun Wang, Yuan Tian, Xiaoyuan Xie, Wei Song, Rubing Huang

该论文提出了SolidityBench，包含5,470个存储库级Solidity智能合约及其自然语言描述。同时提出SolidityScore，一种关注安全性修饰符、合约声明等域关键结构的语义度量。研究评估了Qwen2.5-Coder、DeepSeek-Coder和CodeLlama等模型在零样本、思维链、上下文学习、检索增强生成和监督微调五种方法上的表现。结果显示，通用模型在存储库级Solidity生成中存在结构性缺陷；在非参数方法中，检索增强生成效果最佳，而上下文学习在超过两个示例后因上下文饱和而性能下降；监督微调通过将Solidity特定约束内化到模型参数中实现了最大改进。

论文 Solidity SolidityBench SolidityScore Qwen2.5-Coder DeepSeek-Coder CodeLlama 智能合约代码生成

推荐理由：这篇论文为Solidity智能合约代码生成建了个新基准（5470个合约）和专用评分指标，测试了多个主流代码模型的各种方法，结论明确：靠谱的领域数据+微调最管用。

原文

6月18日

13:07

@atomic_chat_hq@atomic_chat_hq

精选

智谱GLM-5.2与月之暗面Kimi K2.7 Code在三个物理模拟HTML5编程任务中对比。GLM-5.2使用12,640 tokens完成全部任务，包括台球碰撞、弹簧上方方块弹跳和高尔顿板，粒子和动量表现正确。Kimi K2.7 Code仅用7,420 tokens，但三个场景均出现严重错误：方块穿透弹簧、台球碰撞不真实、高尔顿板珠子重叠。评测显示GLM-5.2在物理模拟细节和精度上显著优于Kimi K2.7 Code。

AI模型 GLM-5.2 Kimi K2.7 智谱代码生成物理模拟

推荐理由：智谱的GLM-5.2写物理模拟代码完胜Kimi K2.7，三个场景全部精准，Kimi翻车在弹簧穿透和球乱撞上。

原文

13:02

@atomic_chat_hq@atomic_chat_hq

精选

Fable 5 模型在三个真实物理模拟任务（混沌双摆、高尔顿板、WCSPH 旋转桶中水）中生成的 HTML5 仿真效果优于 Opus 4.8。水模拟中，Fable 5 生成的水体更连续稳定，而 Opus 4.8 在器壁附近出现较大空隙、粒子散落且流体不稳定。Fable 5 的生成成本为 3.35 美元（68.7k tokens，耗时 14 分 47 秒），Opus 4.8 为 0.93 美元（38.9k tokens，耗时 8 分 10 秒）。

AI模型 Fable 5 Opus 4.8 物理模拟代码生成 HTML5

推荐理由：Fable 5 写物理仿真比 Opus 4.8 更扎实，尤其水粒子效果更真实，虽然贵了点但值得一试。

原文

13:00

@atomic_chat_hq@atomic_chat_hq

StepFun 的 Step 3.7 Flash 模型与 DeepSeek V4-Flash 在物理动画生成任务中直接对比。任务要求编写自包含 HTML5 Canvas 动画，包含高尔顿板、旋转六边形中弹跳的球、五个同步节拍器三个场景。Step 3.7 Flash 输出 59.6k tokens (9分57秒)，DeepSeek V4-Flash 输出 52.5k tokens (6分21秒)。虽然 DeepSeek 更快，但 StepFun 在物理模拟、视觉效果和逻辑渲染三个维度全面获胜。

AI模型 Step 3.7 Flash DeepSeek V4-Flash StepFun 代码生成基准测试

推荐理由：StepFun 的 Step 3.7 Flash 在生成物理动画上把 DeepSeek V4-Flash 比下去了，慢点但模拟和画面都好很多。

原文

11:09

11:09IT之家（博客/媒体）

72°

华为昇腾宣布0 Day支持智谱GLM-5.2，昇腾A3系列已实现单双机及大EP推理部署。优化技术包括MOE大融合算子、通信与计算融合、注意力前处理与多Token预测、高并发调度与预填充延迟机制等。GLM-5.2在Code Arena盲测中取得全球可用模型第一，拥有1M上下文能力，长程任务表现介于Claude Opus 4.7与4.8之间。该模型在主流编程基准上保持开源SOTA，并已适配华为昇腾等国产算力平台。

AI模型 GLM-5.2 华为昇腾推理优化开源模型代码生成

推荐理由：华为昇腾0 Day适配智谱GLM-5.2，推理优化让长上下文编程更高效，开源模型性能比肩Claude Opus。

原文

05:56

elvis@omarsar0

精选

Block 公司构建了名为 Builderbot 的内部 AI 系统，通过 orchestrator 代理协调多个代理跨代码库工作。工程师在 Slack 中标记 Builderbot，系统即可自动研究、规划并发布代码。该平台每天处理 200,000 次操作，每周合并 1,500 个拉取请求，占 Block 全部生产代码变更的 15%。原本需要数月的工作现在只需数天完成。

AI产品 Builderbot Block 智能体代码生成编程助手

推荐理由：Block 内部搞了个 Builderbot，每天自动处理 20 万次操作、合并 1500 个 PR，把几个月的工作缩短到几天，效率太猛了。

原文

02:35

02:35Simon Willison’s Weblog（博客/媒体）

Charity Majors指出，2025年代码生产的经济学被彻底改变：生成代码变得几乎免费且即时。过去珍贵、被精心维护的代码行，如今变成可丢弃和可重新生成的消耗品。她强调，这反而要求更强的工程纪律，而非更少。

行业 Charity Majors AI辅助编程代码生成工程纪律

推荐理由：Charity Majors说，AI让写代码像免费喝水，但更需要工程纪律，而不是更松懈。值得一看。

原文

01:12

elvis@omarsar0

Boris Cherny指出，AI代码生成正迈入新阶段，模型能对越来越多任务生成正确代码。关键在于设置合适的护栏，并使用Claude Code配合高级模型和验证器（verifier）构成循环。开发者需持续喂入任务数据，识别并消除瓶颈。这种工作流能显著提升代码生成的准确率。

技巧 Claude Code 验证器代码生成编程助手工作流

推荐理由：Cherny分享了用Claude Code和验证器循环生成正确代码的实战方法，不是空谈趋势，值得想提升代码质量的开发者一试。

原文

6月17日

05:29

ollama@ollama

GLM-5.2 在 Design Arena 上以 1360 Elo 获得第一名，超过此前领先的 Claude Fable 5。该模型开源权重，排名较此前上升 4 位，Elo 提升 27 分。这使其成为 Design Arena 代码类别历史上最高 Elo 之一。GLM-5.2 由 Zai_org 发布。

AI模型 GLM-5.2 Design Arena Zai_org 开源模型代码生成

推荐理由：GLM-5.2 在代码设计赛上跑了第一，1360 Elo，超过 Claude Fable 5，还开源了，值得试试。

原文

03:01

LangChain@LangChainAI

LangSmith Sandboxes 允许 agent 在响应前验证生成的代码是否运行。适用于构建编码助手、CI agent 或数据管道等需要操作真实文件的场景。该功能解决了 agent 仅能描述而不能实际执行的问题。

AI产品 LangSmith 智能体代码生成 CI工具数据管道

推荐理由：LangSmith 推出了 Sandboxes，让 agent 真正跑代码并验证结果。适合做编程助手、CI 自动化或数据处理。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

20:29

AlphaSignal@AlphaSignalAI

精选

MPMWorlds是一个包含95,000个2D仿真视频的基准，覆盖液体、雪、沙子和弹性体。模型观看2.5秒场景后预测后续运动。代码生成方法能保持长期物理稳定性，但无法从帧中读取位置，隐藏坐标后精度骤降。扩散模型可捕获短期几何，但物体随时间消失、运动不真实。混合两种方法的简单门控机制超越单一模型。

论文 MPMWorlds 物理模拟代码生成扩散模型视频理解

推荐理由：这篇论文用MPMWorlds测试了AI看视频写物理代码的能力，发现代码生成稳但缺位置感知，扩散模型短时准但长期漂移，混合模型效果最好。

原文

19:02

kimmonismus@kimmonismus

VibeThinker-3B是仅3B参数的小模型，在AIME26上取得94.3分，在LiveCodeBench v6上Pass@1达80.2，在未见过的LeetCode比赛中正确率96.1%。其训练基于Qwen2.5-Coder，结合课程SFT、多领域RL、离线自蒸馏和最终RL指导阶段。结果表明，部分可验证推理能力可被高效压缩到小密集模型中。

AI模型 VibeThinker-3B Qwen2.5-Coder 推理模型小模型代码生成

推荐理由：3B的小模型在数学和代码推理上快追上大模型了，适合部署在低算力场景，值得关注。

原文

10:37

arXiv cs.LG@Tamim Zoabi, Ameen Ali, Liran Ringel, Lior Wolf

离散扩散语言模型通过并行生成令牌降低延迟，但独立选择易产生不兼容配置。本文提出训练免费解码框架，利用成对交互调整commit scores，通过变分松弛实现不动点更新。该方法无需辅助模型或重训练，可嵌入现有扩散解码流程。在推理和代码生成基准上，该方法在质量-延迟权衡方面取得一致改进。

论文离散扩散语言模型并行解码推理基准代码生成

推荐理由：不用额外训练，给离散扩散模型装上智能调度，并行生成质量更好、延迟更低。推理和代码生成都有效。

原文

09:03

berryxia@berryxia

精选

12B参数的Gemma 4 12B Coder GGUF模型基于Google的gemma-4-12B-it微调，专门针对代码生成和复杂推理。训练数据使用了Composer 2.5的真实通过案例，并由Fable 5辅助补全困难case，确保推理步骤导向可运行代码。模型采用GGUF格式，可在12GB显存的显卡甚至CPU上离线运行。下载量已突破6000，社区反馈在本地代码调试、补全、算法生成等场景表现出色。

AI模型 Gemma 4 12B Coder GGUF Fable 5 代码生成本地模型

推荐理由：Gemma 4 12B Coder 把 Fable 5 的推理链蒸馏到本地，12GB 显卡就能跑顶级代码生成，再也不用担心 API 费用和限制

原文

6月13日

13:01

elvis@omarsar0

Thorsten Ball在Day 3测试中，用Fable和deep^2实现跨CLI、Web服务器和另一服务器的功能。deep^2在去健身房前完成，花费20美元，但第一次运行未成功。Fable运行1小时40分钟，花费350美元，第一次尝试即成功。后续追问后Fable总花费升至457美元。两者都理解任务并构建了相同功能。

AI产品 Fable deep^2 编程助手代码生成 Amp

推荐理由：Fable贵17倍但一次成功，deep^2便宜需调试

原文

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

02:36

Perplexity@perplexity_ai

精选

Perplexity 宣布将 Deep Research 作为原生技能集成到其 Computer 产品中。该功能现在连接到驱动 Computer 的智能体框架，能够访问搜索、代码生成、长期运行的沙箱、连接器、工具和授权数据。这一整合使得用户可以在 Computer 环境中直接进行深度研究，无需切换工具。该功能目前对 Pro 和 Max 订阅用户开放。

AI产品 Perplexity Deep Research 智能体搜索代码生成

推荐理由：Perplexity 把深度研究能力直接嵌入到智能体框架里，做研究或数据分析的团队可以省去来回切换工具的麻烦，Pro/Max 用户值得立刻试试。

原文

6月11日

21:52

rohanpaul_ai@rohanpaul_ai

一篇论文提出，AI Agent 可能从根本上改变软件的本质，使代码不再是核心产物。传统软件是“冻结的意图”，而 Agent 能在运行时将意图转化为行动，生成代码作为一次性工具。这种转变是从预设计行为到协商行为的转变，系统会随条件变化持续解释目标。但这也带来新风险：静态程序在边界内失败，而 Agent 可能因漂移、过度自信或错误累积而失败。未来工程师不再是提示词写手或数字实习生监督者，而是定义意图、约束自主性、设计评估和检查推理轨迹的人。

论文 AI Agent 软件范式代码生成自主系统风险评估

推荐理由：这篇论文点出了 AI Agent 对软件范式的根本冲击——代码不再是最终产品，做架构设计或系统开发的团队值得一读，看完会对 Agent 的风险和工程师的新角色有更深理解。

原文

17:55

AI Will@FinanceYF5

一位用户让 Claude Fable 5 编写一个单行道红绿灯模拟程序，要求车辆随机进入并可视化呈现。模型严格遵循指令，只输出了可视化部分，没有添加任何额外功能或注释。这展示了 Claude Fable 5 在精确执行 prompt 方面的能力，对于需要干净、无冗余代码的开发者来说是一个亮点。

AI产品 Claude Fable 5 代码生成可视化红绿灯模拟 prompt 执行

推荐理由：对于追求 prompt 精准执行的 AI 编程用户，这个案例展示了 Claude Fable 5 如何严格按需求输出，不画蛇添足。做原型或演示的开发者可以借鉴这种干净输出的风格。

原文

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？