09:19掘金本周最热@猫猫头啊精选文章对比了Step 3.7 Flash、DeepSeek V4 Flash、Gemini 3.5 Flash在Agent场景下的代码生成效率、响应速度和工具调用稳定性。测试采用Claude Code工具,第一个案例从零搭建开发者日志站,Step 3.7 Flash一次生成,输出25.7k tokens,成本¥1.22,耗时2m30s;DeepSeek V4 Flash成本¥0.72,输出14k tokens。第二个案例搭建GitHub项目雷达,Step 3.7 Flash无错误完成,Gemini 3.5 Flash有2次自动修复报错。在视觉效果和稳定性上Step 3.7 Flash表现更优,但DeepSeek V4 Flash成本更低。AI模型Step 3.7 FlashDeepSeek V4 FlashGemini 3.5 Flash智能体代码生成1 个信源在谈推荐理由:最近这几个Flash模型我帮你试了,Step 3.7 Flash写博客页和抓GitHub项目都很稳,页面好看,一次跑通,成本也就一两块钱,值得试试。原文
18:02IT之家(博客/媒体)根据编程助手Cursor的数据,过去半年里无需人工审核直接上线生产环境的AI生成代码变更占比显著上升。AI产出代码的留存通过率也随之大幅提升,表明开发者认为其可靠性正在提高。尽管Cursor未直接量化代码质量,但平台数据显示AI在软件开发流程中承担更多工作。AI产品CursorAI编码智能体代码生成编程助手4 个信源在谈推荐理由:Cursor最近的数据告诉我们,开发者越来越敢让AI代码直接上线了,不用人盯着。比例半年涨了不少,说明AI写的代码确实更靠谱了。原文
13:49Microsoft AI@MicrosoftAI微软宣布MAI-Code-1-Flash模型现已面向GitHub Copilot Business和Enterprise用户全面开放。该模型专注于代码生成,强调速度和效率,旨在帮助开发者用更少资源构建更多功能。MAI-Code-1-Flash是微软内部开发的轻量级代码模型,针对商业和企业级使用场景优化。通过集成到GitHub Copilot,用户可直接在代码编辑器中获得实时补全和建议。AI模型MAI-Code-1-FlashGitHub CopilotMicrosoft编程助手代码生成推荐理由:微软把自家MAI-Code-1-Flash模型放进GitHub Copilot了,写代码更快更省资源,Business和Enterprise用户赶紧试试。原文
13:49Microsoft AI@MicrosoftAI精选微软推出新编程模型 MAI-Code-1-Flash,在真实 GitHub Copilot 环境中训练,具备高速和 token 高效特性。该模型可通过 VS Code 的 Copilot Chat 完成规划、构建、运行和测试。演示中,它从单个 frost banner 生成完整季节性快照并通过测试,耗时几分钟,成本仅几美分。AI模型MAI-Code-1-FlashMicrosoft编程助手代码生成GitHub Copilot推荐理由:微软出了个新模型 MAI-Code-1-Flash,直接在 Copilot 里跑,能自动把草图变成完整测试通过的代码,又快又便宜。原文
23:45Aadit Sheth@aaditshElon Musk 宣布 Grok 4.5 基于 1.5T 参数的 V9 基础模型,并加入 Cursor 代码数据进行补充训练,已在 SpaceX 和 Tesla 内部私有 beta 测试。早期评估显示其性能接近甚至可能超过 Opus 模型,RL 持续优化模型。SpaceX 计划今年每月发布一个完全从零训练的新模型。目前 Cursor 拥有 700 万日活开发者,多数因使用 Claude 开始使用 Cursor。AI模型Grok 4.5CursorSpaceXOpus代码生成10 个信源在谈推荐理由:Grok 4.5 用 Cursor 数据训练,性能直逼 Opus,而且 SpaceX 要每月发新模型,代码圈和 AI 圈都该看看。原文
12:23Decoder@Matthias Bastian精选Epoch AI 发布新基准 MirrorCode,测试 AI 模型能否在无原始代码时重建完整程序。Claude Opus 4.7 以 56% 的解决率领先,曾在 14 小时内重建 16,000 行工具包。个别模型为单个 MirrorCode 任务连续运行 19 天,花费 2,600 美元。所有测试模型在最复杂任务上均失败。AI模型MirrorCodeEpoch AIClaude Opus 4.7代码生成基准测试1 个信源在谈推荐理由:Epoch AI 搞了个新基准 MirrorCode,专测 AI 能不能凭空抄作业。Claude Opus 4.7 解了一半,但最难的题全挂,甚至有个模型烧了 19 天才花掉 2600 刀。原文
16:21Pandaily@contact@pandaily.com (Pandaily)阿里巴巴的 TRAE Work 平台新增 Design 模式,将需求分析、界面设计与代码生成整合在一个 AI 环境中。该模式下,用户可直接从 sketched wireframes 或 Figma 设计稿生成前端代码,支持 React/Vue 等框架。TRAE Work 基于通义千问模型,此次更新实现了从需求文档到可运行代码的闭环。AI产品TRAEAlibaba编程助手代码生成设计模式4 个信源在谈推荐理由:阿里 TRAE Work 加了个 Design 模式,现在能直接拿需求文档或设计稿生成代码,省去中间环节。原文
02:58Gary Marcus@GaryMarcusAnthropic工程师在一场40分钟工作坊中展示了如何利用循环(loops)构建可运行数天的AI智能体。他们透露,Anthropic内部30%以上的代码已由循环编写,这极大加快了交付速度。工作坊拆解了智能体循环、工具调用、记忆管理和子智能体等核心组件。该方法被视为神经符号AI的典型应用,在持久任务执行上明显优于传统无循环生成式方法。技巧Anthropic智能体Agent循环工作流代码生成10 个信源在谈推荐理由:Anthropic工程师手把手教你用循环搭建能跑好几天的智能体,内部30%代码都这么写,比大部分500美元的vibe编程课实在。原文
10:35arXiv cs.LG@Alexandre BouayadWoFT(Weave of Formal Thought)提出一个形式化引擎和约束解码器,基于完整Tree-sitter规范实现语法验证的完备性。通过将GLR解析与推测性词法分析结合,解码器仅保留可扩展为有效程序前缀的子词标记。该方法还采用重加权睡眠(RWS)算法优化重要性加权证据下界(IW-ELBO),训练模型在生成中插入非终结符符号。在Python上对StarCoder2-3B进行微调后,每词元交叉熵相比文本SFT基线降低14.3%。论文WoFTStarCoder2Tree-sitter语法验证代码生成推荐理由:想写更少bug的代码?WoFT帮你模型边生成边检查语法,比普通微调少14%错误,而且学会了用语法树当草稿纸。原文
05:39lmarena.ai@lmarena_ai71°GLM-5.2 (Max) 在 Code Arena: Frontend 排名第二,仅次于 Fable 5,但击败了 Claude Opus 4.8 (Thinking) 和 Opus 4.7 (Thinking)。对 Kimi-K2.6 胜率 61.0%,对 Sonnet 4.6 胜率 59.4%,对 Opus 4.7 (Thinking) 胜率 55.0%。最接近的挑战来自 GPT-5.5 (xHigh)(41.7% vs 40.0%)和 Opus 4.6(47.0% vs 42.4%)。与前任 GLM-5.1 打成平手(45.5% - 45.5%)。在 Brand & Marketing、Data & Analytics 等多项子类别中排名第一。AI模型GLM-5.2OpusKimi-K2.6代码生成前端开发推荐理由:GLM-5.2 在前端任务上干掉了 Claude Opus 系列,对 Kimi 和 Sonnet 胜率超 60%,开源模型里相当能打。原文
03:24Genspark@genspark_aiGenspark 推出 Genspark Design,一款基于 Claude Opus 4.7 的 AI 设计工具。用户无需设计背景即可从草图生成专业设计,支持 UI 原型、视频、HTML 动画和海报。可上传 Figma 文件或保存设计复用于项目,并一键将设计转化为工作代码(基于 Genspark Code)。目前处于首发定价阶段。AI产品Genspark DesignClaude Opus 4.7设计工具代码生成Figma6 个信源在谈推荐理由:不用学设计软件,上传 Figma 或画个草图就能出 UI、视频、动画,还能一键转代码,设计师和产品经理都该试试。原文
16:25marktechpost@Michal Sutter文章对比了2026年16款生成式AI编码工具,分析了其核心特征与最佳适用场景。这些工具从逐行自动补全扩展到全应用生成、多智能体构建流水线。无需手动配置即可生成前端、后端和基础设施代码。适用于初级AI工程师和软件工程师。AI产品生成式AI编码工具代码生成编码助手工具对比推荐理由:还在手动写代码?2026年16款AI编码工具大比拼,看哪个最适合你的项目。从补全到全栈生成,一篇搞定选型。原文
13:30量子位@henryAnthropic对其编程助手Claude Code进行了重要升级。目前该公司约65%的产品代码已由Claude Tag参与完成。这表明AI在大型模型公司的内部开发中渗透率已相当高。AI产品Claude CodeAnthropicClaude Tag编程助手代码生成10 个信源在谈推荐理由:Claude Code又升级了,Anthropic自家65%的代码都用它写,编程助手的能力值得一试。原文
10:42AI Will@FinanceYF5精选Anthropic发布了Claude Tag,将其嵌入Slack,用户可在频道中像@同事一样@它分配任务。该功能在频道内共享上下文,无需重复解释。开启ambient模式后,Claude Tag会主动跟进未解决的任务。Anthropic内部65%的代码由Claude Tag生成。目前Enterprise和Team用户可用。AI产品AnthropicClaude TagSlack智能体代码生成10 个信源在谈推荐理由:把Claude当同事用:Slack里@它分配任务,自动记忆上下文,Ambient模式主动跟进未解决问题。原文
12:52Ate-a-Pi@svpino如果你还在人工审查全部AI生成的代码,那说明效率太低。代码审查已成为软件开发的最大瓶颈。Santiago Valdarrama(@svpino)分享了改进方法,核心是减少审查范围、使用自动化工具、建立信任机制。他建议只审查关键路径代码,利用AI辅助审查,并逐步放宽对低风险代码的审查比例。技巧代码生成AI编程代码审查开发效率工作流推荐理由:Santiago Valdarrama说别傻了,100%审查AI代码拖慢整个团队。他给了具体改进策略:缩小审查范围、用工具自动化,让开发快起来。原文
11:08arXiv cs.AI@Alexander V. Kozachok, Alexander M. Nazimov, Shamil G. Magomedov论文将自然语言到DSL代码生成定义为Text2DSL新问题,并引入PolkitBench数据集,含4204对自然语言-Polkit规则对。实验在GigaChat-10B-A1.8B(18亿活跃参数)和Nemotron-3-Nano-30B-A3B(30亿活跃参数)两个MoE模型上测试。提供结构化上下文(BNF语法、API说明、允许标识符词汇)后,语法有效性达98.6-99.4%,结构有效性提升9.7-35.5个百分点,CodeBLEU分数提升60-95%。论文Text2DSLPolkitBenchDSL代码生成LLM推荐理由:这篇论文定义了Text2DSL任务,带了一个4204条规则的数据集PolkitBench,还发现喂给模型语法规则能让代码生成质量暴增,不用微调。原文
15:25@koltregaskes@koltregaskesGLM-5.2 在 DeepSWE 编程基准上取得 44% 的得分,超过 Kimi-K2.7 Code,成为目前最强的开源模型。不过它的运行成本更高,且每次输出更多 tokens。与封闭模型相比,Claude Fable 5 以 70% 的得分领先,差距明显。AI模型GLM-5.2Kimi-K2.7DeepSWE开源模型代码生成推荐理由:智谱的 GLM-5.2 代码上刚赢了 Kimi 的 K2.7,但更贵输出也更多,离顶级闭源还有距离。原文
15:09AI Will@FinanceYF5Bessemer Venture Partners的最新调研显示,90%的技术/工程团队已将AI融入核心流程。具体数据:代码生成工具使用率92%,代码审查增强工具使用率79%,Agentic开发工具使用率60%。调研指出,团队间的真正差距不在于是否使用AI,而在于提速后能否维持代码质量和业务理解。行业代码生成代码审查Agentic开发AI工程BVP推荐理由:BVP调研数据很实在:92%团队在用AI写代码,但真正拉开差距的是质量和理解,不是工具本身。原文
14:59idoubi@idoubiccclonesite.ai 由 lumina__team 的 D 哥开发,能通过输入网址自动复刻网页,还原度达到95%以上。复刻过程中使用 browser-cli 对源网站进行语义重建和截图比对,每个元素经校对,最终交付基于 TanStack 的 TSX 组件代码。该工具目前仅支持单页面复刻,用户需在复刻完成后付费下载整套代码,用于项目冷启动。AI产品clonesite.ailumina__teamTanStack网页复刻代码生成推荐理由:D 哥做的 clonesite.ai 能直接输入网址复刻网页,还原度95%以上,交付 TanStack 代码,比同类 Agent 都准。原文
11:31arXiv cs.AI@Maria Ivanova, Pavel Zadorozhny, Rodion Levichev, Ivan Petrov, Adamenko Pavel, Ivan Lopatin, Alexey Kutalev, Dmitrii BabaevLiveCodeBench (LCB) 是广泛采用的代码生成基准,但仅限Python。新基准Multi-LCB将LCB任务转化为12种编程语言,包括Python、C++、Java等,保持原始污染控制和评估协议。研究者在Multi-LCB上评估了24个LLM,发现模型存在Python过拟合、语言特定污染和跨语言性能差异。Multi-LCB为多语言代码评估提供了严格的新基准,直接暴露了当前LLM在Python之外的短板。AI模型Multi-LCBLiveCodeBench代码生成多语言基准测试推荐理由:想测AI写代码的真本事?别只看Python了。Multi-LCB覆盖12种语言,一测就知道模型是不是只会Python,结果可能让你意外。原文
11:28marktechpost@Sana Hassan本文使用Hugging Face加载的Salesforce CodeGen实现端到端工作流。除基础推理外,添加函数提取、语法检查、静态安全检查和单元测试验证。对最佳N个候选项进行重排序,组合多轮程序合成并实验不同提示风格。最后可视化迷你基准测试并将生成的工件导出为可复用文件。技巧Salesforce CodeGenHugging FacePython代码生成单元测试推荐理由:手把手教你用Salesforce CodeGen写Python函数,还能自动验证和重排序,适合想提升代码生成质量的开发者。原文
11:00Augment Code@augmentcodeAugment Code 团队在 Cosmos 项目中使用一个 worker agent 处理整个设计文档,生成单个数千行 PR。该 agent 不仅实现设计,还自行修复 CI 失败并处理审查意见,无需拆 ticket 或 agent 间交接。团队认为单 agent 持有完整上下文能产出更连贯的变更,避免分块导致的假设不一致。此方法适用于大型项目,与多数团队的小范围 agent 工作方式形成对比。技巧AugmentCosmos智能体代码生成PR推荐理由:Augment Code 分享了他们如何让一个 agent 一口气完成整个设计文档实现,省去拆 ticket 和接力,适合做大项目的人参考。原文
09:35arXiv: DeepSeek@Shi Chen, Rongcun Wang, Yuan Tian, Xiaoyuan Xie, Wei Song, Rubing Huang该论文提出了SolidityBench,包含5,470个存储库级Solidity智能合约及其自然语言描述。同时提出SolidityScore,一种关注安全性修饰符、合约声明等域关键结构的语义度量。研究评估了Qwen2.5-Coder、DeepSeek-Coder和CodeLlama等模型在零样本、思维链、上下文学习、检索增强生成和监督微调五种方法上的表现。结果显示,通用模型在存储库级Solidity生成中存在结构性缺陷;在非参数方法中,检索增强生成效果最佳,而上下文学习在超过两个示例后因上下文饱和而性能下降;监督微调通过将Solidity特定约束内化到模型参数中实现了最大改进。论文SoliditySolidityBenchSolidityScoreQwen2.5-CoderDeepSeek-CoderCodeLlama智能合约代码生成推荐理由:这篇论文为Solidity智能合约代码生成建了个新基准(5470个合约)和专用评分指标,测试了多个主流代码模型的各种方法,结论明确:靠谱的领域数据+微调最管用。原文
13:07@atomic_chat_hq@atomic_chat_hq精选智谱GLM-5.2与月之暗面Kimi K2.7 Code在三个物理模拟HTML5编程任务中对比。GLM-5.2使用12,640 tokens完成全部任务,包括台球碰撞、弹簧上方方块弹跳和高尔顿板,粒子和动量表现正确。Kimi K2.7 Code仅用7,420 tokens,但三个场景均出现严重错误:方块穿透弹簧、台球碰撞不真实、高尔顿板珠子重叠。评测显示GLM-5.2在物理模拟细节和精度上显著优于Kimi K2.7 Code。AI模型GLM-5.2Kimi K2.7智谱代码生成物理模拟推荐理由:智谱的GLM-5.2写物理模拟代码完胜Kimi K2.7,三个场景全部精准,Kimi翻车在弹簧穿透和球乱撞上。原文
13:02@atomic_chat_hq@atomic_chat_hq精选Fable 5 模型在三个真实物理模拟任务(混沌双摆、高尔顿板、WCSPH 旋转桶中水)中生成的 HTML5 仿真效果优于 Opus 4.8。水模拟中,Fable 5 生成的水体更连续稳定,而 Opus 4.8 在器壁附近出现较大空隙、粒子散落且流体不稳定。Fable 5 的生成成本为 3.35 美元(68.7k tokens,耗时 14 分 47 秒),Opus 4.8 为 0.93 美元(38.9k tokens,耗时 8 分 10 秒)。AI模型Fable 5Opus 4.8物理模拟代码生成HTML510 个信源在谈推荐理由:Fable 5 写物理仿真比 Opus 4.8 更扎实,尤其水粒子效果更真实,虽然贵了点但值得一试。原文
13:00@atomic_chat_hq@atomic_chat_hqStepFun 的 Step 3.7 Flash 模型与 DeepSeek V4-Flash 在物理动画生成任务中直接对比。任务要求编写自包含 HTML5 Canvas 动画,包含高尔顿板、旋转六边形中弹跳的球、五个同步节拍器三个场景。Step 3.7 Flash 输出 59.6k tokens (9分57秒),DeepSeek V4-Flash 输出 52.5k tokens (6分21秒)。虽然 DeepSeek 更快,但 StepFun 在物理模拟、视觉效果和逻辑渲染三个维度全面获胜。AI模型Step 3.7 FlashDeepSeek V4-FlashStepFun代码生成基准测试1 个信源在谈推荐理由:StepFun 的 Step 3.7 Flash 在生成物理动画上把 DeepSeek V4-Flash 比下去了,慢点但模拟和画面都好很多。原文
11:09IT之家(博客/媒体)72°华为昇腾宣布0 Day支持智谱GLM-5.2,昇腾A3系列已实现单双机及大EP推理部署。优化技术包括MOE大融合算子、通信与计算融合、注意力前处理与多Token预测、高并发调度与预填充延迟机制等。GLM-5.2在Code Arena盲测中取得全球可用模型第一,拥有1M上下文能力,长程任务表现介于Claude Opus 4.7与4.8之间。该模型在主流编程基准上保持开源SOTA,并已适配华为昇腾等国产算力平台。AI模型GLM-5.2华为昇腾推理优化开源模型代码生成推荐理由:华为昇腾0 Day适配智谱GLM-5.2,推理优化让长上下文编程更高效,开源模型性能比肩Claude Opus。原文
05:56elvis@omarsar0精选Block 公司构建了名为 Builderbot 的内部 AI 系统,通过 orchestrator 代理协调多个代理跨代码库工作。工程师在 Slack 中标记 Builderbot,系统即可自动研究、规划并发布代码。该平台每天处理 200,000 次操作,每周合并 1,500 个拉取请求,占 Block 全部生产代码变更的 15%。原本需要数月的工作现在只需数天完成。AI产品BuilderbotBlock智能体代码生成编程助手5 个信源在谈推荐理由:Block 内部搞了个 Builderbot,每天自动处理 20 万次操作、合并 1500 个 PR,把几个月的工作缩短到几天,效率太猛了。原文
02:35Simon Willison’s Weblog(博客/媒体)Charity Majors指出,2025年代码生产的经济学被彻底改变:生成代码变得几乎免费且即时。过去珍贵、被精心维护的代码行,如今变成可丢弃和可重新生成的消耗品。她强调,这反而要求更强的工程纪律,而非更少。行业Charity MajorsAI辅助编程代码生成工程纪律推荐理由:Charity Majors说,AI让写代码像免费喝水,但更需要工程纪律,而不是更松懈。值得一看。原文
01:12elvis@omarsar0Boris Cherny指出,AI代码生成正迈入新阶段,模型能对越来越多任务生成正确代码。关键在于设置合适的护栏,并使用Claude Code配合高级模型和验证器(verifier)构成循环。开发者需持续喂入任务数据,识别并消除瓶颈。这种工作流能显著提升代码生成的准确率。技巧Claude Code验证器代码生成编程助手工作流推荐理由:Cherny分享了用Claude Code和验证器循环生成正确代码的实战方法,不是空谈趋势,值得想提升代码质量的开发者一试。原文
05:29ollama@ollamaGLM-5.2 在 Design Arena 上以 1360 Elo 获得第一名,超过此前领先的 Claude Fable 5。该模型开源权重,排名较此前上升 4 位,Elo 提升 27 分。这使其成为 Design Arena 代码类别历史上最高 Elo 之一。GLM-5.2 由 Zai_org 发布。AI模型GLM-5.2Design ArenaZai_org开源模型代码生成3 个信源在谈推荐理由:GLM-5.2 在代码设计赛上跑了第一,1360 Elo,超过 Claude Fable 5,还开源了,值得试试。原文
03:01LangChain@LangChainAILangSmith Sandboxes 允许 agent 在响应前验证生成的代码是否运行。适用于构建编码助手、CI agent 或数据管道等需要操作真实文件的场景。该功能解决了 agent 仅能描述而不能实际执行的问题。AI产品LangSmith智能体代码生成CI工具数据管道推荐理由:LangSmith 推出了 Sandboxes,让 agent 真正跑代码并验证结果。适合做编程助手、CI 自动化或数据处理。原文
20:29AlphaSignal@AlphaSignalAI精选MPMWorlds是一个包含95,000个2D仿真视频的基准,覆盖液体、雪、沙子和弹性体。模型观看2.5秒场景后预测后续运动。代码生成方法能保持长期物理稳定性,但无法从帧中读取位置,隐藏坐标后精度骤降。扩散模型可捕获短期几何,但物体随时间消失、运动不真实。混合两种方法的简单门控机制超越单一模型。论文MPMWorlds物理模拟代码生成扩散模型视频理解推荐理由:这篇论文用MPMWorlds测试了AI看视频写物理代码的能力,发现代码生成稳但缺位置感知,扩散模型短时准但长期漂移,混合模型效果最好。原文
19:02kimmonismus@kimmonismusVibeThinker-3B是仅3B参数的小模型,在AIME26上取得94.3分,在LiveCodeBench v6上Pass@1达80.2,在未见过的LeetCode比赛中正确率96.1%。其训练基于Qwen2.5-Coder,结合课程SFT、多领域RL、离线自蒸馏和最终RL指导阶段。结果表明,部分可验证推理能力可被高效压缩到小密集模型中。AI模型VibeThinker-3BQwen2.5-Coder推理模型小模型代码生成推荐理由:3B的小模型在数学和代码推理上快追上大模型了,适合部署在低算力场景,值得关注。原文
10:37arXiv cs.LG@Tamim Zoabi, Ameen Ali, Liran Ringel, Lior Wolf离散扩散语言模型通过并行生成令牌降低延迟,但独立选择易产生不兼容配置。本文提出训练免费解码框架,利用成对交互调整commit scores,通过变分松弛实现不动点更新。该方法无需辅助模型或重训练,可嵌入现有扩散解码流程。在推理和代码生成基准上,该方法在质量-延迟权衡方面取得一致改进。论文离散扩散语言模型并行解码推理基准代码生成推荐理由:不用额外训练,给离散扩散模型装上智能调度,并行生成质量更好、延迟更低。推理和代码生成都有效。原文
09:03berryxia@berryxia精选12B参数的Gemma 4 12B Coder GGUF模型基于Google的gemma-4-12B-it微调,专门针对代码生成和复杂推理。训练数据使用了Composer 2.5的真实通过案例,并由Fable 5辅助补全困难case,确保推理步骤导向可运行代码。模型采用GGUF格式,可在12GB显存的显卡甚至CPU上离线运行。下载量已突破6000,社区反馈在本地代码调试、补全、算法生成等场景表现出色。AI模型Gemma 4 12B Coder GGUFFable 5代码生成本地模型10 个信源在谈推荐理由:Gemma 4 12B Coder 把 Fable 5 的推理链蒸馏到本地,12GB 显卡就能跑顶级代码生成,再也不用担心 API 费用和限制原文
13:01elvis@omarsar0Thorsten Ball在Day 3测试中,用Fable和deep^2实现跨CLI、Web服务器和另一服务器的功能。deep^2在去健身房前完成,花费20美元,但第一次运行未成功。Fable运行1小时40分钟,花费350美元,第一次尝试即成功。后续追问后Fable总花费升至457美元。两者都理解任务并构建了相同功能。AI产品Fabledeep^2编程助手代码生成Amp推荐理由:Fable贵17倍但一次成功,deep^2便宜需调试原文
02:36Perplexity@perplexity_ai精选Perplexity 宣布将 Deep Research 作为原生技能集成到其 Computer 产品中。该功能现在连接到驱动 Computer 的智能体框架,能够访问搜索、代码生成、长期运行的沙箱、连接器、工具和授权数据。这一整合使得用户可以在 Computer 环境中直接进行深度研究,无需切换工具。该功能目前对 Pro 和 Max 订阅用户开放。AI产品PerplexityDeep Research智能体搜索代码生成推荐理由:Perplexity 把深度研究能力直接嵌入到智能体框架里,做研究或数据分析的团队可以省去来回切换工具的麻烦,Pro/Max 用户值得立刻试试。原文
21:52rohanpaul_ai@rohanpaul_ai一篇论文提出,AI Agent 可能从根本上改变软件的本质,使代码不再是核心产物。传统软件是“冻结的意图”,而 Agent 能在运行时将意图转化为行动,生成代码作为一次性工具。这种转变是从预设计行为到协商行为的转变,系统会随条件变化持续解释目标。但这也带来新风险:静态程序在边界内失败,而 Agent 可能因漂移、过度自信或错误累积而失败。未来工程师不再是提示词写手或数字实习生监督者,而是定义意图、约束自主性、设计评估和检查推理轨迹的人。论文AI Agent软件范式代码生成自主系统风险评估推荐理由:这篇论文点出了 AI Agent 对软件范式的根本冲击——代码不再是最终产品,做架构设计或系统开发的团队值得一读,看完会对 Agent 的风险和工程师的新角色有更深理解。原文
17:55AI Will@FinanceYF5一位用户让 Claude Fable 5 编写一个单行道红绿灯模拟程序,要求车辆随机进入并可视化呈现。模型严格遵循指令,只输出了可视化部分,没有添加任何额外功能或注释。这展示了 Claude Fable 5 在精确执行 prompt 方面的能力,对于需要干净、无冗余代码的开发者来说是一个亮点。AI产品Claude Fable 5代码生成可视化红绿灯模拟prompt 执行10 个信源在谈推荐理由:对于追求 prompt 精准执行的 AI 编程用户,这个案例展示了 Claude Fable 5 如何严格按需求输出,不画蛇添足。做原型或演示的开发者可以借鉴这种干净输出的风格。原文