20:25shao__meng@shao__meng精选72°LandingAI 将 Agentic Document Extraction 升级为两个 Agent Skills:document-extraction 提供 Markdown 结构化、JSON Schema 字段抽取、按文档类型拆分、按页分类等原子操作,document-workflows 则支持并行批处理、混合文档流水线、RAG 准备及 Snowflake 导出等功能。这些技能可被 Claude Code、Codex、Cursor 等编程智能体在对话中直接调用,无需手写脚本。其中大文件处理能力达约 1GB / 6000 页,并支持元素级坐标与置信度。AI产品LandingAIAgent Skills文档处理Claude Code编程智能体10 个信源在谈推荐理由:LandingAI 搞了两个 Agent Skills,装上后让 Claude Code 这类编程智能体直接对话里就能搭文档处理流水线,省掉你手写 API 脚本的功夫。原文
21:56vLLM@vllm_projectKimi 发布 K2.7-Code,一个专注于编程的智能体模型,基于 K2.6 构建。该模型采用 1T 参数的混合专家架构,每次推理仅激活 32B 参数,配备 MLA 注意力机制和 256K 上下文窗口。相比 K2.6,K2.7-Code 的思考 token 减少了约 30%,推理更高效。该模型已获 vLLM 支持,可直接复用 K2.6 的部署配置,降低了迁移成本。AI模型编程智能体MoE/混合专家Kimi推理模型vLLM推荐理由:编程智能体模型终于有了更高效的选择——K2.7-Code 在保持 1T 参数规模的同时,将激活参数压缩到 32B,做代码生成和推理的开发者可以直接在 vLLM 上复用现有部署,值得一试。原文
15:09Artificial Analysis@ArtificialAnlys73°Artificial Analysis 更新了其编程智能体指数,用 Datacurve 的 DeepSWE 基准测试取代了 SWE-Bench Pro。DeepSWE 从零编写任务,避免模型从公开 GitHub 问题或 PR 中记忆答案,解决了原基准可被游戏化的问题。更新后,Codex with GPT-5.5 (xhigh) 得分从 65 升至 76,超越 Claude Code with Opus 4.8 (max) 的 73 分;新发布的 Claude Fable 5 (max) 在 Claude Code 中以 77 分位居榜首。这一变化揭示了原基准对某些模型组合的偏差。AI产品编程智能体基准测试Claude Fable 5GPT-5.5DeepSWE10 个信源在谈推荐理由:基准测试更新直接影响了主流编程智能体的排名,做 AI 编程工具选型或评估模型能力的开发者值得关注——Claude Fable 5 新登顶,Codex 也大幅提升,建议点开看具体得分和对比。原文
18:02Simon Willison@simonwSimon Willison回顾了三年前ChatGPT Code Interpreter刚推出时的Twitter讨论,认为这是编程智能体的首次亮相。当时人们还未意识到这是智能体的雏形,但如今回看,它预示了AI编程的重大变革。Willison提醒程序员不应忽视这一技术,尽管存在过度炒作,但它是职业发展中不可回避的趋势。AI产品ChatGPTCode Interpreter编程智能体AI编程历史回顾推荐理由:程序员若还在怀疑AI编程的价值,这条回顾会颠覆你的认知——三年前的Code Interpreter已埋下智能体种子,现在不关注可能错过职业转型窗口。原文
23:46elvis@omarsar0Elvis 在推文中警告,未来几周将发布超级强大的 AI 模型,可能带来能力阶跃变化。他建议不要锁定单一供应商,而应从工程角度考虑如何组合使用多种模型(包括开源模型),以便随时切换并利用各自优势。对于编程智能体,开源模型已与前沿模型相当。他推荐将 AI 模型路由作为工程重点,以高效分配任务。行业AI模型模型路由开源模型编程智能体供应商锁定推荐理由:Elvis 点出了 AI 模型即将爆发的关键节点,做 AI 工程和智能体开发的团队应该立刻开始规划模型路由策略,避免被单一供应商绑定。原文
09:44Greg Brockman@gdbBen Holmes 在 X 上发起调查,询问开发者当前如何使用编程智能体。该推文获得 19 条回复、2 次转发、115 个赞和 17431 次查看,引发社区讨论。这反映了开发者对 AI 编程工具实际应用模式的关注。行业编程智能体开发者社区AI 编程X/Twitter调查1 个信源在谈推荐理由:了解同行如何用编程智能体,能帮你找到更高效的开发方式,做 AI 编程的开发者值得关注讨论。原文
08:42elvis@omarsar0AI专家警告,未来几周将有超级强大的AI模型发布,模型能力可能迎来阶跃式变化。最大的错误是锁定单一供应商,应从成本和工程角度考虑组合使用多种模型(包括开源模型)。对于编程智能体,开源模型已与前沿模型相当。建议提前规划任务路由策略,AI模型路由是高回报的工程方向。行业AI模型模型路由开源模型编程智能体供应商锁定推荐理由:AI能力即将跃升,锁定单一供应商是最大风险——做AI工程和智能体开发的团队,现在就该规划模型路由策略,建议点开看看具体怎么准备。原文
21:28Julien Chaumond@julien_cJulien C 发布新项目 SynthTraces,这是一个最小化代码库,用于生成合成编程智能体会话轨迹。它让一个开放模型(通过 Hugging Face Inference Providers 服务)扮演编程智能体,另一个小模型(llama.cpp)扮演人类用户,在真实开源代码库(HuggingFace OSS 项目)上进行交互。最终生成了超过 2000 条 Pi 会话轨迹,可用于训练或微调 LLM,并针对 Pi 进行优化。所有数据已发布在 Hugging Face 上。AI产品编程智能体合成数据PiHugging Face开源/仓库推荐理由:做智能体训练或微调的开发者终于有了大规模合成轨迹数据源——SynthTraces 用双模型对话自动生成 2000+ 条真实代码库交互轨迹,比手动标注高效太多,做 LLM 对齐或 Pi 优化的团队可以直接用。原文
00:43Guillermo Rauch@rauchgVercel 的 Conductor 是一款专为编程智能体设计的 IDE(或称 ADE),它让并行编码智能体从本地运行扩展到 Vercel 的远程沙箱。对于大型敏感组织而言,“本地”开发并不现实,而 Conductor 通过 Vercel 的快速沙箱实现了远程开发的无缝体验,用户几乎感觉不到差异。这标志着远程开发即将成为主流,尤其适合需要安全、可扩展开发环境的企业团队。AI产品编程智能体远程开发VercelConductorIDE推荐理由:Conductor 解决了大型组织无法本地开发的痛点,做企业级开发或安全敏感项目的团队可以直接用 Vercel 沙箱体验远程智能体编程,建议点开看看。原文
04:14Simon Willison@simonw精选Simon Willison 在推文中指出,当使用编程智能体(coding agents)工作时,对话记录(transcript)成为最重要的工件之一。他认为记录这些对话对于追踪决策过程,其重要性甚至超过维护良好的提交信息和 issue。这一观点强调了在 AI 辅助编程时代,对话记录作为知识管理工具的价值。对于使用 AI 编程助手的开发者来说,这提供了一个新的工作流优化方向。技巧编程智能体工作流优化知识管理Simon WillisonAI 编程推荐理由:Simon Willison 点出了 AI 编程时代被忽视的关键——对话记录比 Git 提交更有价值,做 AI 辅助开发的团队建议立即调整工作流。原文
10:13elvis@omarsar0精选开发者omar指出,其实现深受RLM(推理语言模型)论文启发。Claude Code中的Opus 4.8模型结合动态工作流,被认为是首个经过严格训练成为RLM的前沿模型。动态工作流能显著提升编程智能体的灵活性和效率,有望在一年内成为几乎所有编程智能体交互的标准方式。该趋势将深刻影响AI编程工具的发展方向。AI产品RLM/推理语言模型Claude Code动态工作流编程智能体AI编程推荐理由:RLM论文正在重塑编程智能体的工作方式,做AI编程工具或智能体开发的团队值得关注这一趋势,Claude Code的实践已证明其可行性。原文
10:30Martin Fowler@martinfowler精选Birgitta Böckeler 在关于编程智能体传感器的系列文章中,重点探讨了测试套件作为回归传感器的作用,并深入分析了变异测试在此场景中的价值。文章指出,变异测试能更精准地检测代码变更是否破坏了原有功能,从而提升智能体编程的可靠性。这对于依赖自动化测试的 AI 编程工具和开发者具有重要参考意义。论文编程智能体变异测试回归测试测试套件AI编程推荐理由:做 AI 编程工具或智能体开发的团队,这篇文章帮你理解如何用变异测试提升代码质量,值得一读。原文
19:05岚叔@lufzzliz83°阿里通义千问发布 Qwen3.7-Max,在第三方 Arena 全球大模型盲测总榜中超越 Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1,位列国产第一,与 GPT、Claude、Gemini 最强模型接近。在编程智能体方面,SWE-Pro、SWE-Multilingual 等测评领先,Terminal Bench 2.0 得分 69.7。通用智能体能力显著提升,在 MCP-Atlas、MCP-Mark 等现实测试中创国产新高。新增 preserve_thinking 参数,保留前序思维内容以增强 Agent 决策一致性,减少重复推理 Token 消耗,默认关闭。实测在 Claude Code 下跨框架泛化能力不错,但需要更精准的提示词和多轮迭代。AI模型Qwen3.7-Max国产模型编程智能体AgentMCP/工具2 个信源在谈推荐理由:Qwen3.7-Max 在多项基准上追平国际顶尖模型,做 Agent 和编程自动化的开发者可以直接拿来替代闭源方案,尤其是 preserve_thinking 参数对长周期任务很有用,值得一试。原文
06:20阿里通义 Qwen@Alibaba_Qwen76°阿里通义千问团队发布了 Qwen3.7-Max 模型,在编程智能体基准测试中表现强劲,同时在通用智能体能力上也有大幅提升。该模型在最具挑战性的推理基准测试中展现出卓越实力,并在通用能力和多语言处理方面脱颖而出。这标志着国产大模型在智能体领域的重要进展。AI模型Qwen3.7-Max编程智能体推理模型多语言阿里通义千问推荐理由:Qwen3.7-Max 在编程和通用智能体任务上的大幅提升,对做 AI 编程工具和智能体应用的开发者是直接利好,建议关注其实际效果。原文
00:12François Chollet@fchollet精选Google AI 研究员 François Chollet 提出一个关于编程智能体的心智模型:它们就像在迷宫中乱撞的盲松鼠,需要你精心放置“墙壁”(可验证的约束)来引导它们到达目标区域。这个比喻强调了在 AI 编程中,开发者应专注于设置清晰的约束条件而非直接指导每一步,从而让智能体自主探索并找到解决方案。Chollet 的观点对理解当前 AI 编程工具(如 Copilot、Claude Code)的局限性和正确使用方式具有启发意义。技巧编程智能体心智模型约束引导AI编程Fchollet推荐理由:Chollet 用一个生动的比喻点破了编程智能体的本质——不是万能助手,而是需要你设计约束的探索者。做 AI 编程的开发者看完会重新思考如何更有效地使用这些工具,建议点开。原文
18:51百度 AI Baidu@Baidu_Inc百度正式推出秒哒App和企业版,让更多开发者和企业能够使用其编程智能体。最引人注目的是,秒哒App自身90%的代码是由秒哒生成的。这标志着编程智能体正使按需定制软件在商业上变得可行。截至目前,秒哒生成的应用程序已服务超过1000万用户,总应用价值达到50亿元人民币。AI产品编程智能体百度秒哒AI编程企业版推荐理由:百度秒哒用自身证明了AI编程的可行性——90%代码自生成,服务千万用户,做应用开发的团队值得关注这个新工具。原文