Z.ai发布GLM-5.2开源模型,1M上下文逼近Claude Opus 4.8
Z.ai推出GLM-5.2开源模型,采用MIT开放权重。该模型支持1M上下文窗口,在Terminal-Bench 2.1基准上得分81.0,仅比Claude Opus 4.8低几分。Perplexity CEO此前指出,中国已拥有最强开源模型DeepSeek,且美国开发者正基于其构建应用。GLM-5.2的发布进一步表明开源AI竞赛已非理论。
Z.ai推出GLM-5.2开源模型,采用MIT开放权重。该模型支持1M上下文窗口,在Terminal-Bench 2.1基准上得分81.0,仅比Claude Opus 4.8低几分。Perplexity CEO此前指出,中国已拥有最强开源模型DeepSeek,且美国开发者正基于其构建应用。GLM-5.2的发布进一步表明开源AI竞赛已非理论。
Cisco Foundation AI开源FAPO,由Claude Code驱动,自动优化多步骤LLM流水线。FAPO评估整个链条,在步骤级别归因失败原因,并提出提示、参数和链结构层面的变体。在18个模型-基准对比中,FAPO击败GEPA 15次。每个变体经独立审批评证后集成到优化循环中。
GLM-5.2 在图形设计能力上据称达到 Opus 级别,同时在长期运行任务中表现良好。其训练引入了反奖励破解模块,用于解决强化学习中常见的奖励破解问题,例如模型走捷径、变懒、意图偏差等。该模块有助于提升编码代理在长周期任务中的可靠性与效果。GLM-5.2 是一个开源开放权重模型。
GitHub与合作伙伴通过协作研究发现,基于LLM的上下文验证能显著提升秘密扫描告警质量。该方法将误报率降低75.76%,减少了安全团队处理大量无效告警的负担。研究结果表明,单纯增加告警数量并不能提高安全性,而智能验证才是关键。
Hermes Agent 推出 Blank Slate 设置模式,用户可从零开始构建代理,先选择 provider、model、文件操作和终端,再手动添加其他组件。之前只有 Quick 和 Full 两种预设模式。这一更新让高级用户能更灵活地配置自己的 AI 代理工具。
Leve是一个文件系统优先的持久智能体框架,基于LangGraph构建。用户将智能体定义为文件目录结构,Leve编译该目录并运行智能体。该框架灵感来自Vercel的Eve项目,由@jit_infinity开发。
John Jumper是AlphaFold项目的核心负责人,该模型改变了蛋白质结构预测领域。2024年,他因这一贡献获得诺贝尔化学奖。他在Google DeepMind工作了近9年,博士毕业仅6个月就被Demis Hassabis任命领导AlphaFold团队。现在他选择加入Anthropic,专注AI安全和大模型研究。Anthropic近期还吸引了多位OpenAI核心研究员。
Anthropic 联合创始人 Jack Clark 表示 AI 进步仅靠规模扩展就能实现,但 Gary Marcus 引用该公司自己的 Claude Code 予以反驳,指出该工具使用了 50 万行符号代码、harnesses、符号工具和正则表达式。Marcus 认为专门化系统并非无用,规模扩展也非唯一路径。该争论涉及“bitter lesson”假说与实用工程系统的平衡。
Ollama 转发了 Aaron Levie 的观点,指出开放权重模型在特定任务上已取得 SOTA 结果,并在编码等部分领域接近前沿水平。Levie 强调,开放权重模型与前沿模型之间的边际差距若能保持而非扩大,将创造更多 AI 应用价值。他还提到,使用更便宜或针对特定任务微调的开放模型可优化成本,同时前沿模型仍可用于规划、编排等复杂工作。
OpenAI 发布新论文《Beneficial RL》,研究对齐训练中好行为的泛化能力。实验发现,用RL在对话数据上训练模型诚实、认知谦逊、可纠正等特质后,在44个训练未见的评测上,模型欺骗、谄媚、有害建议等行为均下降。仅用健康领域数据训练,非健康领域也有效。对抗性提示和恶意微调更难使模型变坏,但正常指令仍可执行。
台积电正全力研发面板级封装技术CoPoS,计划替代现有CoWoS工艺。CoPoS采用方形面板基材(最大750×620毫米),对比CoWoS圆形300毫米晶圆,材料利用率从不足70%提升至90%以上。单位面积生产成本可降低20%至30%。台积电已建成首条试验产线,CoPoS面板将于2027年试生产,2028年规模化量产,集成玻璃核心基板的完整工艺量产定在2030年后。英特尔、AMD等厂商也在推进类似方案。
LlamaIndex创始人Jerry Liu指出,智能体生成文档量增加,需要更好的原生文档格式。当前主要容器Markdown可读性强但缺乏丰富视觉输出,HTML视觉丰富但难以人工编辑且token密集。他提出理想格式应类似Google Docs或Word,支持人类和智能体协作编辑、版本控制和权限管理。他在Databricks演讲中提及,大量人类知识仍存储在PDF、PPT、Word中,需通过LlamaParse处理,同时创新智能体创建和协作信息的方式。
文章将传统软件工程实践迁移到 AI Agent 开发中,强调需求分析时需给 Agent 充足上下文并反复对齐,系统设计时用 plan 模式拆分里程碑。代码审查建议先让 Agent 审查格式和逻辑,但人需兜底业务逻辑。自动化测试包括单元测试、集成测试和端到端测试,需与 CI 集成自动运行。灰度发布和 CI/CD 机制(如 feature flag、自动回滚)可减少线上不稳定。线上修复目前更现实的是 AI 辅助定位、人确认后再提交,而非全自动闭环。
Codex现在允许用户直接命令将开发线程从本地笔记本handoff到远程服务器。这一过程会自动打包Git状态、未提交变更、分支和工作树。用户关闭笔记本后,远程服务器会继续运行该线程。之后用户可以命令将线程接回本地,环境恢复到离开时的状态。全程无需手动同步代码或处理冲突。
GLM 5.2(纯文本模型)在网站设计任务中击败了 Fable 5。团队将 GLM 5.2 与 Browser Use v2 多模态 QA 子代理配对,让代理审查网站、发现 bug、判断美学,再向 GLM 发送修复指令。整个构建加质量保证的成本低于 0.75 美元。展示了纯文本模型通过智能协作在视觉任务上的潜力。