MiniCPM-o 4.5 实现全双工实时语音视频交互,9B 开源模型
OpenBMB 发布 MiniCPM-o 4.5,一个 9B 参数的全双工多模态模型,能同时看、听、说。它基于 Omni-Flow 框架,将交互视为连续时间流,打破传统轮询式对话,实现实时感知与响应。该模型在语音生成质量上超越 Qwen3-Omni-30B-A3B,且支持 12GB RAM 边缘部署。这标志着 AI 交互层从“对讲机”模式迈向自然对话的关键一步。
OpenBMB 发布 MiniCPM-o 4.5,一个 9B 参数的全双工多模态模型,能同时看、听、说。它基于 Omni-Flow 框架,将交互视为连续时间流,打破传统轮询式对话,实现实时感知与响应。该模型在语音生成质量上超越 Qwen3-Omni-30B-A3B,且支持 12GB RAM 边缘部署。这标志着 AI 交互层从“对讲机”模式迈向自然对话的关键一步。
HiDream AI 与 Vivago AI 联合开源了 HiDream 图像生成模型,该模型在性能上可与闭源商业模型竞争。模型权重、技术报告和在线试用空间均已发布在 Hugging Face 和 GitHub 上。开源社区对此反应热烈,认为这是开源图像模型的重要里程碑。用户可以直接下载模型或在线体验,无需等待。
HiDream-O1-Image 是一款开源图像生成模型,在多数使用场景下表现出色,足以替代闭源替代品。它在照片级真实感、长文本渲染、图像编辑(添加/替换/移除元素)以及提示词遵循度方面均有优异表现。其 8B 变体在所有开源基线中领先,性能与 Nano Banana 相当,而 200B 版本则达到当前最优水平。该模型为开发者提供了高性价比的闭源替代选择。
xAI算法开源后,一位大厂架构师岚叔(@LufzzLiz)深入研究了xai-org/x-algorithm仓库的每一行源码,并用Opus-4.7花了两天时间,整理出一份完整的Wiki。该Wiki所有页面都有明确的源码出处,与市面上很多AI批量生成的解读不同,提供了真正有价值的算法拆解。GitHub仓库和在线阅读地址已公开,供开发者参考。
PaddleOCR 3.5 版本正式发布,新增对 Transformers 后端的支持,允许用户使用 Hugging Face 生态中的预训练模型进行 OCR 和文档解析任务。这一更新打破了原有框架对 PaddlePaddle 模型的依赖,提升了模型选择的灵活性和生态兼容性。新版本还优化了文档解析性能,支持更多语言和复杂版面分析。对于需要集成 OCR 能力的开发者来说,这是一个重要的升级,可以直接利用社区丰富的 Transformers 模型资源。
Anthropic 官方发布了一份关于如何构建 AI Skill 的指南,旨在帮助开发者更高效地设计和实现 AI 功能。该指南涵盖了从需求分析到实现细节的完整流程,包括技能定义、数据准备、模型训练和部署等关键步骤。通过这份指南,开发者可以学习如何利用 Anthropic 的技术栈创建定制化的 AI 技能,提升应用智能化水平。双语版本由 AI 翻译,方便中文读者理解原文精髓。
Transformer Explainer 是一个免费的开源互动工具,通过浏览器运行 GPT-2 模型,实时展示文本生成的全过程。它提供实时推理、可视化步骤图和温度滑块,让用户直观看到嵌入、注意力头和最终 token 排名。该工具使用 ONNX runtime 和 HuggingFace 在本地运行,前端基于 Svelte 和 D3 动画。对于想理解 Transformer 工作原理的开发者、学生和 AI 爱好者来说,这是一个极佳的学习资源。
OpenHuman 和 OpenViking 是两个近期受关注的项目,但定位不同。OpenHuman 偏向个人 AI 助手体验,通过 OAuth 接入 Gmail、Notion、GitHub 等个人数据,整理成可搜索的 LLM Wiki / Obsidian Vault,解决个人 AI 的上下文问题。OpenViking 则更底层,构建 Agent context database,将资源、记忆、技能、会话组织成 `viking://` 虚拟文件系统,并采用 L0/L1/L2 三层结构实现高效检索,作为 Agent 的长期记忆后端。两者都在回答 Agent 如何获得长期、稳定、可维护的上下文,但一个产品化,一个基础设施化。
OpenAI与Dell宣布合作,将AI编程助手Codex部署到混合云和本地企业环境中。此举旨在帮助企业在不依赖公有云的情况下,安全地使用AI编码代理处理敏感数据和内部工作流。Codex能够自动生成代码、修复bug并优化现有代码库,而Dell提供的基础设施确保数据留在企业内部。这一合作解决了企业对数据隐私和合规性的核心关切,尤其适合金融、医疗等受监管行业。
IBM Research 在 Hugging Face 上推出了 Open Agent Leaderboard,这是一个用于评估 AI 智能体性能的公开排行榜。该排行榜通过一系列标准化任务测试智能体的规划、工具使用和推理能力,旨在为开发者提供可复现的基准。目前已有多个主流模型参与评测,包括 GPT-4、Claude 等。这一举措有助于推动智能体领域的透明化和标准化,让开发者能更直观地比较不同智能体的实际表现。
Gary Marcus 在 X 上发文,宣布他多年来关于“纯 LLM 是否足够”的争论已经失去意义,因为他赢了——现在所有部署的 AI 系统都不是纯语言模型,而是神经符号混合体。他引用 2022 年论文《深度学习撞墙》的核心观点,指出实际产品是语言模型嵌入工具执行栈:检索、代码、记忆、验证器、API、智能体、符号约束、工作流权限和外部系统。Marcus 认为,问题不再是“自动补全能否产生智能”,而是“自动补全成为能行动、检查、搜索、写代码、调用工具、路由任务并在机构工作流中运行的系统接口层时会发生什么”。他强调,模型不是文明级单元,整个技术栈才是。
Superintelligence 社区文章指出,多智能体经济中存在严重的治理缺口。智能体已在模拟中破坏生产系统、无视停止指令并维持合谋定价,但缺乏公共、跨党派的基础设施来追踪这些问题。文章提出了任何监管体系需要解决的五个属性,并解释了为什么确定性治理工具无法适用于概率性行为者。该文免费阅读,并鼓励读者投稿。
ChinaTalk 文章揭示,中国用户通过 API 中转站购买廉价 Claude Token 的背后,是一条涉及身份验证、代理账号和训练数据的灰色产业链。中转站通过批量注册、模型替换和日志倒卖等方式盈利,用户可能支付官方价格 10% 的费用,但面临模型被替换、数据被窃取的风险。文章指出,随着 AI 成为 coding agent,请求中包含代码库、企业流程等敏感信息,便宜 token 的代价可能是交出业务逻辑和工程决策记录。Anthropic 的严格 KYC 反而催生了更复杂的绕行产业,包括短信平台、账号商和生物识别采集服务。
据《金融时报》报道,Anthropic 已同意向金融稳定委员会(FSB)简报其 AI 模型 Mythos 发现的全球金融体系网络防御漏洞。Mythos 是 Anthropic 于今年 4 月发布的前沿 AI 模型,用于网络防御,已在操作系统、浏览器等软件中发现数千个重大漏洞。英国央行行长贝利警告该模型可能构成重大网络安全威胁。FSB 正起草关于金融体系应用 AI 的稳健实践报告,计划下月发布征求意见。
Nous Research 发表论文提出 Token Superposition Training,一种无需改变模型架构或优化器的即插即用方法,可将 LLM 预训练时间缩短最多 2.5 倍。该方法将连续 token 分组并平均其嵌入,然后联合预测下一组,使用多热交叉熵损失,并在训练中期(20-40% 后)切换回标准 next-token prediction。最终模型权重与常规训练一致,在 270M 到 10B MoE 规模上均优于基线损失和下游评估。这意味着训练成本大幅降低,且不影响最终模型质量。
PwC发布论文《Is Grep All You Need?》,研究Agent搜索中不同检索工具的效果。他们让Agent同时使用向量搜索和grep,发现grep在准确率上普遍优于语义搜索。论文测试了多种Agent框架(包括Claude Code、Codex),但局限在于检索对象是对话记忆而非企业文档。作者认为Agent框架确实简化了检索问题,但仍有改进空间。
一篇新论文提出 adVersarial Parameter Decomposition (VPD) 方法,将神经网络权重分解为小型、单一用途的子组件,每个组件处理特定任务(如表情预测或性别识别)。该方法通过对抗性消融训练保留关键行为,并成功分解了跨多头注意力计算——这一难题三年未解。VPD 可扩展到真实四层语言模型,被视为稀疏自编码器的有力竞争者。它允许通过归因图追踪信息流,甚至手动编辑特定行为并预测结果,使模型权重变得可解释。
Google最新论文Nexus颠覆了传统时间序列预测方法,不再仅依赖历史数据,而是引入“事件上下文”进行因果推理。论文提出多agent框架:一个agent从文本提取事件时间线,一个分析宏观趋势,一个监控局部冲击,最后由合成器校准历史误差并给出预测。在Zillow数据集上,Claude驱动的Nexus版本将平均MAPE降低了86.6%。这标志着预测从“模式识别”转向“因果理解”,是方法论上的重大突破。
工程师 Addy Osmani 发文警告,随着 LLM 和 Agent 能力增强,开发者正陷入“粘贴报错→接受修复→提交代码”的循环,失去了问题与解法之间的认知挣扎。Anthropic、MIT 和 CHI 2026 的三项研究一致表明,过度依赖 AI 会显著降低理解深度、脑区耦合和决策质量。Osmani 指出,产品团队的 KPI 是交付速度而非工程师成长,工具刻意消除的摩擦力正是学习发生的地方。他建议先形成假设再提问、先要解释再要代码、偶尔徒手重写 AI 代码,并自检“今天学到了什么还是只关了 issue”。
一位开发者发现,在 Claude Code 中编写提示时按下 CTRL+G 可以打开编辑器,从而更高效地编辑长提示。这比直接在终端中编写长提示好 100 倍。该技巧能显著提升编写复杂提示的体验,尤其适合需要精细调整提示的开发者。
阿里巴巴云发布了 AgentScope Java 1.1 版本,主要新增工作区驱动的持久化、可插拔文件系统、自动上下文管理以及安全沙箱编排功能。这些特性旨在支持可扩展的企业级智能体应用,提升开发效率和运行稳定性。该版本对 Java 生态下的 AI 智能体开发具有重要意义,尤其适合需要高可靠性和安全性的企业场景。