全部 AI 动态 · AI 热点

6月4日

01:18

Geek@geekbb

Google 发布了 Gemma 4 12B 模型，这是一款统一的无编码器多模态模型，专为在笔记本电脑上高效运行而设计，采用 Apache 2.0 许可证。该模型在边缘效率与高级推理之间取得了平衡，适合本地部署。对于 Mac mini 用户来说，这可能是一个理想的本地 AI 模型选择，因为其轻量级设计和高性能推理能力。

AI模型 Gemma 4 12B 本地模型多模态 Mac mini 开源

推荐理由：Mac mini 用户终于有了一个高性能的本地多模态模型选择——Gemma 4 12B 在笔记本上就能跑，做本地 AI 开发或隐私敏感应用的团队可以直接试试。

原文

01:03

Hugging Face@huggingface

88°

AI模型图像生成开放权重 Ideogram v4 开源

推荐理由：开放权重意味着你可以自由微调和部署，做图像生成应用或研究的团队可以直接下载使用，值得关注。

原文

6月3日

21:57

21:57IT之家（博客/媒体）

精选

欧盟委员会6月3日公布“欧洲技术主权一揽子方案”，包含《云与人工智能发展法案》和《芯片法案2.0》两项立法提案。《云与人工智能发展法案》目标是在未来5至7年内将欧洲数据中心容量提高到目前的3倍。《芯片法案2.0》旨在建设尖端半导体能力，为人工智能应用提供动力。方案还提出“开源战略”和“能源领域数字化与人工智能战略路线图”，推动开源技术及AI在电力基础设施中的应用。然而，“数字欧洲”组织批评《芯片法案2.0》的“含欧量”要求可能割裂半导体供应链，削弱欧盟下游产业竞争力。

行业欧盟技术主权半导体云计算开源

推荐理由：欧盟推芯片和云自主计划

原文

10:09

Latent.Space@latentspacepod

88°

GitHub COO 在访谈中透露，AI 智能体正在推动 GitHub 从代码托管平台向智能体协作平台进化。Copilot 将从自动补全扩展到 CLI、桌面、云智能体和环境工作流。GitHub Actions 已成为 CI/CD 和自动化的计算层。当 80% 的 PR 来自智能体时，信任将成为开源的新瓶颈。GitHub 正在为智能体编写、审查和部署代码的世界做准备。

行业 GitHub Copilot 智能体 CI/CD 开源

推荐理由：GitHub 的转型方向直接关系到所有开发者和开源维护者——当智能体成为主要贡献者，代码审查和信任机制将彻底改变，建议关注这个趋势的开发者点开了解。

原文

08:38

Amjad Masad@amasad

精选

现有SWE基准测试主要关注代码修复和补丁生成，未能充分衡量AI在应用层构建完整Web应用的能力。ViBench是一个新的开源基准，专门评估AI代理在端到端Web应用开发中的表现，涵盖从设计到部署的完整流程。该基准由Michele Catasta提出，旨在填补现有评估体系的空白，帮助开发者更准确地选择适合应用开发的AI模型。对于关注AI编程工具实际应用效果的团队，ViBench提供了更有价值的参考标准。

AI产品基准测试 ViBench Web应用开发 AI编程开源

推荐理由：做AI编程工具选型或评估模型实际应用能力的团队，ViBench比传统SWE基准更能反映真实开发场景，建议关注其测试结果。

原文

01:38

01:38IT之家（博客/媒体）

83°

微软在 Build 2026 上推出智能终端（Intelligent Terminal），这是基于 Windows Terminal 的开源实验性分支，现已通过微软商店和 WinGet 开放下载。该终端将 AI 编程能力集成到命令行环境，默认使用 GitHub Copilot CLI，并支持所有遵循 Agent Client Protocol 协议的 AI 智能体。核心功能是自动检测 Shell 命令执行错误，并在状态栏显示图标，用户可通过快捷键打开 Agent 窗格获取错误解释和修复建议。用户可配置仅自动检测错误或同时自动建议修复，且该终端可与现有 Windows Terminal 并存安装，不影响主线体验。微软同时宣布将弃用 Canary 通道中的 Terminal Chat 功能。

AI产品微软智能终端 Shell 错误检测 GitHub Copilot CLI 开源

推荐理由：命令行开发者终于有了原生 AI 纠错助手——智能终端自动检测 Shell 错误并建议修复，省去手动排查时间，Windows 用户可以直接安装试试。

原文

6月1日

13:59

13:59IT之家（博客/媒体）

88°

英伟达发布全球首款全开源全模态物理AI大模型Cosmos 3，基于混合Transformer架构，融合视觉推理、世界生成与动作预测能力。该模型可原生理解并生成文本、图像、视频、环境音效及动作内容，物理仿真精度业界领先，能将训练与评估周期从数月缩短至数日。英伟达同时发起Cosmos联盟，联合多家机构推动世界模型技术发展。Cosmos 3提供Super、Nano、Edge三个版本，分别面向机器人/自动驾驶训练、快速推理和边缘端实时推理。

AI模型英伟达 Cosmos 3 物理AI 全模态开源

推荐理由：英伟达把物理AI的门槛打下来了——全开源、全模态、训练周期从月缩到天，做机器人、自动驾驶或视觉AI的团队可以直接拿来用，省掉从头造轮子的成本。

原文

5月29日

11:17

pandaily@contact@pandaily.com (Pandaily)

78°

Stepfun 开源了 Step 3.7 Flash，这是一个 196B 参数的稀疏 MoE 大语言模型，专为智能体工作流优化。该模型推理速度达 400 tokens/s，并原生支持工具调用，能高效执行复杂任务。开源此举旨在推动智能体生态发展，降低开发者构建自主系统的门槛。Step 3.7 Flash 在多项基准测试中表现优异，尤其适合需要快速响应和工具集成的场景。

AI模型 Step 3.7 Flash MoE 智能体工具调用开源

推荐理由：做智能体开发的团队终于有了一个原生支持工具调用且速度极快的开源模型——400 tokens/s 的推理速度能显著提升任务执行效率，建议直接上手测试。

原文

5月27日

11:12

歸藏(guizang.ai)@op7418

MiniMax 宣布即将发布新一代 M3 模型，并开源其 MSA 架构。这是 MiniMax 沉寂一段时间后的重要更新，M3 模型预计在性能上有显著提升。开源 MSA 架构将推动社区研究和应用发展。该消息在推特上引发关注，但具体细节尚未公布。

AI模型 MiniMax M3模型 MSA架构开源大模型

推荐理由：MiniMax 的 M3 模型和开源 MSA 架构值得关注，尤其是对开源大模型和架构研究感兴趣的开发者，可以提前了解并准备试用。

原文

5月26日

17:01

17:01IT之家（博客/媒体）

精选

美国加州《数字年龄保障法》（AB 1043）原定2027年1月1日生效，要求操作系统提供商在用户创建账户时收集年龄信息并传递年龄区间。在开源社区反对后，议员Buffy Wicks于2026年2月11日提出AB 1856修正案，明确将允许复制、重新分发和修改软件（如Linux）的实体排除在年龄验证义务之外。该修正案6月交委员会审议，目前已进入三读程序。

行业 Linux 加州年龄验证开源隐私保护

推荐理由：加州要给Linux开绿灯了

原文

16:28

Yangyi@Yangyixxxx

78°

网易有道发布了「子曰4」全模态大模型，支持图像、视频、语音输入，27B参数可本地部署，尤其适合学习场景。同时，其TTS引擎独立开源，3秒即可完成声音采样和音色克隆，支持14种语言的跨语种生成且无口音。该模型权重已全量开源，开发者可直接使用。对于音视频营销素材的跨语种分发，这一工具能显著提升效率。

AI产品网易有道子曰4 全模态大模型 TTS引擎开源

推荐理由：做音视频营销或跨语种内容分发的团队，可以直接用这个TTS引擎快速生成多语言配音，3秒克隆音色且无口音，建议试试。

原文

15:15

15:15IT之家（博客/媒体）

76°

美团推出“跑腿 Skill”，可零开发接入各大 AI 助手，用户通过自然语言即可完成下单。该 Skill 自动识别场景、匹配地址、预估价格并提交订单，将多步操作压缩为一步。它兼容 OpenClaw 本地版、云部署版及第三方客户端，代码已在 GitHub 开源。高频用户可直接口述需求完成全流程，并在 AI 助手中查询配送进度。此举降低了跑腿服务的使用门槛，有望提升订单高峰期效率。

AI产品美团跑腿 Skill AI 助手自然语言下单开源

推荐理由：美团把跑腿服务做成了 AI 助手的 Skill，点外卖/寄东西的普通用户和开发者都能受益——用户一句话下单，开发者零接入就能集成。高频跑腿用户直接口述需求，省去手动输入，建议试试。

原文

5月25日

17:38

AI Will@FinanceYF5

DeepSeek 放弃编程套餐、多模态等热门方向，坚持开源策略，看似自废武功，实则意在构建一个 10 万亿美元的中国 AI 硬件生态。它不追求短期几亿美元的生意，而是通过开源降低门槛，吸引更多硬件厂商和开发者加入，形成以中国为核心的 AI 硬件产业链。这一战略若成功，将重塑全球 AI 硬件格局，让中国在 AI 基础设施层面占据主导地位。

行业 DeepSeek 开源 AI 硬件中国 AI 生态战略分析

推荐理由：做 AI 硬件或关注中国 AI 生态的开发者，DeepSeek 的开源战略可能改变你的技术选型和商业机会，值得深入理解其背后的逻辑。

原文

5月23日

11:03

rohanpaul_ai@rohanpaul_ai

著名风险投资家 Marc Andreessen 在社交媒体上分享了对 AI 未来路径的看法。他认为，AI 领域正在发生从软件到硬件的重大转变，所有价值可能最终会集中在芯片和能源上，而软件则可能全部开源。这一观点反映了当前 AI 行业对算力和能源需求的日益增长，以及开源软件在 AI 生态中的重要性。Andreessen 的言论引发了关于 AI 产业链价值分配和未来投资方向的广泛讨论。

行业 AI 趋势芯片能源开源 Marc Andreessen

推荐理由：Andreessen 的洞察点明了 AI 产业链的价值转移趋势，做 AI 投资或硬件决策的人值得关注，建议结合当前算力短缺和能源消耗的现状思考。

原文

10:57

10:57IT之家（博客/媒体）

83°

Anthropic 在 Project Glasswing 项目上线一个月后，宣布其 Claude Mythos Preview 模型已与约 50 家合作伙伴合作，在关键软件中发现超过 1 万个高危和关键漏洞。该模型将部分团队的漏洞发现速度提升超过 10 倍，当前瓶颈已从发现转向验证和修补。Cloudflare 在关键系统中发现 2000 个漏洞，误报率优于人工；Mozilla 在 Firefox 150 中修复 271 个漏洞，是之前的 10 倍。外部评测中，Mythos Preview 成为首个端到端攻破两个网络攻防靶场的模型。针对开源软件，已扫描 1000 多个项目，发现 23019 个漏洞，其中 1587 个经人工复核确认为真实漏洞，真实率达 90.6%。

AI产品漏洞挖掘 Claude Mythos Preview 安全开源 Anthropic

推荐理由：安全团队和开源维护者终于有了靠谱的 AI 漏洞挖掘工具——Claude Mythos 将发现速度提升 10 倍，但修补环节成为新瓶颈，做安全运营或维护开源项目的建议点开看看实际数据。

原文

02:23

rohanpaul_ai@rohanpaul_ai

72°

据彭博社报道，DeepSeek 正在进行 102.9 亿美元的融资谈判，创始人梁文锋明确表示将优先推进 AGI（通用人工智能）研发，而非追求短期商业化。梁文锋承诺继续开发开源 AI 模型，这一战略与当前许多 AI 公司追求快速盈利的趋势形成鲜明对比。该融资若完成，将成为 AI 领域最大规模融资之一，凸显 DeepSeek 在开源 AGI 路线上的坚定决心。

行业 DeepSeek AGI 开源融资 AI 战略

推荐理由：DeepSeek 在巨额融资中坚持开源 AGI 优先，这对关注 AI 长期发展的开发者和研究者是个重要信号——开源路线并未被资本裹挟，值得持续关注其模型进展。

原文

5月22日

08:06

08:06Simon Willison’s Weblog（博客/媒体）

精选

datasette-agent 0.1a3 版本发布，为 Datasette 的 AI 助手新增了“查看 SQL 查询”按钮，支持可见表和折叠的 SQL 结果工具调用。该版本还改进了截断响应的处理，即使 SQL 结果被截断，表格仍会显示给用户。同时，不再显示空的推理块。这一更新提升了 Datasette 作为可扩展 AI 助手的实用性和用户体验。

AI产品 Datasette datasette-agent SQL查询 AI助手开源

推荐理由：对于使用 Datasette 做数据探索的团队，这个版本让 AI 生成的 SQL 查询更透明可控，建议升级体验。

原文

5月21日

12:49

向阳乔木@vista8

vista8 在 X 上分享了自己的今日待办清单，包括开源 Suno 音乐生成 Skill、研究 MTV 合成、在服务器部署即梦 Docker API、迁移网站首页到 Cloudflare、学习经典 AI 论文，以及回北京途中找钓点测试小物钓鱼竿。这条推文展示了 AI 开发者日常的多任务并行与生活融合，其中开源 Suno Skill 和部署即梦 API 对音乐生成和 AI 应用开发者有直接参考价值。

行业 Suno 音乐生成 Docker Cloudflare 开源

推荐理由：AI 音乐生成和 Docker 部署的开发者可以看看这位同行的开源计划，Suno Skill 开源后能直接复用。

原文

08:01

08:01Simon Willison’s Weblog（博客/媒体）

Mike Veerman 开发了一个 HTML 应用，模拟从 5 到 800 tokens/s 的 LLM 输出速度，帮助用户直观感受不同 token 速率下的文本生成效果。当看到模型宣传“30 tokens/s”时，可以用这个工具快速理解实际体验。该工具通过 Hacker News 传播，对评估和比较不同 LLM 的响应速度很有帮助。

AI产品 LLM token 速率可视化工具模型评估开源

推荐理由：选模型时经常被 token 速率数字搞晕？这个工具让你直接看到不同速度下的文本生成效果，做模型选型或写提示词优化的开发者值得一试。

原文

08:00

向阳乔木@vista8

开发者向阳乔木展示了如何利用 Codex 控制 Chrome 浏览器自动完成 Chrome 插件的上架流程。只需添加项目文件夹并新建对话，输入“把这个Chrome插件上架到谷歌Chrome商店”，Codex 便会自动检查并创建插件压缩包，然后控制浏览器打开网页上传，包括填写隐私协议地址和资料文案。这一自动化方案大幅简化了插件发布流程，减少了手动操作。此前他已开源常用油猴脚本，涵盖小红书、抖音、微信等平台的截图粘贴上传、YouTube 字幕复制及小宇宙倍速调节功能。

AI产品 Codex Chrome插件自动化浏览器控制开源

推荐理由：做 Chrome 插件开发的团队可以省下每次上架的手动操作——Codex 自动打包、填表、上传，一键搞定，值得试试。

原文

08:00

Clement Delangue@ClementDelangue

Andrej Karpathy 加入 Anthropic 的消息引发社区关注，许多人猜测这可能会推动 Anthropic 在开源方面有更多动作。目前 Anthropic 已在 Hugging Face 上贡献了数据集，但开源模型和代码仍有限。Karpathy 以其在 OpenAI 和特斯拉的开源贡献而闻名，他的加入可能改变 Anthropic 的开源策略。这一动向对 AI 开源社区和开发者生态有潜在影响。

行业 Anthropic Karpathy 开源 AI 社区数据集

推荐理由：Karpathy 的加入可能让 Anthropic 更开放，关注开源模型和工具的开发者值得留意后续动作。

原文

03:24

小互@imxiaohu

精选

该项目在GitHub上开源，复刻了Disney的BDX Droid小机器人。用户可以通过3D打印、组装和训练来制作属于自己的BDX Droid。项目提供了完整的硬件和软件指导，适合机器人爱好者。不需要专业设备，普通家用3D打印机即可完成。

AI产品 BDX Droid Disney 开源机器人 3D打印

推荐理由：开源机器人，自己动手做

原文

00:10

Microsoft Research@MSFTResearch

精选

mimalloc是微软开发的开源内存分配器，旨在高效管理现代应用和服务的大规模内存需求。与传统的malloc相比，mimalloc在性能和内存占用方面进行了优化，已应用于多个生产环境。该项目在GitHub上开源，支持Windows、Linux、macOS等平台。

AI产品 mimalloc Microsoft 开源内存分配器性能优化

推荐理由：微软mimalloc让内存管理更快更省

原文

5月19日

16:57

Hunyuan@TXhunyuan

腾讯混元团队开源了 Chronicles-OCR，这是一个专门评估视觉大语言模型（VLLM）对古代汉字视觉感知能力的基准。该数据集跨越 3000 年文字演变，涵盖从甲骨文到草书的 7 种历史字体，包含 2800 张均衡分布的图像。基准评估模型在字符定位、细粒度识别、古代文本解析和字体分类四个核心任务上的表现。该工作揭示了视觉分布偏移如何影响模型对古代文字的感知能力，为相关研究提供了重要参考。

论文视觉大语言模型 OCR 古代汉字基准测试开源

推荐理由：做 OCR 或古籍数字化的团队终于有了一个针对古代汉字的专业评估基准，可以直接用来测试自家 VLLM 的视觉感知能力，值得关注。

原文

16:24

16:24IT之家（博客/媒体）

76°

地平线正式开源HoloMotion-1，这是一个4亿参数级的机器人小脑大模型，专为人形机器人全身控制设计。相比以往百万、千万级模型，HoloMotion-1将规模提升到新量级，并能在端侧实现约300FPS实时推理，远超常见50Hz控制频率。该模型结合MoE稀疏激活与KV-cache机制，降低推理开销，并使用互联网视频、光学动捕、VR遥操作等多来源数据训练。在真实机器人实验中，HoloMotion-1展示了零样本迁移能力，可完成高动态舞蹈、爬行、健身、搬箱子等复杂动作。代码、模型、技术报告均已开源。

AI模型地平线 HoloMotion-1 人形机器人开源全身控制

推荐理由：人形机器人开发者终于有了一个4亿参数级别的开源控制模型，零样本就能迁移舞蹈、搬箱子等复杂动作，做全身控制的团队可以直接拿来用。

原文

12:53

Clement Delangue@ClementDelangue

76°

Cursor 发布了其最强模型 Composer 2.5，声称更智能、更擅长处理长时间任务，并能更可靠地遵循复杂指令。Hugging Face CEO Clement Delangue 评论称，所有严肃的 AI 公司最终都会基于开源自研模型，而非通过 API 外包。为推广新模型，Cursor 将在接下来一周内加倍该模型的免费使用额度。这一举措反映了 AI 行业从依赖第三方 API 转向自研模型的趋势。

AI产品 Cursor Composer 2.5 自研模型编程助手开源

推荐理由：Cursor 自研模型 Composer 2.5 提升了长任务处理能力，做 AI 编程的开发者可以直接体验翻倍额度，感受自研模型带来的效率变化。

原文

5月18日

17:12

AlphaSignal@AlphaSignalAI

76°

本周（5月11日至17日）GitHub 热门仓库包括 DeepSeek 4 Flash 本地推理引擎（支持 Metal 和 CUDA）、更稀疏快速的 Transformer 语言模型、利用 WiFi 信号实现空间感知的 RuView、面向法律工作流的 Claude 插件套件，以及 X 平台开源的 feed 排序算法。这些项目覆盖了模型推理、架构优化、环境感知、行业应用和算法透明化等多个方向，值得开发者关注。

AI产品 DeepSeek 本地推理 Transformer WiFi感知开源

推荐理由：做本地推理或模型优化的开发者可以看看 DeepSeek 4 Flash 和稀疏 Transformer 项目，前者直接提升 Metal/CUDA 部署效率，后者可能改变模型架构设计思路。法律从业者或对行业 AI 应用感兴趣的人，Claude 插件套件提供了现成的 workflow 参考。

原文

16:21

orange.ai@oran_ge

精选

刘小排认为AI常顺着用户说话导致信息茧房，建议让AI扮演魔鬼代言人猛泼冷水。他开源了一个名为“魔鬼代言人”的Cola Skill，供用户免费安装到Agent中使用。该Skill旨在通过质疑用户观点促进独立思考。GitHub仓库名称为orange2ai/devi…，已获8个反应和1906次查看。

技巧刘小排 Cola 魔鬼代言人 Agent 开源提示词工程

推荐理由：让AI当杠精，免费开源Skill

原文

12:25

12:25Simon Willison’s Weblog（博客/媒体）

英国国家医疗服务体系（NHS）因Project Glasswing漏洞报告而关闭其开源仓库，引发争议。政府数字服务（GDS）近日发布报告，建议公共部门保持开源默认，关闭应谨慎使用。GDS指出，全面私有化会增加交付和政策成本，降低复用和审查。Terence Eden解读此举为GDS对NHS的严厉警告，罕见地将内部分歧公开化。事件凸显了开源在公共部门安全与透明度之间的平衡难题。

行业开源安全 NHS GDS 公共部门

推荐理由：公共部门开源策略的博弈直接影响开发者协作和系统安全，做政府项目或关注开源治理的团队值得关注GDS的官方立场。

原文

10:53

10:53IT之家（博客/媒体）

精选

Linus Torvalds 在 Linux 7.1 第四个候选版本（5月17日）发布时批评 AI 工具生成大量重复 Bug 报告。他表示 AI 报告让安全列表几乎无法管理，因为不同人用相同工具发现了相同漏洞。Linus 要求开发者直接提交修复方案，而不是仅仅报告问题。他曾在2025年11月首尔开源峰会上透露自己过去20年更多是维护者，并重申 AI 只是类似编译器的工具。

行业 Linus Torvalds Linux AI Bug报告开源

推荐理由：Linus 批评 AI 重复报告

原文

00:40

AlphaSignal@AlphaSignalAI

精选

Transformer Explainer 是一个免费的开源互动工具，通过浏览器运行 GPT-2 模型，实时展示文本生成的全过程。它提供实时推理、可视化步骤图和温度滑块，让用户直观看到嵌入、注意力头和最终 token 排名。该工具使用 ONNX runtime 和 HuggingFace 在本地运行，前端基于 Svelte 和 D3 动画。对于想理解 Transformer 工作原理的开发者、学生和 AI 爱好者来说，这是一个极佳的学习资源。

AI产品 Transformer GPT-2 可视化工具开源 AI 教育

推荐理由：这个工具把 Transformer 的黑箱彻底透明化了，做 AI 学习或教学的人可以直接上手体验，比看论文直观一百倍。

原文

5月16日

14:10

Clement Delangue@ClementDelangue

HuggingFace CEO Clement Delangue 在采访中反驳了开源AI风险论，认为限制AI反而会增加风险。他以GPT-2和Mythos为例，指出当初被警告危险的模型最终并未造成灾难。他强调，在网络安全领域，少数玩家垄断能力才是最大风险，开源能让防御者更快反应。他用“有人会打人，所以绑住所有人的手”的比喻批评限制AI的逻辑。Delangue 警告，限制会拖慢进步、扩大能力差距，并制造新的风险。

行业开源 AI安全 HuggingFace Clement Delangue 行业观点

推荐理由：开源与安全的争论从未停止——Delangue 用历史案例和比喻直击核心，做AI政策研究或开源项目的团队值得一看，能帮你理解反对限制的论据。

原文

5月15日

14:56

歸藏(guizang.ai)@op7418

飞书 CLI 自 3 月 28 日开源以来，一个多月内获得 10000 个 GitHub Star，并发布了 32 个版本和 385 个提交，显示出市场的高度认可和团队的快速迭代能力。该 CLI 工具几乎可以控制飞书所有功能，用户无需传统 UI 即可完成工作，尤其适合 Agent 调用。飞书通过分层设计（快捷命令、标准 API、兜底 API）和 Skills 说明书，降低复杂性和使用门槛。此外，CLI 内置了 Dry Run、结构化输出、权限检查等对 Agent 友好的特性，使调试更高效。这标志着传统办公产品在 AI 时代转向 CLI 和 Agent 适配的新趋势。

AI产品飞书 CLI Agent 办公自动化开源

推荐理由：飞书 CLI 的 10000 Star 说明市场对 AI 时代 SaaS 新玩法的认可，做 Agent 或办公自动化的开发者可以直接用它替代传统 UI，省去界面开发成本。

原文

5月14日

16:33

百川智能 Baichuan@BaichuanAI

百川智能正式开源了新一代医疗大模型Baichuan-M3，该模型在HealthBench上取得65.1分，并在HealthBench Hard上以44.4分夺冠。在医疗领域，Baichuan-M3全面超越了GPT-5.2。这一开源举措将推动医疗AI的普及和进步，为医疗行业开发者提供强大的工具。

AI模型百川智能 Baichuan-M3 医疗大模型开源 GPT-5.2

推荐理由：医疗AI开发者终于有了开源且超越GPT-5.2的模型——Baichuan-M3在HealthBench上夺冠，做医疗诊断或健康咨询的团队可以直接拿来用，建议点开看看具体性能。

原文

13:26

arXiv cs.LG@Tara Bogavelli, Gabrielle Gauthier Melançon, Katrina Stankiewicz, Oluwanifemi Bamgbose, Fanny Riols, Hoang H. Nguyen, Raghav Mehndiratta, Lindsay Devon Brin, Joseph Marinier, Hari Subramani, Anil Madamala, Sridhar Krishna Nemala, Srinivas Sunkara

精选

EVA-Bench 是一个全新的端到端评估框架，专门用于测试语音智能体（Voice Agents）在真实对话场景中的表现。它解决了现有基准无法同时模拟动态对话和全面衡量语音特有失败模式的问题。框架包含 213 个企业级场景，并引入两个复合指标：EVA-A（准确性）和 EVA-X（体验），分别评估任务完成度、忠实度、语音保真度以及对话流畅性、简洁性和轮次时机。在 12 个系统上的测试显示，没有系统能同时在两个指标上超过 0.5，且峰值性能与可靠性能差距显著。该框架已开源，为语音智能体的标准化评估提供了新工具。

论文语音智能体评估框架基准测试企业应用开源

推荐理由：做语音智能体或对话系统的团队终于有了一个能同时测准确性和体验感的基准——EVA-Bench 覆盖了企业场景和噪声鲁棒性，直接帮你对比不同架构的优劣，建议点开看看具体指标设计。

原文

10:56

10:56Simon Willison’s Weblog（博客/媒体）

Datasette 项目正式推出官方博客，用于发布一系列即将到来的新功能公告。该博客由 OpenAI Codex desktop 构建，利用了其 Markdown 会话记录导出功能，展示了 AI 辅助编程在网站搭建中的实际应用。博客的构建过程已公开在 GitHub 上，供开发者参考。

AI产品 Datasette OpenAI Codex AI辅助编程博客开源

推荐理由：Datasette 用户和 AI 编程爱好者可以看看这个博客的构建过程——用 Codex 直接生成网站，省去了手动搭建的繁琐，值得一试。

原文

00:33