15:42@koltregaskes@koltregaskes精选Nature Medicine论文对GPT-5、Gemini 2.5 Pro等前沿模型进行了医学视觉推理压力测试,通过移除图像、替换图像、调整问题格式来检验模型是否真正理解。结果显示,在标准基准上表现优异的模型在条件变化时出现推理不稳、幻觉视觉细节等问题。作者将测试框架开源,随后有人用GPT-5.5 Pro重新运行,得分从之前最好的67-70%提升至79%,约10个百分点的进步。这解决了论文发表时模型已过时的问题,使评估能随模型更新而保持时效性。论文GPT-5Gemini 2.5 Pro医学视觉推理压力测试开源推荐理由:Nature Medicine那篇论文把模型考倒了,但作者直接把考卷开源了。后来GPT-5.5 Pro重新考,分数涨了10%!原文
21:15IT之家(博客/媒体)精选openEuler 24.03 LTS SP4 基于6.6内核正式发布,在弹性内存、64K内核、AI图编译器、Agent沙箱等方向升级。哈萨克斯坦自由云成为社区首家境外实体生态伙伴,完成捐赠并参与共建。麒麟软件、软通天鹤、超聚变等生态伙伴展示了智能运维、AI原生OS等落地成果。版本面向服务器、云计算、灵衢超节点和AI场景,持续夯实AI原生基础设施底座。行业openEuler操作系统AI图编译器Agent沙箱开源推荐理由:openEuler新版升级了弹性内存和AI图编译器,还拉来了国外生态伙伴,搞AI基础设施的朋友可以看看。原文
20:05vLLM@vllm_project精选Cohere 开源了他们使用 AI 编码智能体维护 vLLM fork 的方法。该方法将维护视为控制循环:每次上游发布后 rebase,运行测试,诊断错误,修复,重复直到通过。原本数周的工作缩短到数天。技能库已开源(cohere-ai/vllm-skills),且修复已回馈上游。技巧CoherevLLM编码智能体开源推荐理由:Cohere 开源了用 AI agent 维护 vLLM fork 的实践,把几周工作缩到几天,修复还回馈了上游。原文
00:08berryxia@berryxia精选Apple开源了一个Linux容器运行时,专为其Apple Silicon芯片优化,使用Swift编写。该工具直接兼容Docker Hub上所有OCI镜像,底层通过轻量级VM实现原生虚拟化,无需模拟或翻译,性能和隔离性显著提升。要求macOS 26系统,以签名pkg包作为系统级服务安装。项目已在GitHub以MIT协议开源并接受社区贡献。AI产品AppleContainerizationmacOS 26容器运行时开源2 个信源在谈推荐理由:Apple下场做了个能跑Docker镜像的容器工具,专为M芯片优化,比Docker Desktop快不少。GitHub开源,可以试试。原文
22:52Hugging Face: Blog(博客/媒体)精选IBM Research推出CUGA,一个轻量级智能体框架,提供24个可直接运行的工作示例。每个示例展示了如何用CUGA构建工具调用、多步推理和状态管理等功能。示例覆盖代码执行、数据库查询、网页浏览等场景,所有代码均在GitHub开源。开发者可通过这些示例快速上手CUGA,无需复杂配置即可构建生产级智能体应用。技巧CUGA智能体IBM Research开源推荐理由:IBM Research开源了CUGA框架,有24个现成示例,教你一步步构建能调用工具、多步推理的智能体。想快速上手Agent开发可以看看。原文
03:36Jerry Liu@jerryjliu0精选74°LiteParse v2.1 发布,可将PDF转换为Markdown,速度比Screen Studio放大动作还快。它在olmOCR0-bench、opendataloader-bench、ParseBench三个基准测试上准确率超过pymupdf4llm、opendataloader等工具。完全开源(Apache 2.0),支持CLI、Rust、Node、Python、WASM。可从LlamaIndex官网或GitHub获取。AI产品LiteParseLlamaIndexPDF解析开源Markdown2 个信源在谈推荐理由:LiteParse v2.1又快又准,开源免费,解析PDF转Markdown比同类强,值得一试。原文
13:09Geek@geekbb精选Lupen是一个开源工具,可以将Claude Code和Codex的AI编码成本分解到单次对话和单个步骤。它在本地运行,支持结果核验。该工具通过解析API日志统计每次请求的消耗,涵盖Anthropic和OpenAI的计费模型。目前项目已在GitHub上发布,代码可公开审计。AI产品Claude CodeCodexLupen编程助手开源10 个信源在谈推荐理由:想精打细算AI编码成本?试试Lupen,它把Claude Code和Codex每一笔开销都算到单次步骤,清清楚楚。原文
09:21arXiv cs.LG@Gal Bloch, Ariel Gera, Matan Orbach, Ohad Eytan, Assaf Toledo精选Flash-GMM 是一个融合的 Triton 内核,用于在单次 GPU 传递中高效计算高斯混合模型(GMM)。它通过避免在 GPU 内存中实例化完整的责任矩阵,实现了比现有实现快 20 倍的加速,并支持在单个设备上训练比以往大 100 倍以上的数据集。该内核被集成到 IVF 粗量化器中用于近似最近邻搜索,表明软 GMM 聚类可以替代 k-means,并利用 GMM 责任将边界向量分配到多个簇。在达到固定召回率目标时,Flash-GMM 减少了最多 1.7 倍的距离计算,或在相同计算成本下召回率提升 2-12 个点。该项目已开源。论文GMMGPU加速聚类近似最近邻搜索开源推荐理由:做大规模聚类或近似最近邻搜索的团队,Flash-GMM 让你在单卡上处理百倍数据量,速度还快 20 倍,直接替换 k-means 就能提升召回率,值得一试。原文
16:42Hunyuan@TXhunyuan精选72°腾讯混元与上海交大、南洋理工等机构合作推出 MMAE,这是首个针对语音和音频编辑的综合评估基准。与单纯生成音频不同,MMAE 要求 AI 理解现有音频并根据自然语言指令精确修改,保留无关部分。基准包含 2000 个真实场景样本、17741 个细粒度评估项,覆盖声音、音乐、语音及其混合的 7 种模态设置。当前模型在精确匹配率(EMR)上低于 5%,揭示了可靠音频编辑的巨大差距。该基准已开源,包含论文、代码和演示。论文音频编辑评估基准腾讯混元多模态开源推荐理由:音频编辑是 AI 落地的重要场景,MMAE 基准揭示了现有模型的巨大短板,做音频 AI 或语音交互的开发者值得关注这个评估工具。原文
14:27marktechpost@Asif Razzaq精选UIUC与Chroma联合推出Harness-1,一个20B参数的检索子智能体,通过强化学习在状态搜索框架中训练。该框架维护候选池、重要性标记的精选集、证据图和验证记录,策略决定搜索、筛选、验证和停止时机。在8个基准测试中,Harness-1平均精选召回率达0.730,领先下一名开源子智能体11.4个百分点,仅次于Opus-4.6。模型权重和框架代码已开源。AI模型Harness-1检索子智能体强化学习状态搜索框架开源推荐理由:Harness-1用强化学习解决了检索子智能体的搜索策略优化问题,做信息检索或RAG系统的开发者可以直接用开源代码复现,效果接近闭源最强模型。原文
14:14IT之家(博客/媒体)精选Linux 7.2 主线内核计划合并新补丁,首次支持苹果 M3 系列设备启动,涵盖 iMac、MacBook Air 和 MacBook Pro 等 4 款机型。补丁由开发者 Janne Grunau 提供,仅提供最小化启动能力,可引导内核到简单串口控制台,但远不足以日常使用。设备树覆盖 CPU、中断控制器、电源状态等基础硬件,笔记本额外支持键盘背光 PWM。苹果 M3 架构变化较大,图形支持仍需大量工作,距离日常体验 Linux 还有很长路。行业Linux苹果 M3内核适配设备树开源推荐理由:Linux 用户终于能在 M3 Mac 上尝鲜启动,虽然还远不够日常用,但这是从零到一的突破。做嵌入式或喜欢折腾硬件的开发者,值得关注这个补丁的进展。原文
08:38Amjad Masad@amasad精选现有SWE基准测试主要关注代码修复和补丁生成,未能充分衡量AI在应用层构建完整Web应用的能力。ViBench是一个新的开源基准,专门评估AI代理在端到端Web应用开发中的表现,涵盖从设计到部署的完整流程。该基准由Michele Catasta提出,旨在填补现有评估体系的空白,帮助开发者更准确地选择适合应用开发的AI模型。对于关注AI编程工具实际应用效果的团队,ViBench提供了更有价值的参考标准。AI产品基准测试ViBenchWeb应用开发AI编程开源推荐理由:做AI编程工具选型或评估模型实际应用能力的团队,ViBench比传统SWE基准更能反映真实开发场景,建议关注其测试结果。原文
AITOP5月29日 08:02Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……
08:06Simon Willison’s Weblog(博客/媒体)精选datasette-agent 0.1a3 版本发布,为 Datasette 的 AI 助手新增了“查看 SQL 查询”按钮,支持可见表和折叠的 SQL 结果工具调用。该版本还改进了截断响应的处理,即使 SQL 结果被截断,表格仍会显示给用户。同时,不再显示空的推理块。这一更新提升了 Datasette 作为可扩展 AI 助手的实用性和用户体验。AI产品Datasettedatasette-agentSQL查询AI助手开源推荐理由:对于使用 Datasette 做数据探索的团队,这个版本让 AI 生成的 SQL 查询更透明可控,建议升级体验。原文
00:40AlphaSignal@AlphaSignalAI精选Transformer Explainer 是一个免费的开源互动工具,通过浏览器运行 GPT-2 模型,实时展示文本生成的全过程。它提供实时推理、可视化步骤图和温度滑块,让用户直观看到嵌入、注意力头和最终 token 排名。该工具使用 ONNX runtime 和 HuggingFace 在本地运行,前端基于 Svelte 和 D3 动画。对于想理解 Transformer 工作原理的开发者、学生和 AI 爱好者来说,这是一个极佳的学习资源。AI产品TransformerGPT-2可视化工具开源AI 教育推荐理由:这个工具把 Transformer 的黑箱彻底透明化了,做 AI 学习或教学的人可以直接上手体验,比看论文直观一百倍。原文
13:26arXiv cs.LG@Tara Bogavelli, Gabrielle Gauthier Melançon, Katrina Stankiewicz, Oluwanifemi Bamgbose, Fanny Riols, Hoang H. Nguyen, Raghav Mehndiratta, Lindsay Devon Brin, Joseph Marinier, Hari Subramani, Anil Madamala, Sridhar Krishna Nemala, Srinivas Sunkara精选EVA-Bench 是一个全新的端到端评估框架,专门用于测试语音智能体(Voice Agents)在真实对话场景中的表现。它解决了现有基准无法同时模拟动态对话和全面衡量语音特有失败模式的问题。框架包含 213 个企业级场景,并引入两个复合指标:EVA-A(准确性)和 EVA-X(体验),分别评估任务完成度、忠实度、语音保真度以及对话流畅性、简洁性和轮次时机。在 12 个系统上的测试显示,没有系统能同时在两个指标上超过 0.5,且峰值性能与可靠性能差距显著。该框架已开源,为语音智能体的标准化评估提供了新工具。论文语音智能体评估框架基准测试企业应用开源推荐理由:做语音智能体或对话系统的团队终于有了一个能同时测准确性和体验感的基准——EVA-Bench 覆盖了企业场景和噪声鲁棒性,直接帮你对比不同架构的优劣,建议点开看看具体指标设计。原文