全部 AI 动态 · AI 热点

6月23日

17:33

Aravind Srinivas@AravSrinivas

精选

Perplexity 的 Agent API 新增了对智谱 AI 旗舰模型 GLM-5.2 的支持。GLM-5.2 是目前最强的开源模型之一，在长周期编码和智能体工作流上表现突出。它充分利用了 Perplexity 的 Search as Code 架构，用户通过一次 API 调用即可结合前沿推理与实时程序化搜索。该接口兼容 OpenAI 格式，且 Perplexity 提供第一方定价，无额外加价。

推荐理由：Perplexity Agent API 现在能调用 GLM-5.2 了，这个模型编码和智能体任务很强，还能边推理边搜索，价格也透明。

原文

16:21

Pandaily@contact@pandaily.com (Pandaily)

百度推出Unlimited-OCR技术，核心是Constant KV Cache方法，专为超长文档设计。该技术在长文档OCR任务上取得SOTA性能，解决了传统KV缓存随文档长度线性增长的问题。Constant KV Cache将缓存大小保持常数，显著降低内存占用和推理延迟。

AI模型 Unlimited-OCR Constant KV Cache 百度 OCR 长文档

推荐理由：百度搞了个Unlimited-OCR，用Constant KV Cache解决长文档识别，缓存不爆炸，性能还最强，适合处理几百页的合同或文献。

原文

15:48

OpenAI@OpenAI (@OpenAI)

OpenAI推出了GPT-5.5-Cyber，这是其最强大的网络模型，专注于高级授权防御任务。该模型能够追溯脆弱代码、验证漏洞、开发补丁，并为人工审查准备证据。这是开源模型在基准测试中首次达到GPT-3.5水平，仅用1/10的计算量。

AI模型 GPT-5.5-Cyber OpenAI 网络安全防御工作漏洞修复

推荐理由：OpenAI搞了个专门搞网络安全的模型GPT-5.5-Cyber，能自动找漏洞、打补丁，干活比人快还准，安全团队有福了。

原文

15:21

15:21IT之家（博客/媒体）

精选73°

OpenAI于6月22日发布GPT-5.5-Cyber网络安全专用模型，面向Daybreak项目有限开放。该模型在CyberGym测试中取得85.6%的得分，超过Claude Mythos 5的83.8%和GPT-5.5的81.8%。在ExploitGym测试中得分为39.5%，而GPT-5.5为25.95%。在SEC-bench Pro测试中得分69.8%，GPT-5.5为63.1%。

AI模型 GPT-5.5-Cyber OpenAI Claude Mythos 5 CyberGym 网络安全

推荐理由：OpenAI新出的网络安全大模型GPT-5.5-Cyber挺猛，CyberGym跑分超了Claude Mythos 5，安全团队可以关注一下。

原文

14:56

向阳乔木@vista8

火山引擎在活动中透露Seeddance 2.5预计7月上线，具体定价未公布。Seedream 5.0 Pro新增箭头和高亮区块编辑功能。这些更新提升了视频和图像编辑的交互精度。

AI模型 Seeddance 2.5 Seedream 5.0 Pro 火山引擎视频生成图像编辑

推荐理由：火山引擎的Seeddance 2.5视频模型7月就来，Seedream 5.0 Pro还能加箭头高亮编辑，挺实用。

原文

14:46

向阳乔木@vista8

76°

百度发布Unlimited OCR，模拟人类抄书注意力模式，每生成一个token时参考完整图像和提示词，但输出侧仅回看前128个token。KV缓存固定为128长度，避免长文档推理时内存爆炸。在超长文档OCR任务上效果显著，已在GitHub和Hugging Face开源。

AI模型 UnlimitedOCR 百度 OCR 推理模型开源模型

推荐理由：百度开源了一个超聪明的OCR方案，用固定128 token缓存模拟人眼抄书，长文档不爆内存，快去试试！

原文

14:45

向阳乔木@vista8

百度近日开源了Unlimited OCR模型，参数量3B但仅需500M激活参数。该模型参考了滑动注意力窗口技术，在OCR任务上取得了出乎意料的好效果。轻量级设计使其更易于部署。

AI模型百度 Unlimited OCR OCR 开源模型滑动注意力

推荐理由：百度刚开源的Unlimited OCR，3B参数只激活500M，效果居然这么强，做OCR的赶紧看看。

原文

14:21

14:21IT之家（博客/媒体）

Sakana AI 推出多智能体编排系统 Sakana Fugu，它是一个语言模型，可根据任务智能调用包括自身在内的最适模型，并封装为单一 API。初始提供平衡型 Fugu 和面向复杂问题的 Fugu Ultra 两种版本。Sakana AI 宣称 Fugu Ultra 在部分工程、科学和推理基准测试中可提供与 Anthropic Fable 5 / Mythos Preview 相当甚至更优的性能。该系统帮助用户避免对单一供应商的依赖。

AI模型 Sakana Fugu Sakana AI Anthropic Fable 5 模型编排

推荐理由：日本 Sakana AI 搞了个 Fugu 系统，能自动选最好的模型干活，Fugu Ultra 在某些测试上比 Anthropic Fable 5 还强，值得看看。

原文

14:19

小互@imxiaohu

76°

Seedance 2.5能一次生成30秒短片，原生支持4K分辨率。它可输入最多50个全模台参考素材，并支持3D白模引导生成。同时字节跳动推出了AI版权商业化平台，允许用户使用官方授权IP进行创作并获取分成。

AI模型 Seedance 字节跳动视频生成 4K 3D模型

推荐理由：字节跳动新出的视频模型Seedance 2.5能一次生成30秒4K短片，还支持3D白模和50个素材输入，做视频效率很高。

原文

14:15

小互@imxiaohu

72°

字节跳动在今天2026火山引擎大会上发布视频生成模型Seedance2.5。语言模型豆包seed2.1据称能力达到Opus4.6水平。图像模型Seeddream 5.0也一同推出。

AI模型 Seedance2.5 豆包seed2.1 Seeddream 5.0 字节跳动视频生成

推荐理由：字节跳动一次更新三个模型：Seedance2.5视频生成、豆包seed2.1对标Opus4.6、Seeddream 5.0图像生成，值得关注。

原文

14:09

shao__meng@shao__meng

72°

字节跳动在火山引擎 FORCE 2026 原动力大会上发布 Seedream 5.0 Pro 图像生成模型和 Seedance 2.5 视频生成模型。OpenAI Sora 已关停，Google Veo 尚未更新，目前图像与视频生成赛道主要由中国厂商竞争，包括字节跳动、阿里巴巴、快手等。新模型在图像理解和视频生成能力上进一步升级。

AI模型 Seedream 5.0 Pro Seedance 2.5 字节跳动火山引擎图像生成视频生成

推荐理由：字节跳动刚发了两个新模型，图像和视频生成都升级了，中国大厂继续内卷，可以看看

原文

14:06

lmarena.ai@lmarena_ai

NVIDIA 的 Cosmos 3 Super 在 Text-to-Image Arena 开放模型排名中位列第8和第11（两个变体），整体排名第49和第54。其中 #8 的 Cosmos-3-Super-Text2Image 与 Flux-2-Klein-9B 和 Qwen Image Prompt Extend 持平。#11 的 Cosmos-3-Super-Text2Image (Agentic) 与 Qwen-Image 和 Ideogram-v3-Quality 等模型持平。这些排名体现了 NVIDIA 对开源生态的贡献。

AI模型 Cosmos-3-Super NVIDIA Text-to-Image Arena 文本到图像开源模型

推荐理由：NVIDIA 这个开源文生图模型在排行榜上跟 Flux、Qwen 差不多水平，想试试免费好用的生成工具可以关注它。

原文

14:03

elvis@omarsar0

Sakana AI推出Fugu Ultra模型，这是一个可通过单个API调用的多智能体编排系统。Fugu Ultra在3D渲染任务上表现极佳，性能与Fable和Mythos相当，同时避免了出口管制风险。该模型展示了无需受限制即可获得前沿能力。

AI模型 Sakana AI Fugu Ultra Fable Mythos 多智能体

推荐理由：Sakana AI的Fugu Ultra多智能体系统，3D渲染强到离谱，性能比肩Fable和Mythos，还不用怕出口管制，快去试试。

原文

13:55

Geek@geekbb

精选

百度开源了一个基于DeepSeek-OCR升级的视觉语言模型OCR项目，支持一次性解析超长文档。该模型提供两种推理模式：gundam模式用于处理单张图片中的密集文字，base模式适用于多页文档或PDF。项目代码已在GitHub上发布，允许开发者直接使用。

AI模型百度 DeepSeek-OCR 视觉语言模型 OCR 开源模型

推荐理由：百度开源的OCR模型，在DeepSeek-OCR上做了升级，能一次性处理超长文档和密集文字，两种模式很实用。

原文

13:18

arXiv cs.AI@Sikai Li, Shuning Li, Zhenyu Wei, Yunchao Yao, Chenran Li, Mingyu Ding

CoorDex是一个学习管线，将高维全身和灵巧手控制转换为协调的潜在残差控制，使Unitree G1人形机器人搭配20-DoF WUJI手能在移动中执行灵巧操作。它从模拟全身和手部演示训练特权运动跟踪教师，蒸馏为潜在先验，再用残差强化学习训练协调策略。该方法实现了非停止的瓶子抓取搬运、移动中打开冰箱门和立方体旋转。消融实验表明，联合空间PPO、联合空间手控制和整体潜在预测在同一奖励预算下均失败。

AI模型 CoorDex Unitree G1 人形机器人灵巧操作全身控制

推荐理由：CoorDex让人形机器人在行走时用灵巧手完成开冰箱、抓瓶子的连续操作，不再需要走走停停，和之前的笨拙模式完全不一样。

原文

12:58

arXiv cs.AI@Mohamed Nagy, Naoufel Werghi, Jorge Dias, Majid Khonji

Polycepta提出对象中心外观状态估计框架，将外观建模从帧级匹配转为递归估计，为每个跟踪目标独立维护并更新外观状态。在KITTI、Waymo Open Dataset和MOT17三个基准上，该方法一致减少身份切换并提升跟踪性能。集成到RobMOT框架后，Polycepta在KITTI上达到MOTA 92.27%，运行速度90.57 Hz。

AI模型 Polycepta KITTI Waymo MOT17 多目标跟踪

推荐理由：Polycepta不用死板的外观模板，边跟踪边更新目标长相，在KITTI基准上拿92.27% MOTA还跑得飞快，比传统方法稳多了。

原文

12:49

arXiv cs.LG@Tianyi Li, Zhiqiang Shen

现有线性模式连通性方法通常只从一个模型端点优化插值路径，难以扩展到大型Transformer。我们提出新框架，应用功能保持的权重变换对齐等价解，并让两个模型双向学习向共享线性插值路径的变换。双向优化大幅减少插值障碍，在中等参数规模语言模型上实现了WikiText近零损失屏障（首次展示该规模下近无屏障线性连通）。视觉领域ViT-L在插值路径上保持ImageNet top-1准确率超69%，十亿参数LLM只表现出小损失屏障。这些结果表明解决参数对称性能使大预训练Transformer通过简单线性路径连通和合并。

AI模型 Linear Mode Connectivity Transformer 模型合并双学习匹配预训练模型

推荐理由：新方法让十亿参数Transformer通过双向学习实现线性合并，损失屏障极低，视觉和语言模型都验证有效。

原文

12:27

12:27IT之家（博客/媒体）

72°

AI模型豆包 Seedance 2.5 视频生成字节跳动周星驰

推荐理由：字节跳动新视频模型 Seedance 2.5 能直接生成 30 秒长视频，还支持 50 个全模态素材输入，马上 7 月就能用上了。周星驰经典片段也能用 AI 二次创作，挺有意思。

原文

12:04

arXiv: DeepSeek@Haifeng Wu, Srinivasan Manoharan, Fangbo Tu, Junhua Zhao, Jian Wan

精选

RLM-Cascade是一个代理层投机解码系统，在响应级别优化LLM API调用。它使用DeepSeek作为草稿模型、Opus作为验证模型，并通过轻量复杂度路由器选择路径。在Claude Code生产环境中，系统达到88.8%的草稿使用率，API成本相比直接使用Opus降低45.8%。P50延迟从3698毫秒降至2026毫秒，实现1.83倍加速。在20个Code/Math/Instruct任务基准上，RLM-Cascade通过率达100%，高于Opus的95%。

AI模型 RLM-Cascade DeepSeek Opus 投机解码智能体

推荐理由：这个系统把DeepSeek和Opus组合起来，用投机解码省了近一半API成本，还快了一倍，质量也有提升，而且开源可部署。

原文

12:00

arXiv: DeepSeek@Yuhan jiang, Peng Luo, Liqiu Meng

精选

新基准Lost in Aggregation将迷宫导航分解为Fine（局部通行）、Meso（交叉口拓扑）和Macro（全局方向）三个认知层级。在1050个拓扑标注迷宫（3x3至30x30共7种尺寸、3个难度级别）上评估GPT-4o、DeepSeek-V3和Llama-3.3-70B。结果发现：端到端导航在10x10以上几乎完全失败，但单独测试各层级时模型在30-75%水平。首错分析定位59%失败在Meso层级、39%在Fine层级，全局方向仅1%。层次化规划（仅在交叉口查询LLM、配合显式单元格提示）将GPT-4o在中等尺寸上的成功率提升最多92个百分点，但30x30时又遇到扩展瓶颈。基准代码和迷宫已开源。

AI模型 Lost in Aggregation GPT-4o DeepSeek-V3 Llama-3.3-70B 空间推理

推荐理由：想知道LLM为什么在导航任务中迷路吗？这个基准把问题拆成三个层级，告诉你59%的锅在交叉口选择，39%在局部感知，方向判断几乎不犯错。对做空间推理的开发者非常有用。

原文

10:53

arXiv cs.AI@Yundaichuan Zhan, Minghe Gao, Zhongqi Yue, Wendong Bu, Wenqiao Zhang, Guoming Wang, Jisheng Dang, Juncheng Li, Siliang Tang, Yueting Zhuang

SCOPE 提出一种自适应的符号规划框架，由 Symbolic Execution Simulator（SESim）和 Self-Adaptive Symbolic Memory（SASMem）两个模块协同工作。SESim 通过符号验证和实际执行反馈来 refine 行动计划和进化符号世界；SASMem 则将反馈蒸馏为可演化的符号知识。在开放环境实验中，SCOPE 使符号世界完整性提升，在环境扰动下计划成功率提高，并增强了跨任务泛化能力。

AI模型 SCOPE 符号规划视觉语言模型智能体

推荐理由：搞机器人规划的朋友可以看看 SCOPE，它用符号执行加记忆更新解决开放世界符号不完整的老问题。

原文

10:48

arXiv cs.LG@Despina Christou, Grigorios Tsoumakas

论文对比了5个小型语言模型（360M至3B参数）在通用域和文学域关系抽取上的表现。在通用域，Qwen2.5-0.5B经过微调后达到0.83 micro-F1，超过零样本的GPT-5.4（0.69）和Claude Sonnet 4.6（0.66）。在文学域，调优后的SLM在Biographical基准上达0.92，GPT-5.4为0.83，文学均值0.833 vs 0.578。结果表明，任务特定调优的SLM可在单张消费级GPU上部署，提供准确、隐私且硬件高效的关系抽取。

AI模型 Qwen2.5-0.5B GPT-5.4 Claude Sonnet 关系抽取小语言模型

推荐理由：Qwen2.5-0.5B调优后，在关系抽取任务上干掉了GPT-5.4和Claude Sonnet，而且模型很小，单卡就能跑，适合隐私敏感场景。

原文

10:33

berryxia@berryxia

百度开源的 Unlimited OCR 模型采用 R-SWA 注意力机制，支持 32K 上下文窗口，一次前向推理即可完成几十页文档的转录。其核心卖点是 One-Shot Long-Horizon Parsing，无需分页处理，KV Cache 大小恒定。技术报告提到该模型融合了来自 DeepSeek-OCR 的高压缩编码器，且部分核心贡献者与 DeepSeek 有渊源。

AI模型 Unlimited OCR 百度 R-SWA OCR 开源模型

推荐理由：百度搞了个挺牛的 OCR 模型，能一口气读几十页，不像以前那样一页一页循环。开源了，谁都能试试。

原文

10:33

arXiv cs.LG@Junshu Sun, Wanxing Chang, Qingming Huang, Shuhui Wang

本文提出AdaR，一种自适应递归图模型，解决预训练图模型与固定架构不匹配问题。理论分析证明步骤依赖是自适应递归收敛的充要条件。AdaR通过编码归一化步骤信息和表示-目标关系实现自适应推理，并利用梯度监督信号确保递归收敛。在归纳和直推设置下，AdaR在多项图学习中优于现有强基线模型。

AI模型 AdaR 图学习测试时计算自适应推理递归图模型

推荐理由：AdaR让图模型在测试时自己调整推理步数，不用重新训练，效果比传统图神经网络好。

原文

10:06

10:06IT之家（博客/媒体）

字节跳动发布的豆包Seed 2.1系列包括Pro和Turbo两个版本，Pro面向高复杂度任务，Turbo面向大规模生产。该系列在Coding工程交付、Agent长链路任务执行和多模态理解三大方向实现升级。价格方面，Pro模型推理输入6元/百万tokens（缓存命中1.2元），推理输出30元/百万tokens；Turbo模型推理输入3元/百万tokens（缓存命中0.6元），推理输出15元/百万tokens。同时发布了每周至少更新一次版本的Seed-Evolving模型和面向泛娱乐的角色模型Character。

AI模型豆包Seed 2.1 字节跳动推理模型多模态智能体

推荐理由：字节新出的豆包Seed 2.1 Pro和Turbo，专门优化编程、智能体和多模态任务，Pro适合高难度场景，Turbo便宜且效率高，很适合接项目用。

原文

08:05

berryxia@berryxia

百度开源了Unlimited OCR模型，采用R-SWA（参考滑动窗口注意力）机制，一次前向推理即可处理32K上下文的文档，数十页PDF无需分块。与传统逐页处理的OCR不同，其KV Cache大小恒定，不随长度增长。模型灵感源于人类抄书行为，仅维护近128个状态。技术报告核心贡献者中，技术总监YY疑为DeepSeek前员工。

AI模型 Unlimited OCR 百度 DeepSeek R-SWA 文档理解

推荐理由：百度开源的Unlimited OCR能一口气读完几十页PDF，不用切块，快又准。技术总监YY可能是DeepSeek出走的，有意思。

原文

03:24

elvis@omarsar0

精选

Sakana AI推出Fugu Ultra多智能体编排系统，通过单一模型API即可调用。在程序化地形生成（Three.js）测试中，Fugu Ultra一次生成效果与Fable和Mythos相当。该模型规避了出口管制风险，属于前沿能力级别。

AI模型 Sakana Fugu Ultra 智能体程序化生成

推荐理由：Sakana AI悄悄上了个Fugu Ultra，多智能体编排直接一个API搞定，性能追上Fable和Mythos，还不用怕出口管制，值得试试。

原文

02:51

marktechpost@Asif Razzaq

精选73°

Sakana AI 推出 Sakana Fugu，一种编排模型，可将用户任务动态路由至可替换的前沿 LLM 池。其增强版 Fugu Ultra 在多个编码、推理和智能体基准测试中取得领先成绩。该模型通过选择最适合的模型来提升任务效率，无需用户手动切换。

AI模型 Sakana AI Sakana Fugu 编排模型智能体推理模型

推荐理由：Sakana AI 搞了个 Fugu 编排模型，能自动在多个前沿 LLM 之间切换最优选择，在编码和推理基准上表现很突出。

原文

02:43

SiliconFlowAI@siliconflowai

GLM-5.2 在 Designarena 的 HTML Web Design 排行榜上取得第一，超越了此前长期占据榜首的 Claude Opus 4.6 和 4.7。该模型已通过 SiliconFlow API 提供使用。开发者可以立即调用 GLM-5.2 构建 HTML 网页设计项目。

AI模型 GLM-5.2 Claude Opus SiliconFlow Designarena 编程助手

推荐理由：HTML 设计排行榜上 GLM-5.2 干掉了 Claude，现在就能用 SiliconFlow 的 API 上手，写网页贼快。

原文

02:26

LangChain@LangChainAI

LangChain 宣布其通用开发者工具 dcode 现已支持 GLM 5.2 模型。用户可直接在 dcode 中运行该开源模型，无需额外配置。dcode 是提供商无关的工具，也兼容其他最新的开源模型。详情可查阅 LangChain 文档。

AI模型 GLM 5.2 dcode LangChain 开源模型

推荐理由：LangChain 出了个叫 dcode 的工具，现在能跑 GLM 5.2 模型了，而且是开源的，想尝鲜直接上手。

原文

00:48

AWS Machine Learning Blog@Gilbert V Lepadatu

精选

AWS博客介绍了基于Amazon Bedrock和OpenSearch Serverless构建的可搜索航空影像系统架构。团队使用OpenStreetMap地面实况数据设计了四项实验，对比了嵌入模型、融合策略、字幕生成和搜索方法。其中Amazon Nova Multimodal Embeddings在基准查询中取得了最高的F1分数。该系统最终演变为Vexcel Intelligence产品，为地理空间语义搜索提供了实用指导。

AI模型 Amazon Nova Multimodal Embeddings Amazon Bedrock OpenSearch Serverless 多模态地理空间搜索

推荐理由：AWS用Amazon Nova做航空影像搜索，F1分数最高，想搞地理空间搜索的可以参考他们的实验设计。

原文

00:47

berryxia@berryxia

精选72°

百度在Hugging Face上开源了Unlimited-OCR模型，其核心创新是R-SWA（Reference Sliding Window Attention），让KV Cache保持恒定，避免随页数爆炸。该模型可一次性解析单张图或多页PDF，在OmniDocBench上获得93分，比DeepSeek-OCR高出6个百分点。它取代了传统“分块+拼接”流程，实现端到端长文档理解，输出质量更高。

AI模型 Unlimited-OCR 百度 OmniDocBench DeepSeek-OCR OCR

推荐理由：百度开源了Unlimited-OCR，几百页文档一次搞定，不用分块拼接，速度稳准狠，OmniDocBench上93分压了DeepSeek-OCR一头。

原文

00:23

AK@_akhaliq

PerceptionDLM是一个新提出的多模态扩散语言模型，能够并行地感知图像中的多个区域。该模型结合了扩散模型的生成能力和语言模型的推理能力，支持多区域联合理解。它在一系列视觉定位和区域描述任务上展示了优越性能，但具体基准名称和数值未在原文中提及。

AI模型 PerceptionDLM 多模态扩散语言模型区域感知

推荐理由：这是一个新模型，能用多模态扩散语言模型同时理解图片里的多个区域，跟以前的单区域方法不一样。

原文

6月22日

23:51

Nathan Lambert: Interconnects@Nathan Lambert

GLM-5.2 是智谱AI推出的新模型，重点提升开放智能体场景下的表现。该模型在工具调用和多步推理任务上取得进展。GLM-5.2 在多项智能体相关基准上展现了更强的自主决策能力。

AI模型 GLM-5.2 Zhipu AI 智能体开放智能体

推荐理由：GLM-5.2 把开放智能体的能力又推了一步，想看智能体怎么进化的可以瞄一眼。

原文

21:30

21:30IT之家（博客/媒体）

生数科技的新一代视频生成大模型 Vidu Q3 上线华为云 MaaS，支持文生视频和图生视频一体化成片。该模型是全球首个“为剧而生”的视频大模型，可生成 16 秒 1080P 画质内容，并实现声画同出、多镜头叙事。Vidu Q3 推出两个版本：Turbo 极速版优化推理速度与成本，适合快速创意打样；Pro 专业版支持 4K 分辨率，面向广告大片等专业场景。模型还具备多国语言文字渲染及多语言输出功能，可用于漫剧、短剧和影视创作。

AI模型 Vidu Q3 华为云生数科技视频生成多模态

推荐理由：生数 Vidu Q3 上线华为云，能一键文/图生视频，支持 16 秒 1080P 和 4K，还有专为剧集设计的镜头叙事能力，做短视频或专业视频都合适。

原文

20:53

Guillermo Rauch@rauchg

Sakana 公司发布 Fugu Ultra 模型，通过 Vercel 的 AI Gateway 提供调用。该模型被描述为 Mythos-class（神话级）智能。用户只需一次 API 调用即可访问，背后由多个模型组成。目前已在 Vercel AI Gateway 上线。

AI模型 Sakana Fugu Ultra Vercel AI Gateway

推荐理由：Sakana 的 Fugu Ultra 模型上线 Vercel 了，一次调用就能用上多个模型，号称神话级智能，想尝鲜的可以试试。

原文

17:15

17:15IT之家（博客/媒体）

百川智能与清华大学联合发布医疗增强大模型 Baichuan-M4。该模型在 HealthBench 综合得分 68.6，超越 GPT-5.5 超 10 分，幻觉率低至 3.3%。在 SCAN-bench 动态问诊评测中初诊 79.0、复诊 74.7，均领先 GPT-5.5、DeepSeek-V4-Pro 和 Claude Opus 4.7。M4 还具备全病程记忆功能，长上下文临床记忆得分 86.9，较上一代 M3 提升 21.1 分。其证据锚定机制使循证引用精度达到 90.0，远超 GPT-5.5 的 54.7。

AI模型 Baichuan-M4 百川智能 HealthBench 医疗大模型循证医学

推荐理由：百川发了医疗增强大模型 M4，在 HealthBench 碾压 GPT-5.5，幻觉率仅 3.3%，看病问诊更靠谱。

原文

17:03

量子位@量子位的朋友们

阿里发布了视频生成模型HappyHorse 1.1，在分辨率、时长、运动一致性、视觉质量和推理速度五个维度进行了升级。新版本较上一代在生成稳定性和细节表现上有所提升。该模型面向创意视频制作场景，可生成更流畅的长视频片段。具体升级幅度和对比数据尚未公布。

AI模型 HappyHorse 阿里视频生成模型 AI视频

推荐理由：阿里刚发了HappyHorse 1.1，视频生成模型又升级了，想知道具体提升了哪些方面可以看看。

原文

16:45

16:45IT之家（博客/媒体）

71°

京东发布并开源了实时视频视觉语言交互模型JoyAI-VL-Interaction，这是全球首个全栈开源的interaction模型和系统，获得vLLM-Omni的day-0原生支持。该模型能持续观察视频流，自主判断何时响应，而非被动等待用户提问。在58个真人盲评案例中，JoyAI-VL-Interaction对比豆包视频通话助手胜率77.6%，对比Gemini视频通话助手胜率87.9%。它支持摄像头、直播流、监控流等多种视频输入，并具备后台智能体委托能力。

AI模型 JoyAI-VL-Interaction 京东多模态智能体开源模型

推荐理由：京东开源了JoyAI-VL-Interaction，能实时看视频主动说话，安防、直播都能用，盲评胜率比豆包和Gemini高一大截。

原文

16:33

Decoder@Matthias Bastian

Sakana AI推出了Fugu系统，该系统能动态协调多个大型语言模型（如GPT-4、Claude等），在Fable和Mythos基准测试上达到与Anthropic的Fable 5相当的性能。Fugu通过实时路由和模型组合，减少了对单一AI提供商的依赖。测试中，Fugu在Fable基准上得分超过Anthropic的Fable 5，并在Mythos基准上表现出色。

AI模型 Sakana AI Fugu Anthropic Fable 多模型协作

推荐理由：日本AI公司Sakana AI搞了个新系统叫Fugu，能让不同模型一起干活，不用只靠一家供应商。效果还跟Anthropic的Fable 5差不多，值得看看怎么做到的。

原文