17:33Aravind Srinivas@AravSrinivas精选Perplexity 的 Agent API 新增了对智谱 AI 旗舰模型 GLM-5.2 的支持。GLM-5.2 是目前最强的开源模型之一,在长周期编码和智能体工作流上表现突出。它充分利用了 Perplexity 的 Search as Code 架构,用户通过一次 API 调用即可结合前沿推理与实时程序化搜索。该接口兼容 OpenAI 格式,且 Perplexity 提供第一方定价,无额外加价。AI模型GLM-5.2PerplexityAgent API开源模型智能体10 个信源在谈推荐理由:Perplexity Agent API 现在能调用 GLM-5.2 了,这个模型编码和智能体任务很强,还能边推理边搜索,价格也透明。原文
16:21Pandaily@contact@pandaily.com (Pandaily)百度推出Unlimited-OCR技术,核心是Constant KV Cache方法,专为超长文档设计。该技术在长文档OCR任务上取得SOTA性能,解决了传统KV缓存随文档长度线性增长的问题。Constant KV Cache将缓存大小保持常数,显著降低内存占用和推理延迟。AI模型Unlimited-OCRConstant KV Cache百度OCR长文档8 个信源在谈推荐理由:百度搞了个Unlimited-OCR,用Constant KV Cache解决长文档识别,缓存不爆炸,性能还最强,适合处理几百页的合同或文献。原文
15:48OpenAI@OpenAI (@OpenAI)OpenAI推出了GPT-5.5-Cyber,这是其最强大的网络模型,专注于高级授权防御任务。该模型能够追溯脆弱代码、验证漏洞、开发补丁,并为人工审查准备证据。这是开源模型在基准测试中首次达到GPT-3.5水平,仅用1/10的计算量。AI模型GPT-5.5-CyberOpenAI网络安全防御工作漏洞修复10 个信源在谈推荐理由:OpenAI搞了个专门搞网络安全的模型GPT-5.5-Cyber,能自动找漏洞、打补丁,干活比人快还准,安全团队有福了。原文
15:21IT之家(博客/媒体)精选73°OpenAI于6月22日发布GPT-5.5-Cyber网络安全专用模型,面向Daybreak项目有限开放。该模型在CyberGym测试中取得85.6%的得分,超过Claude Mythos 5的83.8%和GPT-5.5的81.8%。在ExploitGym测试中得分为39.5%,而GPT-5.5为25.95%。在SEC-bench Pro测试中得分69.8%,GPT-5.5为63.1%。AI模型GPT-5.5-CyberOpenAIClaude Mythos 5CyberGym网络安全10 个信源在谈推荐理由:OpenAI新出的网络安全大模型GPT-5.5-Cyber挺猛,CyberGym跑分超了Claude Mythos 5,安全团队可以关注一下。原文
14:56向阳乔木@vista8火山引擎在活动中透露Seeddance 2.5预计7月上线,具体定价未公布。Seedream 5.0 Pro新增箭头和高亮区块编辑功能。这些更新提升了视频和图像编辑的交互精度。AI模型Seeddance 2.5Seedream 5.0 Pro火山引擎视频生成图像编辑3 个信源在谈推荐理由:火山引擎的Seeddance 2.5视频模型7月就来,Seedream 5.0 Pro还能加箭头高亮编辑,挺实用。原文
14:46向阳乔木@vista876°百度发布Unlimited OCR,模拟人类抄书注意力模式,每生成一个token时参考完整图像和提示词,但输出侧仅回看前128个token。KV缓存固定为128长度,避免长文档推理时内存爆炸。在超长文档OCR任务上效果显著,已在GitHub和Hugging Face开源。AI模型UnlimitedOCR百度OCR推理模型开源模型6 个信源在谈推荐理由:百度开源了一个超聪明的OCR方案,用固定128 token缓存模拟人眼抄书,长文档不爆内存,快去试试!原文
14:45向阳乔木@vista8百度近日开源了Unlimited OCR模型,参数量3B但仅需500M激活参数。该模型参考了滑动注意力窗口技术,在OCR任务上取得了出乎意料的好效果。轻量级设计使其更易于部署。AI模型百度Unlimited OCROCR开源模型滑动注意力6 个信源在谈推荐理由:百度刚开源的Unlimited OCR,3B参数只激活500M,效果居然这么强,做OCR的赶紧看看。原文
14:21IT之家(博客/媒体)Sakana AI 推出多智能体编排系统 Sakana Fugu,它是一个语言模型,可根据任务智能调用包括自身在内的最适模型,并封装为单一 API。初始提供平衡型 Fugu 和面向复杂问题的 Fugu Ultra 两种版本。Sakana AI 宣称 Fugu Ultra 在部分工程、科学和推理基准测试中可提供与 Anthropic Fable 5 / Mythos Preview 相当甚至更优的性能。该系统帮助用户避免对单一供应商的依赖。AI模型Sakana FuguSakana AIAnthropicFable 5模型编排10 个信源在谈推荐理由:日本 Sakana AI 搞了个 Fugu 系统,能自动选最好的模型干活,Fugu Ultra 在某些测试上比 Anthropic Fable 5 还强,值得看看。原文
14:19小互@imxiaohu76°Seedance 2.5能一次生成30秒短片,原生支持4K分辨率。它可输入最多50个全模台参考素材,并支持3D白模引导生成。同时字节跳动推出了AI版权商业化平台,允许用户使用官方授权IP进行创作并获取分成。AI模型Seedance字节跳动视频生成4K3D模型推荐理由:字节跳动新出的视频模型Seedance 2.5能一次生成30秒4K短片,还支持3D白模和50个素材输入,做视频效率很高。原文
14:15小互@imxiaohu72°字节跳动在今天2026火山引擎大会上发布视频生成模型Seedance2.5。语言模型豆包seed2.1据称能力达到Opus4.6水平。图像模型Seeddream 5.0也一同推出。AI模型Seedance2.5豆包seed2.1Seeddream 5.0字节跳动视频生成3 个信源在谈推荐理由:字节跳动一次更新三个模型:Seedance2.5视频生成、豆包seed2.1对标Opus4.6、Seeddream 5.0图像生成,值得关注。原文
14:09shao__meng@shao__meng72°字节跳动在火山引擎 FORCE 2026 原动力大会上发布 Seedream 5.0 Pro 图像生成模型和 Seedance 2.5 视频生成模型。OpenAI Sora 已关停,Google Veo 尚未更新,目前图像与视频生成赛道主要由中国厂商竞争,包括字节跳动、阿里巴巴、快手等。新模型在图像理解和视频生成能力上进一步升级。AI模型Seedream 5.0 ProSeedance 2.5字节跳动火山引擎图像生成视频生成10 个信源在谈推荐理由:字节跳动刚发了两个新模型,图像和视频生成都升级了,中国大厂继续内卷,可以看看原文
14:06lmarena.ai@lmarena_aiNVIDIA 的 Cosmos 3 Super 在 Text-to-Image Arena 开放模型排名中位列第8和第11(两个变体),整体排名第49和第54。其中 #8 的 Cosmos-3-Super-Text2Image 与 Flux-2-Klein-9B 和 Qwen Image Prompt Extend 持平。#11 的 Cosmos-3-Super-Text2Image (Agentic) 与 Qwen-Image 和 Ideogram-v3-Quality 等模型持平。这些排名体现了 NVIDIA 对开源生态的贡献。AI模型Cosmos-3-SuperNVIDIAText-to-Image Arena文本到图像开源模型6 个信源在谈推荐理由:NVIDIA 这个开源文生图模型在排行榜上跟 Flux、Qwen 差不多水平,想试试免费好用的生成工具可以关注它。原文
14:03elvis@omarsar0Sakana AI推出Fugu Ultra模型,这是一个可通过单个API调用的多智能体编排系统。Fugu Ultra在3D渲染任务上表现极佳,性能与Fable和Mythos相当,同时避免了出口管制风险。该模型展示了无需受限制即可获得前沿能力。AI模型Sakana AIFugu UltraFableMythos多智能体推荐理由:Sakana AI的Fugu Ultra多智能体系统,3D渲染强到离谱,性能比肩Fable和Mythos,还不用怕出口管制,快去试试。原文
13:55Geek@geekbb精选百度开源了一个基于DeepSeek-OCR升级的视觉语言模型OCR项目,支持一次性解析超长文档。该模型提供两种推理模式:gundam模式用于处理单张图片中的密集文字,base模式适用于多页文档或PDF。项目代码已在GitHub上发布,允许开发者直接使用。AI模型百度DeepSeek-OCR视觉语言模型OCR开源模型推荐理由:百度开源的OCR模型,在DeepSeek-OCR上做了升级,能一次性处理超长文档和密集文字,两种模式很实用。原文
13:18arXiv cs.AI@Sikai Li, Shuning Li, Zhenyu Wei, Yunchao Yao, Chenran Li, Mingyu DingCoorDex是一个学习管线,将高维全身和灵巧手控制转换为协调的潜在残差控制,使Unitree G1人形机器人搭配20-DoF WUJI手能在移动中执行灵巧操作。它从模拟全身和手部演示训练特权运动跟踪教师,蒸馏为潜在先验,再用残差强化学习训练协调策略。该方法实现了非停止的瓶子抓取搬运、移动中打开冰箱门和立方体旋转。消融实验表明,联合空间PPO、联合空间手控制和整体潜在预测在同一奖励预算下均失败。AI模型CoorDexUnitree G1人形机器人灵巧操作全身控制推荐理由:CoorDex让人形机器人在行走时用灵巧手完成开冰箱、抓瓶子的连续操作,不再需要走走停停,和之前的笨拙模式完全不一样。原文
12:58arXiv cs.AI@Mohamed Nagy, Naoufel Werghi, Jorge Dias, Majid KhonjiPolycepta提出对象中心外观状态估计框架,将外观建模从帧级匹配转为递归估计,为每个跟踪目标独立维护并更新外观状态。在KITTI、Waymo Open Dataset和MOT17三个基准上,该方法一致减少身份切换并提升跟踪性能。集成到RobMOT框架后,Polycepta在KITTI上达到MOTA 92.27%,运行速度90.57 Hz。AI模型PolyceptaKITTIWaymoMOT17多目标跟踪推荐理由:Polycepta不用死板的外观模板,边跟踪边更新目标长相,在KITTI基准上拿92.27% MOTA还跑得飞快,比传统方法稳多了。原文
12:49arXiv cs.LG@Tianyi Li, Zhiqiang Shen现有线性模式连通性方法通常只从一个模型端点优化插值路径,难以扩展到大型Transformer。我们提出新框架,应用功能保持的权重变换对齐等价解,并让两个模型双向学习向共享线性插值路径的变换。双向优化大幅减少插值障碍,在中等参数规模语言模型上实现了WikiText近零损失屏障(首次展示该规模下近无屏障线性连通)。视觉领域ViT-L在插值路径上保持ImageNet top-1准确率超69%,十亿参数LLM只表现出小损失屏障。这些结果表明解决参数对称性能使大预训练Transformer通过简单线性路径连通和合并。AI模型Linear Mode ConnectivityTransformer模型合并双学习匹配预训练模型推荐理由:新方法让十亿参数Transformer通过双向学习实现线性合并,损失屏障极低,视觉和语言模型都验证有效。原文
12:27IT之家(博客/媒体)72°Seedance 2.5 是字节跳动最新的视频生成模型,支持单段原生 30 秒视频直接生成,并可同时导入最多 50 个全模态参考素材,提升可控性。该模型目前处于企业内测阶段,预计 7 月初上线。前代 Seedance 2.0 已升级具备原生 4K 视频生成能力。字节还发布了 AI 版权商业化平台,周星驰成为首批合作对象,用户可基于官方授权模板对经典电影片段进行二次创作,当日创作量已突破十万次。AI模型豆包Seedance 2.5视频生成字节跳动周星驰4 个信源在谈推荐理由:字节跳动新视频模型 Seedance 2.5 能直接生成 30 秒长视频,还支持 50 个全模态素材输入,马上 7 月就能用上了。周星驰经典片段也能用 AI 二次创作,挺有意思。原文
12:04arXiv: DeepSeek@Haifeng Wu, Srinivasan Manoharan, Fangbo Tu, Junhua Zhao, Jian Wan精选RLM-Cascade是一个代理层投机解码系统,在响应级别优化LLM API调用。它使用DeepSeek作为草稿模型、Opus作为验证模型,并通过轻量复杂度路由器选择路径。在Claude Code生产环境中,系统达到88.8%的草稿使用率,API成本相比直接使用Opus降低45.8%。P50延迟从3698毫秒降至2026毫秒,实现1.83倍加速。在20个Code/Math/Instruct任务基准上,RLM-Cascade通过率达100%,高于Opus的95%。AI模型RLM-CascadeDeepSeekOpus投机解码智能体推荐理由:这个系统把DeepSeek和Opus组合起来,用投机解码省了近一半API成本,还快了一倍,质量也有提升,而且开源可部署。原文
12:00arXiv: DeepSeek@Yuhan jiang, Peng Luo, Liqiu Meng精选新基准Lost in Aggregation将迷宫导航分解为Fine(局部通行)、Meso(交叉口拓扑)和Macro(全局方向)三个认知层级。在1050个拓扑标注迷宫(3x3至30x30共7种尺寸、3个难度级别)上评估GPT-4o、DeepSeek-V3和Llama-3.3-70B。结果发现:端到端导航在10x10以上几乎完全失败,但单独测试各层级时模型在30-75%水平。首错分析定位59%失败在Meso层级、39%在Fine层级,全局方向仅1%。层次化规划(仅在交叉口查询LLM、配合显式单元格提示)将GPT-4o在中等尺寸上的成功率提升最多92个百分点,但30x30时又遇到扩展瓶颈。基准代码和迷宫已开源。AI模型Lost in AggregationGPT-4oDeepSeek-V3Llama-3.3-70B空间推理推荐理由:想知道LLM为什么在导航任务中迷路吗?这个基准把问题拆成三个层级,告诉你59%的锅在交叉口选择,39%在局部感知,方向判断几乎不犯错。对做空间推理的开发者非常有用。原文
10:53arXiv cs.AI@Yundaichuan Zhan, Minghe Gao, Zhongqi Yue, Wendong Bu, Wenqiao Zhang, Guoming Wang, Jisheng Dang, Juncheng Li, Siliang Tang, Yueting ZhuangSCOPE 提出一种自适应的符号规划框架,由 Symbolic Execution Simulator(SESim)和 Self-Adaptive Symbolic Memory(SASMem)两个模块协同工作。SESim 通过符号验证和实际执行反馈来 refine 行动计划和进化符号世界;SASMem 则将反馈蒸馏为可演化的符号知识。在开放环境实验中,SCOPE 使符号世界完整性提升,在环境扰动下计划成功率提高,并增强了跨任务泛化能力。AI模型SCOPE符号规划视觉语言模型智能体推荐理由:搞机器人规划的朋友可以看看 SCOPE,它用符号执行加记忆更新解决开放世界符号不完整的老问题。原文
10:48arXiv cs.LG@Despina Christou, Grigorios Tsoumakas论文对比了5个小型语言模型(360M至3B参数)在通用域和文学域关系抽取上的表现。在通用域,Qwen2.5-0.5B经过微调后达到0.83 micro-F1,超过零样本的GPT-5.4(0.69)和Claude Sonnet 4.6(0.66)。在文学域,调优后的SLM在Biographical基准上达0.92,GPT-5.4为0.83,文学均值0.833 vs 0.578。结果表明,任务特定调优的SLM可在单张消费级GPU上部署,提供准确、隐私且硬件高效的关系抽取。AI模型Qwen2.5-0.5BGPT-5.4Claude Sonnet关系抽取小语言模型推荐理由:Qwen2.5-0.5B调优后,在关系抽取任务上干掉了GPT-5.4和Claude Sonnet,而且模型很小,单卡就能跑,适合隐私敏感场景。原文
10:33berryxia@berryxia百度开源的 Unlimited OCR 模型采用 R-SWA 注意力机制,支持 32K 上下文窗口,一次前向推理即可完成几十页文档的转录。其核心卖点是 One-Shot Long-Horizon Parsing,无需分页处理,KV Cache 大小恒定。技术报告提到该模型融合了来自 DeepSeek-OCR 的高压缩编码器,且部分核心贡献者与 DeepSeek 有渊源。AI模型Unlimited OCR百度R-SWAOCR开源模型6 个信源在谈推荐理由:百度搞了个挺牛的 OCR 模型,能一口气读几十页,不像以前那样一页一页循环。开源了,谁都能试试。原文
10:33arXiv cs.LG@Junshu Sun, Wanxing Chang, Qingming Huang, Shuhui Wang本文提出AdaR,一种自适应递归图模型,解决预训练图模型与固定架构不匹配问题。理论分析证明步骤依赖是自适应递归收敛的充要条件。AdaR通过编码归一化步骤信息和表示-目标关系实现自适应推理,并利用梯度监督信号确保递归收敛。在归纳和直推设置下,AdaR在多项图学习中优于现有强基线模型。AI模型AdaR图学习测试时计算自适应推理递归图模型推荐理由:AdaR让图模型在测试时自己调整推理步数,不用重新训练,效果比传统图神经网络好。原文
10:06IT之家(博客/媒体)字节跳动发布的豆包Seed 2.1系列包括Pro和Turbo两个版本,Pro面向高复杂度任务,Turbo面向大规模生产。该系列在Coding工程交付、Agent长链路任务执行和多模态理解三大方向实现升级。价格方面,Pro模型推理输入6元/百万tokens(缓存命中1.2元),推理输出30元/百万tokens;Turbo模型推理输入3元/百万tokens(缓存命中0.6元),推理输出15元/百万tokens。同时发布了每周至少更新一次版本的Seed-Evolving模型和面向泛娱乐的角色模型Character。AI模型豆包Seed 2.1字节跳动推理模型多模态智能体4 个信源在谈推荐理由:字节新出的豆包Seed 2.1 Pro和Turbo,专门优化编程、智能体和多模态任务,Pro适合高难度场景,Turbo便宜且效率高,很适合接项目用。原文
08:05berryxia@berryxia百度开源了Unlimited OCR模型,采用R-SWA(参考滑动窗口注意力)机制,一次前向推理即可处理32K上下文的文档,数十页PDF无需分块。与传统逐页处理的OCR不同,其KV Cache大小恒定,不随长度增长。模型灵感源于人类抄书行为,仅维护近128个状态。技术报告核心贡献者中,技术总监YY疑为DeepSeek前员工。AI模型Unlimited OCR百度DeepSeekR-SWA文档理解6 个信源在谈推荐理由:百度开源的Unlimited OCR能一口气读完几十页PDF,不用切块,快又准。技术总监YY可能是DeepSeek出走的,有意思。原文
03:24elvis@omarsar0精选Sakana AI推出Fugu Ultra多智能体编排系统,通过单一模型API即可调用。在程序化地形生成(Three.js)测试中,Fugu Ultra一次生成效果与Fable和Mythos相当。该模型规避了出口管制风险,属于前沿能力级别。AI模型SakanaFugu Ultra智能体程序化生成推荐理由:Sakana AI悄悄上了个Fugu Ultra,多智能体编排直接一个API搞定,性能追上Fable和Mythos,还不用怕出口管制,值得试试。原文
02:51marktechpost@Asif Razzaq精选73°Sakana AI 推出 Sakana Fugu,一种编排模型,可将用户任务动态路由至可替换的前沿 LLM 池。其增强版 Fugu Ultra 在多个编码、推理和智能体基准测试中取得领先成绩。该模型通过选择最适合的模型来提升任务效率,无需用户手动切换。AI模型Sakana AISakana Fugu编排模型智能体推理模型1 个信源在谈推荐理由:Sakana AI 搞了个 Fugu 编排模型,能自动在多个前沿 LLM 之间切换最优选择,在编码和推理基准上表现很突出。原文
02:43SiliconFlowAI@siliconflowaiGLM-5.2 在 Designarena 的 HTML Web Design 排行榜上取得第一,超越了此前长期占据榜首的 Claude Opus 4.6 和 4.7。该模型已通过 SiliconFlow API 提供使用。开发者可以立即调用 GLM-5.2 构建 HTML 网页设计项目。AI模型GLM-5.2Claude OpusSiliconFlowDesignarena编程助手1 个信源在谈推荐理由:HTML 设计排行榜上 GLM-5.2 干掉了 Claude,现在就能用 SiliconFlow 的 API 上手,写网页贼快。原文
02:26LangChain@LangChainAILangChain 宣布其通用开发者工具 dcode 现已支持 GLM 5.2 模型。用户可直接在 dcode 中运行该开源模型,无需额外配置。dcode 是提供商无关的工具,也兼容其他最新的开源模型。详情可查阅 LangChain 文档。AI模型GLM 5.2dcodeLangChain开源模型推荐理由:LangChain 出了个叫 dcode 的工具,现在能跑 GLM 5.2 模型了,而且是开源的,想尝鲜直接上手。原文
00:48AWS Machine Learning Blog@Gilbert V Lepadatu精选AWS博客介绍了基于Amazon Bedrock和OpenSearch Serverless构建的可搜索航空影像系统架构。团队使用OpenStreetMap地面实况数据设计了四项实验,对比了嵌入模型、融合策略、字幕生成和搜索方法。其中Amazon Nova Multimodal Embeddings在基准查询中取得了最高的F1分数。该系统最终演变为Vexcel Intelligence产品,为地理空间语义搜索提供了实用指导。AI模型Amazon Nova Multimodal EmbeddingsAmazon BedrockOpenSearch Serverless多模态地理空间搜索推荐理由:AWS用Amazon Nova做航空影像搜索,F1分数最高,想搞地理空间搜索的可以参考他们的实验设计。原文
00:47berryxia@berryxia精选72°百度在Hugging Face上开源了Unlimited-OCR模型,其核心创新是R-SWA(Reference Sliding Window Attention),让KV Cache保持恒定,避免随页数爆炸。该模型可一次性解析单张图或多页PDF,在OmniDocBench上获得93分,比DeepSeek-OCR高出6个百分点。它取代了传统“分块+拼接”流程,实现端到端长文档理解,输出质量更高。AI模型Unlimited-OCR百度OmniDocBenchDeepSeek-OCROCR5 个信源在谈推荐理由:百度开源了Unlimited-OCR,几百页文档一次搞定,不用分块拼接,速度稳准狠,OmniDocBench上93分压了DeepSeek-OCR一头。原文
00:23AK@_akhaliqPerceptionDLM是一个新提出的多模态扩散语言模型,能够并行地感知图像中的多个区域。该模型结合了扩散模型的生成能力和语言模型的推理能力,支持多区域联合理解。它在一系列视觉定位和区域描述任务上展示了优越性能,但具体基准名称和数值未在原文中提及。AI模型PerceptionDLM多模态扩散语言模型区域感知推荐理由:这是一个新模型,能用多模态扩散语言模型同时理解图片里的多个区域,跟以前的单区域方法不一样。原文
23:51Nathan Lambert: Interconnects@Nathan LambertGLM-5.2 是智谱AI推出的新模型,重点提升开放智能体场景下的表现。该模型在工具调用和多步推理任务上取得进展。GLM-5.2 在多项智能体相关基准上展现了更强的自主决策能力。AI模型GLM-5.2Zhipu AI智能体开放智能体1 个信源在谈推荐理由:GLM-5.2 把开放智能体的能力又推了一步,想看智能体怎么进化的可以瞄一眼。原文
21:30IT之家(博客/媒体)生数科技的新一代视频生成大模型 Vidu Q3 上线华为云 MaaS,支持文生视频和图生视频一体化成片。该模型是全球首个“为剧而生”的视频大模型,可生成 16 秒 1080P 画质内容,并实现声画同出、多镜头叙事。Vidu Q3 推出两个版本:Turbo 极速版优化推理速度与成本,适合快速创意打样;Pro 专业版支持 4K 分辨率,面向广告大片等专业场景。模型还具备多国语言文字渲染及多语言输出功能,可用于漫剧、短剧和影视创作。AI模型Vidu Q3华为云生数科技视频生成多模态推荐理由:生数 Vidu Q3 上线华为云,能一键文/图生视频,支持 16 秒 1080P 和 4K,还有专为剧集设计的镜头叙事能力,做短视频或专业视频都合适。原文
20:53Guillermo Rauch@rauchgSakana 公司发布 Fugu Ultra 模型,通过 Vercel 的 AI Gateway 提供调用。该模型被描述为 Mythos-class(神话级)智能。用户只需一次 API 调用即可访问,背后由多个模型组成。目前已在 Vercel AI Gateway 上线。AI模型SakanaFugu UltraVercelAI Gateway推荐理由:Sakana 的 Fugu Ultra 模型上线 Vercel 了,一次调用就能用上多个模型,号称神话级智能,想尝鲜的可以试试。原文
17:15IT之家(博客/媒体)百川智能与清华大学联合发布医疗增强大模型 Baichuan-M4。该模型在 HealthBench 综合得分 68.6,超越 GPT-5.5 超 10 分,幻觉率低至 3.3%。在 SCAN-bench 动态问诊评测中初诊 79.0、复诊 74.7,均领先 GPT-5.5、DeepSeek-V4-Pro 和 Claude Opus 4.7。M4 还具备全病程记忆功能,长上下文临床记忆得分 86.9,较上一代 M3 提升 21.1 分。其证据锚定机制使循证引用精度达到 90.0,远超 GPT-5.5 的 54.7。AI模型Baichuan-M4百川智能HealthBench医疗大模型循证医学10 个信源在谈推荐理由:百川发了医疗增强大模型 M4,在 HealthBench 碾压 GPT-5.5,幻觉率仅 3.3%,看病问诊更靠谱。原文
17:03量子位@量子位的朋友们阿里发布了视频生成模型HappyHorse 1.1,在分辨率、时长、运动一致性、视觉质量和推理速度五个维度进行了升级。新版本较上一代在生成稳定性和细节表现上有所提升。该模型面向创意视频制作场景,可生成更流畅的长视频片段。具体升级幅度和对比数据尚未公布。AI模型HappyHorse阿里视频生成模型AI视频推荐理由:阿里刚发了HappyHorse 1.1,视频生成模型又升级了,想知道具体提升了哪些方面可以看看。原文
16:45IT之家(博客/媒体)71°京东发布并开源了实时视频视觉语言交互模型JoyAI-VL-Interaction,这是全球首个全栈开源的interaction模型和系统,获得vLLM-Omni的day-0原生支持。该模型能持续观察视频流,自主判断何时响应,而非被动等待用户提问。在58个真人盲评案例中,JoyAI-VL-Interaction对比豆包视频通话助手胜率77.6%,对比Gemini视频通话助手胜率87.9%。它支持摄像头、直播流、监控流等多种视频输入,并具备后台智能体委托能力。AI模型JoyAI-VL-Interaction京东多模态智能体开源模型推荐理由:京东开源了JoyAI-VL-Interaction,能实时看视频主动说话,安防、直播都能用,盲评胜率比豆包和Gemini高一大截。原文
16:33Decoder@Matthias BastianSakana AI推出了Fugu系统,该系统能动态协调多个大型语言模型(如GPT-4、Claude等),在Fable和Mythos基准测试上达到与Anthropic的Fable 5相当的性能。Fugu通过实时路由和模型组合,减少了对单一AI提供商的依赖。测试中,Fugu在Fable基准上得分超过Anthropic的Fable 5,并在Mythos基准上表现出色。AI模型Sakana AIFuguAnthropicFable多模型协作10 个信源在谈推荐理由:日本AI公司Sakana AI搞了个新系统叫Fugu,能让不同模型一起干活,不用只靠一家供应商。效果还跟Anthropic的Fable 5差不多,值得看看怎么做到的。原文