全部 AI 动态 · AI 热点

6月18日

12:41

AI Will@FinanceYF5

ModelScope和Grok Imagine 1.5分别左右展示AI图像生成模型3年间的进步。左图来自ModelScope，右图来自Grok Imagine 1.5，生成质量有明显差异。Grok Imagine 1.5在细节、真实感和多样性上表现更优。这种对比直观反映了模型迭代的效果。

推荐理由：看看ModelScope和Grok Imagine 1.5的生成效果左右对比，感受AI图像模型3年间的进化。

原文

12:35

12:35IT之家（博客/媒体）

73°

阿里与人大联合开源 LOGOS，这是一个基于统一“科学语法”的多领域科学生成基础模型。LOGOS-1B 仅用 1B 参数量，在多项科学任务上超越参数为 8×7B 的微软 NatureLM。模型预训练语料涵盖蛋白质（28.9B tokens）、抗体（3.0B tokens）、小分子（2.1B tokens）等 7 类模态共 44.87B tokens。它通过共享词表将异构对象编码为离散 token，无需 3D 坐标即可理解 3D 空间互作规律。LOGOS 已开源模型权重、推理代码与技术报告。

AI模型 LOGOS NatureLM 开源模型科学大模型多模态

推荐理由：阿里开源的 LOGOS 模型，用 1/56 参数就碾压了微软 NatureLM，还统一了蛋白质、小分子等科学对象的语言，搞科研的可以看看源码和论文，开箱即用。

原文

11:41

berryxia@berryxia

AI模型 GPT-5.6 Codex 5.6 OpenAI 模型发布

推荐理由：GPT-5.6 跳票了，但 OpenAI 用 Codex 5.6 免费额度留人，比 Claude 大方多了。

原文

11:23

Justine Moore@venturetwins

73°

xAI推出Grok Imagine Video 1.5，这是其图像转视频模型的新版本。该模型在物理模拟、画面真实感和生成速度上均有改进，支持单次生成高质量视频。用户测试中，先用Grok生成图像，再通过该模型一次性转换为视频。xAI称其具备“更清晰的真实感、更好的物理和更快的生成速度”。

AI模型 Grok Imagine Video 1.5 xAI 视频生成图像转视频

推荐理由：xAI出了新视频模型，图像转视频一次搞定，物理和真实感都更好，速度还快，值得试试。

原文

11:09

11:09IT之家（博客/媒体）

72°

华为昇腾宣布0 Day支持智谱GLM-5.2，昇腾A3系列已实现单双机及大EP推理部署。优化技术包括MOE大融合算子、通信与计算融合、注意力前处理与多Token预测、高并发调度与预填充延迟机制等。GLM-5.2在Code Arena盲测中取得全球可用模型第一，拥有1M上下文能力，长程任务表现介于Claude Opus 4.7与4.8之间。该模型在主流编程基准上保持开源SOTA，并已适配华为昇腾等国产算力平台。

AI模型 GLM-5.2 华为昇腾推理优化开源模型代码生成

推荐理由：华为昇腾0 Day适配智谱GLM-5.2，推理优化让长上下文编程更高效，开源模型性能比肩Claude Opus。

原文

10:58

shao__meng@shao__meng

精选

实验让Kimi K2.7 Code和Claude Fable 5分别生成12个落地页进行并排对比，覆盖B2B SaaS、酒吧、开发者工具等类别。Kimi单页成本仅4美分，Claude Fable为1.09美元，差距约27倍，整体Kimi总成本降低94%。使用GPT-5.5按标准化评分表打分，Claude Fable部分案例略高但差距不大。Kimi通过MCP Server提供高质量视觉参考后，页面质量显著提升，成本效率优势突出。

AI模型 Kimi K2.7 Code Claude Fable 5 落地页生成 MCP/工具对比评测

推荐理由：想知道怎么用Kimi K2.7 Code花不到5分钱做出媲美Claude Fable 5的落地页？实验数据全给你算清楚了，迭代省大钱。

原文

10:58

arXiv cs.AI@Michael Finkelson, Daniel Segal, Eitan Richardson, Shahar Armon, Nani Goldring, Poriya Panet, Nir Zabari, Benjamin Brazowski, Or Patashnik, Yoav HaCohen

ScenA方法利用预训练的文本到音频流匹配基础模型，直接通过多个参考语音和自然语言提示生成整个音频场景。它继承了野外数据中自然的背景噪声、重叠对话等特性，无需逐句结构。但存在“参考捷径”问题：模型可仅凭声学相似性识别参考语音而忽略文本提示。通过高噪声偏差的时间步分布强制模型依赖文本提示。在CoVoMix2-Dialogue基准上，ScenA在说话人绑定指标上优于现有系统，并生成带重叠语音、情感发声和环境音的丰富对话音频。

AI模型 ScenA CoVoMix2-Dialogue 流匹配多说话人音频场景生成

推荐理由：ScenA这个新方法能用参考语音和自然描述直接生成多人对话场景，比现有系统更自然，还带背景噪音和重叠说话。

原文

10:57

arXiv cs.AI@Siyi Gu, Jialin Chen, Sophia Zhou, Arman Cohan, Rex Ying

提出Rubric-Conditioned Self-Distillation框架，用评分标准替代标量奖励，提供token级指导。方法分两步：先学习生成任务级评分标准，再训练评分标准引导的推理器。在多个科学推理基准上平均超越GRPO 1.0分、OPSD 0.9分。避免了单一参考推理链的噪声和标量奖励的模糊性。

AI模型 Rubric-Conditioned Self-Distillation 推理模型自我蒸馏评分标准科学推理

推荐理由：想提升推理模型训练效果？这篇用评分标准做细粒度自蒸馏，比GRPO和OPSD都强，实验扎实。

原文

10:57

Viking@vikingmute

GLM5.2在Artificial Analysis开源模型排名中登顶，多项benchmark评分领先。有用户反馈其实际体验接近Opus 4.6，作者考虑将Deepseek V4 Pro替换为GLM5.2。该帖子获得2条回复、505次浏览。

AI模型 GLM5.2 Artificial Analysis Opus 4.6 Deepseek V4 Pro 开源模型

推荐理由：GLM5.2在开源模型排名拿了第一，而且有人说用起来感觉像Opus 4.6，你要是想换掉Deepseek V4 Pro可以试试。

原文

10:56

arXiv cs.LG@Sanghyeok Choi, Henry Gouk, Esmeralda S. Whitammer

Large Language Gibbs 是一种利用大型语言模型条件分布进行结构化概率推理的MCMC方案。该方法通过迭代重采样单个变量避免单次自回归生成的顺序偏差，产生的平稳分布反映所有局部条件之间的折中。在合成分布采样、一致性推理和贝叶斯结构学习任务上验证了有效性。结果表明LLM条件作为MCMC转移算子可替代单次生成进行结构化推理。

AI模型 Large Language Gibbs LLM MCMC 结构化推理概率推断

推荐理由：这篇论文提出用LLM做MCMC采样，比直接生成更鲁棒，适合复杂推理场景，值得做概率建模的人看看。

原文

10:55

arXiv cs.LG@Hannah Le, Ramesh Ramasamy, Alex Urrutia, Mahsa Yazdani, Tim Proctor, Kenny Workman

TxBench-PP是一个用于评估AI agent在小分子临床前药理学中决策能力的基准，包含100个涉及作用机制、药效学等任务的评估。在16个模型配置（涉及11个模型和4800条轨迹）中，最佳配置Claude Opus 4.8 / Pi仅通过59.3%（178/300）的端点尝试，GPT-5.5 / Pi通过55.3%。结果表明，当前AI系统无法可靠复现临床前药理学决策。

AI模型 TxBench-PP Claude Opus 4.8 GPT-5.5 AI agent 药物发现

推荐理由：想看看AI在药物发现中到底行不行？这个基准测试用4800条轨迹告诉你，Claude Opus 4.8和GPT-5.5都还差得远，最高才59.3%的通过率。

原文

10:35

marktechpost@Michal Sutter

精选

OpenAI推出LifeSciBench，包含750个专家撰写任务，覆盖7个工作流和7个生物学领域，由173位博士科学家构建，使用19,020条评分标准评估推理与决策。当前最佳模型GPT-Rosalind得分仅36.1%，在人工制品、精确输出和操作决策上仍有较大提升空间。该基准旨在测试AI的真实研究能力而非单纯记忆。

AI模型 LifeSciBench OpenAI GPT-Rosalind 基准测试生命科学

推荐理由：想看看AI搞科研到底多强？OpenAI出了个750道专家题的LifeSciBench，GPT-Rosalind才36.1%，差距大到让你吃惊。

原文

10:31

arXiv cs.LG@Daochen Zha, Chun How Tan, Xin Liu, Bin Xu, Han Zhao, Xiaowei Liu, Tracy Yu, Hui Gao, Huiji Gao, Liwei He, Stephanie Moyerman, Sanjeev Katariya

JourneyFormer是Airbnb提出的序列建模解决方案，用于处理搜索排序中客人序列长、探索性强且标签稀疏的问题。模型设计涵盖事件选择、ID嵌入、模型架构和标签归因等关键环节，并采用专门策略加速训练和推理。JourneyFormer已部署到Airbnb生产环境，离线排名指标和线上A/B测试（覆盖2个生产表面）均显示关键业务指标显著提升。

AI模型 JourneyFormer Airbnb 序列建模搜索排序推荐系统

推荐理由：Airbnb搞了个JourneyFormer，专治搜索排序中又长又乱的用户序列，实测线上A/B测试效果很不错。

原文

10:22

arXiv: DeepSeek@Ruida Wang, Rui Pan, Pengcheng Wang, Shizhe Diao, Tong Zhang

研究团队提出Diffusion-Proof，这是首个将扩散LLM（dLLM）应用于形式定理证明的框架。该框架包含两个7B模型：dLLM-Prover-7B负责整段证明生成，dLLM-Corrector-7B利用双向信息进行局部校正。相比同等数据集训练的自回归基线，Diffusion-Proof在ProofNet-Test上提升1.61%，在MiniF2F-Test上提升6.14%。此外，该框架成功解决了一个更先进的DeepSeek-Prover-V2-7B未能解答的IMO问题，展示了扩散模型在长程连贯性任务上的优势。

AI模型 Diffusion-Proof dLLM 推理模型形式定理证明数学证明

推荐理由：扩散模型也能做定理证明了，比自回归强，MiniF2F上高出6个百分点，还解了一道DeepSeek没解出的IMO题。

原文

09:51

berryxia@berryxia

精选

当前Physical AI的VLA模型仅在统计相关性上学习，桌子高2cm即失败。UCSD黄碧薇教授在CVPR 2026发布Causal World Models框架，让AI从模仿动作进化到理解因果。她创立的Aether AI获得2000万美元融资，成为全球首个因果世界模型公司。与杨立昆AMI（融10亿美元）和李飞飞World Labs（10亿美元）等不同，Aether AI不卷规模而卷因果结构。

AI模型 Causal World Models Aether AI VLA 因果模型具身智能

推荐理由：黄碧薇教授不堆数据，教AI理解物理因果。Aether AI刚融资2000万美元，可能改变具身智能的游戏规则。

原文

09:41

arXiv cs.AI@Jinhao Song, Shan Liang, Yiqun Yue, Zhuhuayang Zhang, Tianqi Gao

ThinkDeception首次将多模态大语言模型(MLLM)引入欺骗检测领域，将其从二分类任务转变为显式认知推理过程。研究团队构建了首个逐步多模态思维链(CoT)数据集，并基于此开发基础模型ThinkDeception Base。核心创新是提出Visual-Audio Consistency Group Relative Policy Optimization(VAC-GRPO)，采用渐进式训练将数据分为四个难度层级。在主流基准上，ThinkDeception在检测准确性和推理质量上达到新SOTA。

AI模型 ThinkDeception MLLM 多模态思维链(CoT)推理模型

推荐理由：这个框架用MLLM和思维链一步步拆解欺骗线索，比黑箱模型更能解释为什么判定说谎，准确率还最高。

原文

08:21

08:21IT之家（博客/媒体）

73°

苹果在WWDC26特别讲座中演示了在4台Mac Studio上通过LM Studio本地运行1万亿参数的Kimi K2.6模型。工程师仅用单条提示词生成了WWDC badge tracker应用，该应用具备3D动画和全息视觉效果。演示使用了低延迟RDMA over Thunderbolt技术，苹果在macOS Tahoe 26.2中引入。Kimi K2.6由月之暗面于2026年4月20日发布，升级了代码编写和Agent集群能力。

AI模型 Kimi K2.6 Mac Studio LM Studio 月之暗面本地部署

推荐理由：苹果用4台Mac Studio跑万亿参数Kimi K2.6，本地低延迟，一条提示词生成App，开发者必看。

原文

08:15

08:15Simon Willison’s Weblog（博客/媒体）

精选73°

中国AI实验室Z.ai于6月16日开源GLM-5.2，采用MIT许可证。该模型753B参数、40激活参数（MoE），上下文窗口从GLM-5.1的20万提升至100万。在Artificial Analysis Intelligence Index v4.1上以51分领先MiniMax-M3（44）和DeepSeek V4 Pro（44）。在Code Arena WebDev前端编码排行榜上排名第二，仅次于Claude Fable 5。OpenRouter上输入价格$1.40/百万token，输出$4.40/百万token。

AI模型 GLM-5.2 Z.ai OpenRouter 开源模型编程助手

推荐理由：Z.ai开源了GLM-5.2，纯文本模型在智能和编码基准上超过DeepSeek V4和Kimi K2.6，价格只有GPT-5.5的五分之一。

原文

05:29

ollama@ollama

用户称 GLM 5.2 达到 SOTA 级别的智能，但成本仅为同类模型的一小部分。他认为 GLM 5.2 的输出和个性优于 GPT 5.5。他计划将 GLM 5.2 用于自己的工具 Hermes 以及客户项目中。该推文获得 170 点赞和超 7300 次浏览。

AI模型 GLM 5.2 GPT 5.5 Hermes 开源模型

推荐理由：有人实测后说 GLM 5.2 比 GPT 5.5 更强还便宜，准备放进自己产品用，有参考价值。

原文

05:25

OpenAI@OpenAI

OpenAI推出LifeSciBench新基准，用于评估AI模型在生物科学中的实际推理能力。该基准包含七个工作流，测试模型从证据推理、处理科学制品、应对不确定性等技能。GPT-Rosalind在所有七个工作流上得分均超过GPT-5.5。结果显示在制品密集、设计密集和操作受限任务上仍有改进空间。

AI模型 LifeSciBench GPT-Rosalind GPT-5.5 OpenAI 推理模型

推荐理由：OpenAI搞了个新基准LifeSciBench，专门测生物科学推理，GPT-Rosalind比GPT-5.5还强，值得看看。

原文

05:24

OpenAI@OpenAI

OpenAI发布LifeSciBench，一个专门用于衡量AI在真实生命科学研究中表现的基准。该基准由173位生物技术和制药领域科学家参与开发，包含750个专家编写的任务，覆盖7个生物研究工作流。LifeSciBench旨在系统评估AI模型在文献分析、实验设计等科研环节的实用性，并指导后续改进。

AI模型 OpenAI LifeSciBench 基准生命科学科研辅助

推荐理由：OpenAI联合173位科学家搞了个LifeSciBench，750个专家级任务覆盖7个生物研究流程，想测AI在生命科学里到底好不好用，科研人员可以用它来选模型。

原文

05:23

OpenAI@OpenAI

OpenAI推出LifeSciBench，这是一个专门用于评估AI在生命科学领域表现的基础基准。该基准旨在通过更现实的测试场景，帮助研究者衡量进展、识别差距。LifeSciBench强调与生命科学社区的持续合作，以共同改进AI。具体评估指标和测试集细节尚待公开。

AI模型 LifeSciBench OpenAI 基准测试生命科学

推荐理由：OpenAI搞了个LifeSciBench，专门测AI在生命科学上的表现，比以前的评估更贴近真实场景，想了解差距的可以看看。

原文

05:17

Greg Brockman@gdb

精选

OpenAI的GPT-5.4与Molecule.one的Maria AI合作，推动了一个药物化学项目从文献综述到实验验证的完整流程。模型提出了一种意想不到的方法，改进药物发现中广泛使用的反应。该结果在专用实验室中得到验证。相关推文获得180个点赞和超过2.3万次查看。

AI模型 GPT-5.4 OpenAI Molecule.one 推理模型药物研发

推荐理由：OpenAI的GPT-5.4这次不是聊天，而是真帮化学家改进了药物反应，和Molecule.one的AI配合，从文献到实验跑通了

原文

05:05

lmarena.ai@lmarena_ai

76°

Agent Arena上线两周，新增10个模型。GLM-5.2 (Max)进入前十，以+9.4%确认成功率和+14.9%赞美vs抱怨率成为最强开源模型。Claude Fable 5在多项指标排名第一，但受美国政府指令暂停访问。评测基于超过30万任务、200万次工具调用和4000万行代码。

AI模型 Agent Arena GLM-5.2 Claude Fable 5 智能体 OpenAI

推荐理由：想看看最新智能体模型谁最强？Agent Arena更新了，GLM-5.2开源冲进前十，Claude Fable 5暂时下线，榜单有了新格局。

原文

04:56

elvis@omarsar0

GLM-5.2 在 Design Arena 设计基准上以 Elo 1360 分排名第一，超越此前第一的 Claude Fable 5。该模型擅长生成游戏、落地页、HTML 组件和 3D 世界等内容。Zai 组织发布了这个开源权重模型，其设计质量被认为接近 Opus 级别。评测显示它相比此前版本提升了 4 个名次和 27 个 Elo 点。

AI模型 GLM-5.2 Zai Design Arena 设计生成开源模型

推荐理由：Zai 开源的 GLM-5.2 在 Design Arena 上干掉了 Claude Fable 5，能设计游戏、HTML 和 3D 世界，不看后悔。

原文

04:41

04:41OpenAI Blog（博客/媒体）

OpenAI 发布了 LifeSciBench，这是一个由 10 位生命科学专家编写并经过独立审查的基准测试。该基准包含 30 个任务，覆盖文献综述、实验设计、数据分析等真实研究场景。初步测试显示，GPT-4o 在多数任务上优于其他模型，但所有模型在需要跨领域推理的任务中表现仍有显著差距。LifeSciBench 旨在为 AI 在科学领域的可靠性和安全性提供更严格的评估工具。

AI模型 OpenAI LifeSciBench 基准测试 AI安全科学推理

推荐理由：OpenAI 出了个新基准 LifeSciBench，专门测 AI 做生命科学研究的能力，比一般问答难多了，能看出模型哪里不行。

原文

04:27

LMSYS Org (SGLang)@lmsysorg

精选73°

LMSYS 发表博客详解如何用 SGLang-JAX 在 TPU v7x 上优化 Ling-2.6-1T（1T 参数混合 MoE 模型）。通过 Fused MoE V2 内核将令牌和累加器留在 VMEM 中并双缓冲专家权重，MoE 预填充延迟降低 53%。混合内存池为 10 个全注意力层分配逐令牌 MLA KV，为 70 个 GLA 层分配逐请求循环状态。GLA 线性注意力采用分块并行预填充，单控制器 DP 保持分组 RMS Norm 芯片本地化，无需逐层跨芯片规约。

AI模型 Ling-2.6-1T TPU SGLang-JAX MoE 推理优化

推荐理由：LMSYS 和 InclusionAI 联手，用 SGLang-JAX 让 1T 参数 MoE 在 TPU 上跑得快 53%，技术细节都在博客里。

原文

04:01

lmarena.ai@lmarena_ai

AI模型 Agent Arena 智能体开源模型实验室

推荐理由：想对比开源智能体的表现？Agent Arena新排行榜支持按模型或实验室筛选，一目了然。

原文

03:57

Stanford AI Lab@StanfordAILab

精选

斯坦福AI实验室提出DeLM（Decentralized Language Models），这是一种无需中央协调器的多Agent协作框架。在SWE-bench Verified基准上，使用Gemini-3 Flash的DeLM实现了约10%的性能提升，同时推理成本降低超过一半。该方法在编程和多文档问答等Agent任务中表现出更高的准确性和经济性。

AI模型 DeLM Gemini-3 Flash SWE-bench 智能体斯坦福

推荐理由：斯坦福搞了个新方法DeLM，不用中央协调器调度Agent，编程和多文档问答更准更便宜，SWE-bench提升10%成本减半，值得试试。

原文

03:55

LangChain@LangChainAI

LangChain测试显示，Alibaba Qwen基础模型配合良好提示在感知错误分类任务上性能接近前沿模型。使用LoRA SFT微调后，模型性能接近或超过前沿模型。实验表明微调能使开源模型与顶级闭源模型竞争。

AI模型 Qwen Alibaba LoRA 微调开源模型

推荐理由：LangChain实测：Qwen基础版+好提示就能追平顶级模型，微调后甚至超越。开源模型潜力很大！

原文

03:33

lmarena.ai@lmarena_ai

精选

Kimi K2.7 Code 在 Agent Arena 排行榜上总体排名第19，在开源模型中排第6。该模型在 Kimi Code Bench v2 上比 K2.6 提升21.8%，在 Program Bench 上提升11.0%，在 MLS Bench Lite 上提升31.5%。推理 token 使用量降低30%，减少了过度思考。长程编码任务指令遵循和完成率均有提升。目前通过 Kimi API 和 Kimi Code 可用。

AI模型 Kimi-K2.7-Code Kimi_Moonshot 开源模型编程助手推理模型

推荐理由：Kimi 发了新编程模型 K2.7 Code，推理更省 token，基准提升明显，而且在 Agent Arena 上开源模型里排第6，值得一试。

原文

03:06

Jim Fan@DrJimFan

精选76°

Jim Fan揭秘了物理自动研究系统ENPIRE的设计内幕。安全采用两层硬编码：硬运动学限制立即触发任务失败并自动重置，以及扭矩限制柔性夹爪防止碰撞损坏。奖励函数通过收集成功/失败演示、用计算机视觉分类器编码并冻结在Gym环境中，防止智能体篡改。系统遥测定义了Mean Robot Utilization（MRU）、Mean Token Utilization（MTU）和GPU利用率三个实时指标，并基于Tokens-to-Success和Time-to-Success评估预算效率。

AI模型 ENPIRE 物理自动研究安全机制机器人奖励函数

推荐理由：Jim Fan讲了他们怎么让8个机器人通宵自动做实验，还防止奖励被篡改，资源利用率指标也很实用。

原文

03:06

xAI@xai

精选

xAI的Grok 4.3模型正式在Amazon Bedrock上可用，AWS开发者可通过Bedrock的安全推理引擎调用。Grok 4.3在幻觉率和工具调用两项基准上表现领先，能支持更可靠的生成与外部功能集成。该模型目前向所有AWS区域开放，按token计费。

AI模型 Grok xAI Amazon Bedrock 推理模型

推荐理由：xAI把Grok 4.3放到了AWS上，你用Bedrock就能直接调，幻觉率低、工具调用强，适合做可靠应用。

原文

02:45

Microsoft Research@MSFTResearch

精选

ResNet在CVPR 2026上获得Longuet-Higgins奖，表彰其持久影响力。该论文发表十年，残差连接已成为现代AI系统的基础组件。其引用量超过32万次，并在持续增长。残差连接解决了深层网络退化问题，推动了计算机视觉和整个深度学习领域的发展。

AI模型 ResNet CVPR Longuet-Higgins Prize 残差连接计算机视觉

推荐理由：ResNet的残差思想直到今天还在被所有大模型使用，32万引用不是白来的，这个奖实至名归。

原文

02:14

Jim Fan@jimfan

76°

Jim Fan团队推出ENPIRE系统，让8个Codex智能体操控机器人舰队自主进行物理实验。系统硬编码两层安全机制：硬运动学限制和扭矩限制夹爪，防止机器人超出安全范围。通过人类演示几分钟成功/失败样本，智能体编写计算机视觉代码生成分类器作为冻结奖励函数。定义Mean Robot Utilization（MRU）和Mean Token Utilization（MTU）监控资源，以Tokens-to-Success和Time-to-Success衡量效率。

AI模型 ENPIRE Codex 机器人智能体安全

推荐理由：Jim Fan展示了ENPIRE，8个机器人靠Codex智能体自主做实验，安全机制和资源监控设计挺有意思。

原文

01:55

Decoder@Jonathan Kemper

精选

智谱AI推出开源模型GLM-5.2，采用MIT许可证，支持稳定100万token上下文。在FrontierSWE编码基准测试中，GLM-5.2以1个百分点之差落后于Anthropic的Claude Opus 4.8。该模型在推理能力上仍显著落后于闭源竞争对手。

AI模型 GLM-5.2 智谱AI Claude Opus 开源模型编码助手

推荐理由：智谱AI的GLM-5.2在长时间编码任务上只比Claude Opus 4.8差1%，还是开源免费，码农可以试试。

原文

01:34

Milvus@milvusio

精选

Milvus在DocVQA上对比ColQwen（多向量）与Qwen3-VL-Embedding（稠密）的检索性能。精确搜索下，ColQwen3的nDCG@10为0.698，比稠密的0.521高17.7个百分点。近似搜索（LEMUR，ratio=5.0）中，ColQwen3得0.704，领先18.3点，且近似损失几乎为零。在MS MARCO等文本基准上，多向量优势被近似搜索抹平。多向量通过保留表格、图表等空间结构获得提升，适合发票、报告等视觉文档。

AI模型 ColQwen Qwen3-VL-Embedding Milvus 多模态检索视觉文档检索

推荐理由：Milvus用ColQwen和Qwen3-VL-Embedding做了对比，发现多向量在检索带图表的文档时比稠密向量强近18个点，近似搜索不掉分。处理PDF或扫描件可以关注这个结果。

原文

01:30

marktechpost@Asif Razzaq

Vercel 开源了 Eve，这是一个 Apache-2.0 许可的 AI Agent 框架，目前处于公开预览阶段。每个 Agent 被定义为一个包含配置和能力的文件目录，内置了持久化执行、沙箱、审批、连接、通道和评估功能。开发者可使用 npx eve@latest init 快速搭建项目，并通过 vercel deploy 直接部署无需修改。

AI模型 Eve Vercel 智能体开源模型编程助手

推荐理由：Vercel 出了个开源 Agent 框架 Eve，把 Agent 做成文件目录，自带沙箱和评估，用 npx init 就能部署，挺省事的。

原文

01:24

OpenAI@OpenAI

OpenAI发布案例，GPT-5.4与Molecule.one的Maria AI及专业实验室协作，为药物发现中一个广泛使用的反应提出了意想不到的改进方案。项目从文献综述启动，最终得到验证的实验结果。该成果展示了大型语言模型在具体科研场景中的实用价值。

AI模型 GPT-5.4 Molecule.one Maria AI 药物发现 AI辅助科研

推荐理由：OpenAI展示了GPT-5.4跟专业工具配合，在药物化学里找到了更高效的反应路线，成果很实在。

原文

01:10

Clement Delangue@ClementDelangue

John Sarihan 创立的 Crosby Intelligence 发布了一个新的法律 AI 基准数据集。该基准托管在 Hugging Face 平台上。旨在推动法律领域 AI 的评测与发展。

AI模型 Crosby Intelligence Hugging Face 法律基准法律AI

推荐理由：想看看法律 AI 谁更强？Crosby Intelligence 搞了个新基准，已经在 Hugging Face 上线了。

原文