精选 AI 资讯 · AI 热点

6月23日

12:01

arXiv: DeepSeek@Pengxiang Cai, Tianchen Fang, Xiaohan Li, Qingyuan Zeng, Guocong Li, Jintai Chen

精选

传统RLVR方法仅重新分配采样概率，虽能提升pass@1但可能降低pass@k，无法扩展基础模型的推理能力边界。本文提出边界感知课程RL：先用pass@k采样定位当前推理边界，再对边界附近样本进行教师引导，最后用RL巩固新推理模式。在Qwen、Llama、DeepSeek等模型上，该方法在pass@256上平均比基础模型提升9.8个百分点，比Vanilla RLVR提升10.3个百分点。实验表明该策略可帮助LLM持续突破经验推理边界。

论文课程强化学习 LLM推理 RLVR pass@k评估基础模型

推荐理由：这篇论文提出一种课程强化学习，能帮LLM突破自己的推理能力边界，在多个模型上效果显著，值得关注。

原文

6月20日

17:12

marktechpost@Sana Hassan

精选

本文使用TimeCopilot在航空乘客数据集和含异常注入的合成季节性序列上构建端到端预测工作流。评估了统计模型、基础模型和可选的GPU模型，采用滚动交叉验证和多种误差指标。生成了带预测区间的概率预测，可视化未来趋势并标记异常观测。还探索了TimeCopilot的可选LLM智能体，该智能体能选择模型并解释其预测。

技巧 TimeCopilot 基础模型异常检测预测管道时间序列

推荐理由：这篇教程手把手教你用TimeCopilot做时间序列预测，能自动检测异常，还能用LLM帮你选模型并解释结果。

原文

6月12日

12:05

Allen AI (Ai2)@allen_ai

精选

Allen AI 宣布其机器人基础模型 MolmoAct 2 在不到一个月内被下载超过 40 万次。现在他们开源了完整的代码和训练数据，允许开发者进行微调或在此基础上构建。这标志着机器人领域的一个重要开放资源，降低了进入门槛。

AI模型机器人开源/仓库基础模型微调 Allen AI

推荐理由：机器人开发者终于有了一个完全开源的基础模型可用，MolmoAct 2 的完整代码和数据让你可以直接微调或构建自己的机器人应用，值得立即尝试。

原文

00:35

NVIDIA AI@NVIDIAAI

精选

NVIDIA 发布了 Cosmos 3，这是一个专为机器人和物理 AI 设计的基础模型平台。该平台旨在加速机器人感知、规划和交互能力的开发，通过提供预训练模型和工具链，降低物理 AI 应用的门槛。Cosmos 3 支持多模态输入，能够生成高保真的物理世界模拟，帮助开发者更快地训练和部署机器人系统。这一发布标志着 NVIDIA 在物理 AI 领域的重要布局，有望推动机器人技术从实验室走向实际应用。

AI产品机器人物理AI NVIDIA 基础模型仿真

推荐理由：NVIDIA Cosmos 3 为机器人开发者提供了现成的物理 AI 基础模型，省去了从零训练的时间和成本，做机器人感知或仿真的团队可以直接上手试试。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

10:59

arXiv cs.AI@Kai Standvoss, Miriam Hägele, Rosemarie Krupar, Julika Ribbat-Idel, Jennifer Altschüler, Gerrit Erdmann, Hans Pinckaers, Evelyn Ramberger, Madleen Drinkwitz, Ádám Nárai, Alexander Möllers, Katja Lingelbach, Sebastian Kons, Lukas Hönig, Recepcan Adigüzel, Joana Baião, Alberto Megina Gonzalo, Marius Teodorescu, Marie-Lisa Eich, Paolo Chetta, Shakil Merchant, Verena Aumiller, Simon Schallenberg, Andrew Norgan, Klaus-Robert Müller, Lukas Ruff, Maximilian Alber, Frederick Klauschen

精选

Atlas H&E-TME 是一个基于 Atlas 病理基础模型的 AI 系统，能够从 H&E 染色的全切片图像中预测组织质量、区域和细胞类型，每张切片输出超过 4500 个细胞级定量指标。研究团队提出了双重验证框架：一方面利用免疫组化（IHC）信息构建多病理学家共识，作为分子层面的金标准；另一方面在超过 20 万条高置信度病理学家标注上测试，覆盖 8 种癌症类型、1500+ 病例。结果显示，Atlas H&E-TME 在 H&E 图像上的表现与病理学家相当甚至更优，且泛化能力强。这一系统将最普遍的 H&E 切片转化为可扩展的定量工具，为下一代组织生物标志物研究奠定基础。

论文病理AI H&E染色组织分析基础模型肿瘤微环境

推荐理由：病理分析终于有了可规模化的 AI 方案——Atlas H&E-TME 在 H&E 图像上达到专家级精度，做肿瘤微环境研究和临床转化的团队可以直接用上这套定量工具。

原文

6月9日

10:38

arXiv cs.AI@Jonathan F. Carter, Lionel Tarassenko

精选

该研究提出 Hypnos，一个多模态睡眠基础模型，使用来自 2 万多次夜间多导睡眠监测的 8 种传感模态（如 EEG、ECG、呼吸信号）训练。与现有使用掩码重建或对比学习的方法不同，Hypnos 采用下一词预测作为自监督目标，通过残差向量量化将每种模态离散化为 token 流，并用自回归 RQ-Transformer 并行预测所有模态的下一个 token。在睡眠阶段分类任务中，Hypnos 仅用 1% 的标注数据就达到了强监督基线的性能，还能泛化到日间生理信号，在检测房颤上超越专门的 ECG 基础模型。结果表明，下一词预测是多模态生理信号表征学习的有效且可扩展的自监督目标。

论文基础模型睡眠生理学多模态下一词预测自监督学习

推荐理由：睡眠医学和生理信号分析的研究者终于有了一个无需大量标注数据就能学到通用表征的基础模型——Hypnos 用下一词预测解决了多模态生理数据的学习难题，做睡眠分期或房颤检测的团队可以直接用它生成嵌入，大幅降低标注成本。

原文

6月2日

09:44

Pandaily@contact@pandaily.com (Pandaily)

精选

Deep Principle 发布了 MPA（Materials Property Axiom），一个用于材料科学的 AI 基础模型。该模型借鉴了大语言模型的训练技术，在 40 项真实工业任务上取得了最先进的结果。MPA 能够预测材料属性，加速新材料发现和设计过程，有望在电池、半导体、合金等领域产生重大影响。这标志着 AI 在材料科学领域的应用迈出了重要一步。

AI模型材料科学基础模型 MPA Deep Principle 工业应用

推荐理由：材料科学家和工业研发团队终于有了一个强大的 AI 工具，MPA 在 40 项工业任务上达到 SOTA，能大幅缩短材料筛选周期，做新材料开发的团队值得关注。

原文

09:44

arXiv cs.AI@YongKyung Oh, Alex Bui

精选

该论文指出，在联邦学习框架下对基础模型进行个性化训练时，由于隐私约束限制了模型行为的可见性，会出现一类难以检测的信任失败，称为“静默失败”。这些失败包括偏见放大、公平性崩溃和对齐侵蚀。现有基准测试存在结构性分裂：联邦基准关注系统性能，而集中式信任基准需要模型访问权限，与联邦隐私不兼容。论文提出了六种静默失败模式的分类法，并强调仅靠隐私保护训练不足以实现可信部署。最后，作者呼吁将静默失败作为联邦人工智能的标准诊断类别，并提出了隐私保护行为评估的研究议程。

论文联邦学习基础模型隐私保护模型可信静默失败

推荐理由：这篇论文戳中了联邦学习落地中的盲区——隐私保护不等于模型可信，做联邦学习系统或隐私AI的团队值得一读，避免在部署后才发现模型行为失控。

原文

6月1日

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月30日

17:27

marktechpost@Michal Sutter

精选72°

Genesis AI 于 2026 年 5 月 27 日发布了 Genesis World 1.0，这是一个包含物理、渲染、编译和工具四个组件的仿真平台。该平台在仿真与真实机器人部署之间实现了 0.8996 的皮尔逊相关系数，并将策略评估时间从超过 200 小时缩短至不到 0.5 小时。这一突破使得机器人基础模型的规模化评估成为可能，显著降低了研发成本和时间。

AI产品机器人仿真平台基础模型 Genesis AI 策略评估

推荐理由：机器人研究者终于有了一个高保真、超高效的仿真评估平台——Genesis World 1.0 将评估时间从 200 小时压缩到半小时，做机器人基础模型和策略训练的团队可以直接用起来，大幅加速迭代。

原文

5月29日

08:02

AITOP5月29日 08:02

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？🔥Anthropic 把 AI 编程的“确认键”彻底删掉了！Claude Code 搭载全新 Opus 4.8 模型，长时间任务不跑偏、不废话、不中断，像一个资深工程师一样默默干活，从功能开发到漏洞清扫全包圆，你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”，现在它直接交完整交付物……自主编程的最后一层窗户纸，被捅破了。做自动化开发和代码审查的团队，这个模型建议直接上手，效率差距肉眼可见……

5月26日

12:25

arXiv cs.LG@Adina Scheinfeld, Haotan Zhang, Shang Mu, Rudolf L. M. van Herten, Lucas Stoffl, Ali Erturk, Zhuhao Wu, Johannes C. Paetzold

精选

该研究提出了一种针对光片荧光显微镜（LSM）的 3D 基础模型，通过在大规模多物种、多染色体的 3D 图像数据集上预训练，学习可迁移的体素表示。模型联合优化掩码重建和图像-文本对齐，显著降低了下游任务的标注需求，支持少样本分割、分类和去模糊。实验表明，该模型在标准指标和专家评估上均优于基线方法，展示了基础模型在 LSM 分析中减少标注负担并提升性能的潜力。代码和预训练权重已开源。

论文基础模型 3D 影像少样本学习光片荧光显微镜开源/仓库

推荐理由：做生物影像分析的研究者终于有了一个能少标注、多任务的 3D 基础模型——少样本就能搞定分割、分类和去模糊，建议做 LSM 数据处理的团队直接试试开源的预训练权重。

原文

5月25日

11:16

arXiv cs.AI@Aneesh Komanduri, Xintao Wu

精选

因果生成建模对于开发可靠、透明的AI系统至关重要，但现有方法通常需要在训练时集成因果约束，缺乏利用预训练基础模型零样本推理能力的统一框架。本文提出FM-CGM，一个模块化框架，通过概念提取器、概念操纵器和反事实生成器三个核心组件，实现端到端的视觉因果推理。该框架利用大型推理模型进行因果推断，结合文本到图像扩散模型进行生成，支持零样本因果发现、干预和反事实生成。同时，作者开发了因果语义引导（CSG）机制，确保语义干预传播到后代概念并保留不变区域。实验表明，该方法能识别合理的因果结构，并生成忠实的反事实图像。

论文因果生成建模基础模型零样本推理反事实生成扩散模型

推荐理由：因果推理是AI可靠性的关键，FM-CGM让零样本因果生成成为可能，做视觉生成或因果推理的研究者可以直接参考其框架设计。

原文

5月23日

08:27

rohanpaul_ai@rohanpaul_ai

精选72°

Google 发表新论文，提出 SensorFM，一个基于 500 万人超过 1 万亿分钟未标记穿戴传感器数据训练的基础模型。该模型旨在学习人类生理活动的通用模式，而非仅处理孤立事件。SensorFM 在 35 项预测任务中的 34 项上超越了传统特征工程方法，涵盖心血管、代谢、心理健康、睡眠和生活方式等领域。研究表明，穿戴数据的价值在于先学习其内在结构，而非过早压缩为粗略摘要。

论文基础模型穿戴设备生理信号 Google SensorFM

推荐理由：穿戴设备厂商和健康 AI 研究者终于有了一个通用基础模型，不用再为每个健康任务单独设计特征工程。做可穿戴健康分析的团队可以直接参考 SensorFM 的预训练思路，大幅降低模型开发成本。

原文

5月22日

11:12

arXiv cs.AI@Girish Narayanswamy, Maxwell A. Xu, A. Ali Heydari, Samy Abdel-Ghaffar, Marius Guerard, Kara Vaillancourt, Zhihan Zhang, Jake Garrison, Levi Albuquerque, Dimitris Spathis, Hong Yu, Hamid Palangi, Xuhai "Orson" Xu, David G. T. Barrett, Joseph Breda, Jed McGiffin, Yubin Kim, Yuwei Zhang, Naghmeh Rezaei, Samuel Solomon, Karan Ahuja, Tim Althoff, Jake Sunshine, Ming-Zher Poh, Benjamin Yetton, Ari Winbush, Nicholas B. Allen, James M. Rehg, Isaac Galatzer-Levy, Yun Liu, John Hernandez, Anupam Pathak, Conor Heneghan, Yuzhe Yang, Ahmed A. Metwally, Pushmeet Kohli, Mark Malhotra, Shwetak Patel, Xin Liu, Daniel McDuff

精选72°

研究人员提出了一种面向可穿戴健康数据的基础模型，该模型在来自500万参与者的超过1万亿分钟未标记传感器信号上进行了预训练。通过联合扩展模型容量和预训练数据量，该模型在35项健康预测任务上（涵盖心血管、代谢、睡眠、心理健康及生活方式等）表现出系统性性能提升。该模型支持少样本学习和生成能力，可稳健估计日常健康指标。研究还部署了一组LLM智能体来自动搜索基于模型嵌入的下游预测头，并展示了性能随LLM能力提升而增强。最后，将下游预测器集成到个人健康代理中，经1860次临床医生评分验证，模型响应更相关、更具上下文意识且更安全。

论文基础模型可穿戴健康少样本学习 LLM智能体个人健康代理

推荐理由：这项研究解决了可穿戴数据标注稀缺和个体差异大的核心难题，做健康AI或可穿戴设备开发的团队可以直接参考其预训练方法和少样本学习策略，值得关注。

原文

5月20日

11:24

arXiv cs.LG@Emaad Khwaja, Chris Lettieri, Gerald Woo, Eden Belouadah, Marc Cenac, Guillaume Jarry, Enguerrand Paquin, Xunyi Zhao, Viktoriya Zhukov, Othmane Abou-Amal, Chenghao Liu, Ameet Talwalkar, David Asker

精选76°

Toto 2.0 是一系列开源时间序列基础模型，参数规模从 4M 到 2.5B，展示了单一训练配方即可实现预测质量的可靠提升。该模型家族在 BOOM、GIFT-Eval 和 TIME 三个基准上刷新了最先进水平。研究团队详细描述了架构、训练数据、超参数迁移管道等设计决策。所有五个基础检查点均以 Apache 2.0 许可证开源。这项工作标志着时间序列预测领域正式进入规模扩展时代。

论文时间序列预测基础模型开源/仓库规模扩展 Toto 2.0

推荐理由：时间序列预测终于有了可扩展的基础模型，做金融、能源、运维等预测任务的团队可以直接用开源权重，值得关注。

原文

5月15日

11:19