全部 AI 动态 · AI 热点

6月27日

12:09

12:09

NVIDIA AI@NVIDIAAI

ArtificialAnlys发布新基准AA-Briefcase，用于评估复杂项目中的现实任务。Nemotron 3 Ultra在该基准开放模型中排名靠前。该模型在多种长时间运行的智能体任务上表现强劲，即使首次面对这些任务也能保持性能。该基准旨在测试模型的长期执行与泛化能力。

AI模型 AA-Briefcase Nemotron 3 Ultra ArtificialAnlys 智能体基准

推荐理由：新出的AA-Briefcase基准可以看看，Nemotron 3 Ultra在开放模型里排前面，适合对比它处理复杂任务的能力。

6月19日

00:10

00:10

elvis@omarsar0

精选

OpenAI 推出 LifeSciBench，一个针对生命科学研究的基准测试，包含 750 个专家编写的任务，覆盖 7 个生物学研究工作流。该基准由 173 位来自生物技术和制药领域的科学家共同开发，旨在衡量 AI 在真实世界科研场景中的表现。结果显示通用模型在复杂结构处理上仍有不足，而专用模型在科学研究中优势明显。

AI模型 OpenAI LifeSciBench 基准生命科学科学智能

推荐理由：OpenAI 联合 173 位科学家搞了个新基准 LifeSciBench，750 个专家任务专测 AI 搞科研的能力，比通用模型靠谱多了。

6月18日

14:43

14:43

小互@imxiaohu

6月，Apodex 向 FutureX 提交了四个基于 Apodex-1.0-mini 35B 的实验预测框架。该模型在6月第一周排名包揽第1至第4名，并在第二周持续霸榜第1名。这一成绩展示了 Apodex-1.0-mini 35B 在预测任务上的竞争力。

AI模型 Apodex Apodex-1.0-mini FutureX 推理模型基准

推荐理由：Apodex 用 35B 参数模型做的预测框架，在 FutureX 排行榜上直接包揽前四名，太猛了。

05:24

05:24

OpenAI@OpenAI

OpenAI发布LifeSciBench，一个专门用于衡量AI在真实生命科学研究中表现的基准。该基准由173位生物技术和制药领域科学家参与开发，包含750个专家编写的任务，覆盖7个生物研究工作流。LifeSciBench旨在系统评估AI模型在文献分析、实验设计等科研环节的实用性，并指导后续改进。

AI模型 OpenAI LifeSciBench 基准生命科学科研辅助

推荐理由：OpenAI联合173位科学家搞了个LifeSciBench，750个专家级任务覆盖7个生物研究流程，想测AI在生命科学里到底好不好用，科研人员可以用它来选模型。

6月17日

08:40

08:40

Satya Nadella@satyanadella

71°

微软Azure在AI训练基准测试中创下新纪录，实现了史上最快的训练时间和最大的报告规模。这一里程碑得益于全栈创新，包括硅片、系统、网络和软件协同优化，以及与Nvidia的深度合作。Azure此次突破展示了其AI基础设施的最新进展。

行业 Azure Nvidia AI训练基准基础设施

推荐理由：Azure和Nvidia联手刷了个AI训练速度纪录，规模也是史上最大，搞AI基础设施的可以看看。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月13日

13:10

13:10

rohanpaul_ai@rohanpaul_ai

精选

AGENTCL 提出一个评估语言智能体持续学习能力的新基准，通过构建任务流来测试智能体是否真正从经验中学习。该基准对比了“组合式”任务流（后续任务可复用前序任务的代码函数、研究证据或工作流）与“朴素”任务流（任务同领域但无明确复用关系）。研究发现，当前记忆方法在任务连接明显时能复用过往经验，但在任务差异较大时仍难以避免混淆。AGENTCL 旨在解决现有基准中任务关系不清晰导致的评估偏差问题。

论文 AGENTCL 智能体持续学习记忆基准

推荐理由：看智能体记忆到底行不行

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

00:13

00:13

AK@_akhaliq

精选

TRL-Bench 提出了一个跨范式的表格编码器表示级评估标准。该基准覆盖了Transformer、MLP等不同架构。它旨在统一不同模型在表格数据上的表示质量比较。

AI模型 TRL-Bench 表格编码器基准表示学习

推荐理由：表格编码器评估新标杆

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？