AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:基准×
6月27日
12:09
12:09NVIDIA AI@NVIDIAAI
ArtificialAnlys发布新基准AA-Briefcase,用于评估复杂项目中的现实任务。Nemotron 3 Ultra在该基准开放模型中排名靠前。该模型在多种长时间运行的智能体任务上表现强劲,即使首次面对这些任务也能保持性能。该基准旨在测试模型的长期执行与泛化能力。
AI模型AA-BriefcaseNemotron 3 UltraArtificialAnlys智能体基准

推荐理由:新出的AA-Briefcase基准可以看看,Nemotron 3 Ultra在开放模型里排前面,适合对比它处理复杂任务的能力。
原文
6月19日
00:10
00:10elvis@omarsar0
精选
OpenAI 推出 LifeSciBench,一个针对生命科学研究的基准测试,包含 750 个专家编写的任务,覆盖 7 个生物学研究工作流。该基准由 173 位来自生物技术和制药领域的科学家共同开发,旨在衡量 AI 在真实世界科研场景中的表现。结果显示通用模型在复杂结构处理上仍有不足,而专用模型在科学研究中优势明显。
AI模型OpenAILifeSciBench基准生命科学科学智能

推荐理由:OpenAI 联合 173 位科学家搞了个新基准 LifeSciBench,750 个专家任务专测 AI 搞科研的能力,比通用模型靠谱多了。
原文
6月18日
14:43
14:43小互@imxiaohu
6月,Apodex 向 FutureX 提交了四个基于 Apodex-1.0-mini 35B 的实验预测框架。该模型在6月第一周排名包揽第1至第4名,并在第二周持续霸榜第1名。这一成绩展示了 Apodex-1.0-mini 35B 在预测任务上的竞争力。
AI模型ApodexApodex-1.0-miniFutureX推理模型基准

推荐理由:Apodex 用 35B 参数模型做的预测框架,在 FutureX 排行榜上直接包揽前四名,太猛了。
原文
05:24
05:24OpenAI@OpenAI
OpenAI发布LifeSciBench,一个专门用于衡量AI在真实生命科学研究中表现的基准。该基准由173位生物技术和制药领域科学家参与开发,包含750个专家编写的任务,覆盖7个生物研究工作流。LifeSciBench旨在系统评估AI模型在文献分析、实验设计等科研环节的实用性,并指导后续改进。
AI模型OpenAILifeSciBench基准生命科学科研辅助

推荐理由:OpenAI联合173位科学家搞了个LifeSciBench,750个专家级任务覆盖7个生物研究流程,想测AI在生命科学里到底好不好用,科研人员可以用它来选模型。
原文
6月17日
08:40
08:40Satya Nadella@satyanadella
71°
微软Azure在AI训练基准测试中创下新纪录,实现了史上最快的训练时间和最大的报告规模。这一里程碑得益于全栈创新,包括硅片、系统、网络和软件协同优化,以及与Nvidia的深度合作。Azure此次突破展示了其AI基础设施的最新进展。
行业AzureNvidiaAI训练基准基础设施

推荐理由:Azure和Nvidia联手刷了个AI训练速度纪录,规模也是史上最大,搞AI基础设施的可以看看。
原文
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月13日
13:10
13:10rohanpaul_ai@rohanpaul_ai
精选
AGENTCL 提出一个评估语言智能体持续学习能力的新基准,通过构建任务流来测试智能体是否真正从经验中学习。该基准对比了“组合式”任务流(后续任务可复用前序任务的代码函数、研究证据或工作流)与“朴素”任务流(任务同领域但无明确复用关系)。研究发现,当前记忆方法在任务连接明显时能复用过往经验,但在任务差异较大时仍难以避免混淆。AGENTCL 旨在解决现有基准中任务关系不清晰导致的评估偏差问题。
论文AGENTCL智能体持续学习记忆基准

推荐理由:看智能体记忆到底行不行
原文
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
00:13
00:13AK@_akhaliq
精选
TRL-Bench 提出了一个跨范式的表格编码器表示级评估标准。该基准覆盖了Transformer、MLP等不同架构。它旨在统一不同模型在表格数据上的表示质量比较。
AI模型TRL-Bench表格编码器基准表示学习

推荐理由:表格编码器评估新标杆
原文
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
精选全部日报登录