12:09NVIDIA AI@NVIDIAAIArtificialAnlys发布新基准AA-Briefcase,用于评估复杂项目中的现实任务。Nemotron 3 Ultra在该基准开放模型中排名靠前。该模型在多种长时间运行的智能体任务上表现强劲,即使首次面对这些任务也能保持性能。该基准旨在测试模型的长期执行与泛化能力。AI模型AA-BriefcaseNemotron 3 UltraArtificialAnlys智能体基准推荐理由:新出的AA-Briefcase基准可以看看,Nemotron 3 Ultra在开放模型里排前面,适合对比它处理复杂任务的能力。原文
00:10elvis@omarsar0精选OpenAI 推出 LifeSciBench,一个针对生命科学研究的基准测试,包含 750 个专家编写的任务,覆盖 7 个生物学研究工作流。该基准由 173 位来自生物技术和制药领域的科学家共同开发,旨在衡量 AI 在真实世界科研场景中的表现。结果显示通用模型在复杂结构处理上仍有不足,而专用模型在科学研究中优势明显。AI模型OpenAILifeSciBench基准生命科学科学智能10 个信源在谈推荐理由:OpenAI 联合 173 位科学家搞了个新基准 LifeSciBench,750 个专家任务专测 AI 搞科研的能力,比通用模型靠谱多了。原文
14:43小互@imxiaohu6月,Apodex 向 FutureX 提交了四个基于 Apodex-1.0-mini 35B 的实验预测框架。该模型在6月第一周排名包揽第1至第4名,并在第二周持续霸榜第1名。这一成绩展示了 Apodex-1.0-mini 35B 在预测任务上的竞争力。AI模型ApodexApodex-1.0-miniFutureX推理模型基准推荐理由:Apodex 用 35B 参数模型做的预测框架,在 FutureX 排行榜上直接包揽前四名,太猛了。原文
05:24OpenAI@OpenAIOpenAI发布LifeSciBench,一个专门用于衡量AI在真实生命科学研究中表现的基准。该基准由173位生物技术和制药领域科学家参与开发,包含750个专家编写的任务,覆盖7个生物研究工作流。LifeSciBench旨在系统评估AI模型在文献分析、实验设计等科研环节的实用性,并指导后续改进。AI模型OpenAILifeSciBench基准生命科学科研辅助10 个信源在谈推荐理由:OpenAI联合173位科学家搞了个LifeSciBench,750个专家级任务覆盖7个生物研究流程,想测AI在生命科学里到底好不好用,科研人员可以用它来选模型。原文
08:40Satya Nadella@satyanadella71°微软Azure在AI训练基准测试中创下新纪录,实现了史上最快的训练时间和最大的报告规模。这一里程碑得益于全栈创新,包括硅片、系统、网络和软件协同优化,以及与Nvidia的深度合作。Azure此次突破展示了其AI基础设施的最新进展。行业AzureNvidiaAI训练基准基础设施2 个信源在谈推荐理由:Azure和Nvidia联手刷了个AI训练速度纪录,规模也是史上最大,搞AI基础设施的可以看看。原文
13:10rohanpaul_ai@rohanpaul_ai精选AGENTCL 提出一个评估语言智能体持续学习能力的新基准,通过构建任务流来测试智能体是否真正从经验中学习。该基准对比了“组合式”任务流(后续任务可复用前序任务的代码函数、研究证据或工作流)与“朴素”任务流(任务同领域但无明确复用关系)。研究发现,当前记忆方法在任务连接明显时能复用过往经验,但在任务差异较大时仍难以避免混淆。AGENTCL 旨在解决现有基准中任务关系不清晰导致的评估偏差问题。论文AGENTCL智能体持续学习记忆基准推荐理由:看智能体记忆到底行不行原文
00:13AK@_akhaliq精选TRL-Bench 提出了一个跨范式的表格编码器表示级评估标准。该基准覆盖了Transformer、MLP等不同架构。它旨在统一不同模型在表格数据上的表示质量比较。AI模型TRL-Bench表格编码器基准表示学习推荐理由:表格编码器评估新标杆原文