全部 AI 动态 · AI 热点

6月27日

12:53

12:53

lmarena.ai@lmarena_ai

Agent Arena排行榜已正式上线，用户可通过链接访问页面查看详情。排行榜支持按开放模型或实验室（lab）进行筛选过滤。目前该页面已有400次浏览，由xgo.ing提供技术支持。

AI模型 Agent Arena 智能体评测基准开源模型实验室

推荐理由：想看看谁家的智能体最强？Agent Arena排行榜刚上线，可以按开源模型和实验室筛选，挺方便。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月16日

23:54

23:54

Geek@geekbb

精选

阿里巴巴发布了面向工业领域的大语言模型知识评测集 IndustryBench，包含 2049 道题目，题目来源为中国国家标准摘要和结构化工业产品记录。该评测集横跨 7 个能力维度和 10 个行业类别，旨在评估 LLM 在工业领域的知识掌握和推理能力。这是首个系统覆盖中国工业标准的评测基准，对工业智能化应用具有重要参考价值。

AI模型评测基准工业领域 LLM 阿里国家标准

推荐理由：做工业 AI 应用或评测的团队终于有了本土化的标准测试集——2049 道题覆盖 10 个行业，直接对标中国国家标准，建议做工业大模型落地的同学点开看看。