AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:模型评估×
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
5月21日
08:01
08:01Simon Willison’s Weblog(博客/媒体)
Mike Veerman 开发了一个 HTML 应用,模拟从 5 到 800 tokens/s 的 LLM 输出速度,帮助用户直观感受不同 token 速率下的文本生成效果。当看到模型宣传“30 tokens/s”时,可以用这个工具快速理解实际体验。该工具通过 Hacker News 传播,对评估和比较不同 LLM 的响应速度很有帮助。
AI产品LLMtoken 速率可视化工具模型评估开源

推荐理由:选模型时经常被 token 速率数字搞晕?这个工具让你直接看到不同速度下的文本生成效果,做模型选型或写提示词优化的开发者值得一试。
原文
5月17日
01:46
01:46Nathan Lambert: Interconnects@Florian Brand
76°
过去一个月内,多个重磅开源模型密集发布,包括 Google 的 Gemma 4、DeepSeek V4、Kimi K2.6、MiMo 2.5 和 GLM-5.1 等。这些模型在性能、架构和开源策略上各有突破,标志着开源 AI 生态进入新一轮竞争。CAISI 的 V4 评估报告对这些模型进行了横向对比,揭示了不同模型在推理、多模态和效率上的优劣。对于关注开源模型选型和趋势的开发者与研究者,这是重要的参考节点。
AI模型开源模型Gemma 4DeepSeek V4Kimi K2.6模型评估

推荐理由:开源模型一个月内连发五款旗舰,做模型选型或研究的团队可以直接参考 CAISI 的 V4 评估对比,省去自己跑 benchmark 的时间。
原文
精选全部日报登录