AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
精选
过去 24 小时,从 793 条中筛出 47 条
全部模型产品行业论文技巧
标签:Gemini 3.1 Pro×
6月25日
08:26
08:26Jerry Liu@jerryjliu0
精选
Jerry Liu 发布了 Mistral OCR 在 ParseBench 上的更新结果。该模型的总体得分超过了 GPT-5.5,仅略低于 Gemini 3.1 Pro。在内容忠实度、语义格式和视觉定位方面表现优秀,在表格处理上表现一般,图表能力有限。这些结果展示了该价格区间内模型的竞争力。
AI模型Mistral OCRGPT-5.5Gemini 3.1 ProParseBenchOCR

推荐理由:Mistral OCR 在 ParseBench 上打败了 GPT-5.5,离 Gemini 3.1 Pro 也不远,价格还便宜,做文档解析很值。
原文
6月13日
09:43
09:43marktechpost@Asif Razzaq
精选
Google Research 于 2026 年 6 月 12 日发布 Gemini-SQL2,基于 Gemini 3.1 Pro 模型。该模型在 BIRD 单模型排行榜上取得 80.04% 的执行准确率。文章解释了该分数含义、排行榜对比情况,以及 Google 未披露的细节。同时介绍了使用场景和基于 schema 的实现模式。
AI模型Gemini-SQL2Gemini 3.1 ProBIRDText-to-SQL推理模型

推荐理由:Google 新模型 SQL 准确率破 80%
原文
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
6月1日
00:09
AITOP6月1日 00:09
OpenAI 发起“Codex for Open Source”:免费赠送 6 个月 Pro 订阅,开源维护者能否迎来 AI 变革?
5月29日
10:12
10:12lmarena.ai@lmarena_ai
精选
Arena 的 AI 能力负责人 @petergostev 对 Anthropic 最新发布的 Claude Opus 4.8 进行了超过 200 项 Code Arena 前端测试,涵盖思考与非思考模式,并与过去的 Opus 变体、Gemini 3.1 Pro、3.5 Flash 和 GLM 5.1 进行对比。测试内容包括 3D 场景生成、游戏开发和前端 UI 设计等多个维度。结果已发布在 Arena 的线程中,供开发者参考和讨论。
AI模型Claude Opus 4.8前端测试模型对比Gemini 3.1 ProGLM 5.1

推荐理由:前端开发者可以直观看到 Claude Opus 4.8 在复杂 UI 和游戏生成上的实际表现,对比多个主流模型后能更精准选型,值得点开线程看具体案例。
原文
08:02
AITOP5月29日 08:02
Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?
5月16日
16:52
16:52Thomas Wolf@Thom_Wolf
精选73°
David Louapre 发布了 physics-intern,一个专为理论物理设计的智能体框架。该框架将复杂物理问题分解并分配给多个专业智能体协同解决,包括自我纠错、推导方程、计算中间结果和重新评估最佳方法。在 CritPt 基准测试上,physics-intern 将 Gemini 3.1 Pro 的性能从 17.7% 提升至 31.4%,达到新的最优水平。这展示了多智能体协作在解决高难度科研问题上的巨大潜力。
AI产品physics-intern多智能体协作理论物理CritPt基准Gemini 3.1 Pro

推荐理由:理论物理研究者终于有了一个能真正帮上忙的AI工具——physics-intern通过多智能体协作将难题拆解,效果远超单一模型。做科研自动化的团队值得关注这个框架的设计思路。
原文
精选全部日报登录