AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
精选
过去 24 小时,从 553 条中筛出 41 条
全部模型产品行业论文技巧
标签:Opus×
6月27日
13:28
13:28lmarena.ai@lmarena_ai
精选
Agent Arena通过代码编写、幻灯片制作等真实任务评估模型性能。Opus 4.8 Thinking每会话消耗较少token,质量提升+9.2%;Fable达到+14.1%的最高质量。GPT-5.5系列模型(+6.2%至+8.6%)以更少token超越前沿。Gemini-3.5 Flash消耗token最多但效果不佳,Grok Build 0.1消耗20K+ token却出现负提升。
AI模型Agent ArenaOpusFableGPT-5.5推理模型

推荐理由:想找token性价比高的模型?Agent Arena告诉你Opus和Fable有多能打,GPT-5.5也很省token。
原文
12:21
12:21Nous Research@NousResearch
精选
NousResearch发布Hermes Agent,通过暴露MoA预设作为虚拟模型,提供超越公共前沿的能力。在即将发布的基准测试上,Hermes Agent比Opus 4.8高8%,比GPT 5.5高11%。该模型目前被限制访问,仅授予少数人。
AI模型Hermes AgentOpusGPT 5.5NousResearch智能体

推荐理由:Hermes Agent的MoA虚拟模型比Opus 4.8和GPT 5.5都强,分别高8%和11%,不过目前只能少数人用。
原文
6月23日
12:04
12:04arXiv: DeepSeek@Haifeng Wu, Srinivasan Manoharan, Fangbo Tu, Junhua Zhao, Jian Wan
精选
RLM-Cascade是一个代理层投机解码系统,在响应级别优化LLM API调用。它使用DeepSeek作为草稿模型、Opus作为验证模型,并通过轻量复杂度路由器选择路径。在Claude Code生产环境中,系统达到88.8%的草稿使用率,API成本相比直接使用Opus降低45.8%。P50延迟从3698毫秒降至2026毫秒,实现1.83倍加速。在20个Code/Math/Instruct任务基准上,RLM-Cascade通过率达100%,高于Opus的95%。
AI模型RLM-CascadeDeepSeekOpus投机解码智能体

推荐理由:这个系统把DeepSeek和Opus组合起来,用投机解码省了近一半API成本,还快了一倍,质量也有提升,而且开源可部署。
原文
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
6月1日
00:09
AITOP6月1日 00:09
OpenAI 发起“Codex for Open Source”:免费赠送 6 个月 Pro 订阅,开源维护者能否迎来 AI 变革?
5月29日
08:02
AITOP5月29日 08:02
Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?
精选全部日报登录