精选 AI 资讯 · AI 热点

6月26日

20:05

20:05

vLLM@vllm_project

精选

Cohere 开源了他们使用 AI 编码智能体维护 vLLM fork 的方法。该方法将维护视为控制循环：每次上游发布后 rebase，运行测试，诊断错误，修复，重复直到通过。原本数周的工作缩短到数天。技能库已开源（cohere-ai/vllm-skills），且修复已回馈上游。

技巧 Cohere vLLM 编码智能体开源

推荐理由：Cohere 开源了用 AI agent 维护 vLLM fork 的实践，把几周工作缩到几天，修复还回馈了上游。

6月19日

12:51

12:51

Cohere@cohere

精选

Cohere宣布其首个开源智能体编码模型的4-bit量化版本已可用。该量化版模型体积显著缩小，可在Mac上本地运行。用户可通过链接获取模型权重。此次发布使得开发者能够更便捷地在个人设备上运行智能体编码模型。

AI模型 Cohere 4-bit量化智能体编码模型开源模型

推荐理由：Cohere把自己最新的编程智能体模型压缩到4-bit，Mac上就能跑，本地开发效率直接拉满！

6月14日

15:38

15:38

Sebastian Raschka@rasbt

精选

Cohere 推出了一款新的轻量级 30B 开源模型，基于 Command A+ 的并行 Transformer 架构，层数几乎翻倍。该模型专为智能体编程任务优化，在 Terminal-Bench 和 SWE-Bench 等基准测试中表现优于 Gemma 4。在 Terminal-Bench 中，模型需使用终端、检查环境、运行命令并读取输出；在 SWE-Bench 中，模型需处理真实 GitHub 软件问题，理解仓库、定位文件、生成补丁并通过测试。在 SciCode 和 LiveCodeBench 等传统代码基准上，模型也具备竞争力，但整体性能略低于 Qwen3.6。

AI模型 Cohere Command A+30B 智能体编程助手

推荐理由：Cohere 新 30B 模型专攻智能体编程，比 Gemma 4 强

6月12日

12:09

12:09

vLLM@vllm_project

精选

vLLM 宣布对 Cohere 的 North Mini Code 模型提供 Day-0 支持，该模型是一个开源的编码模型，专为智能体工作流设计。模型采用 Mixture-of-Experts 架构，总参数量 30B，活跃参数 3B，支持 256K 上下文和 64K 最大生成长度。它具备推理、工具使用和结构化输出能力，可直接通过最新稳定版 vLLM 部署。这一支持让开发者能快速在 vLLM 上运行该模型，用于构建复杂的智能体应用。

AI产品 vLLM Cohere North Mini Code 编码模型智能体

推荐理由：做智能体工作流和编码应用的开发者，现在可以直接用 vLLM 部署 Cohere 的 North Mini Code 模型，省去适配麻烦，建议试试。

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

13:13

13:13

Cohere@cohere

精选

Cohere 宣布其首个编程模型 OpenCode North Mini Code 完全开源，并免费提供在 OpenCode 平台上。该模型拥有 256K 上下文窗口，支持长代码理解与生成。此举旨在推动主权 AI 理念，让更多开发者和组织能够自主使用和定制 AI 编程能力。开源版本将促进社区协作与创新，降低 AI 编程工具的门槛。

AI模型 Cohere OpenCode 开源/仓库编程助手主权AI

推荐理由：Cohere 首次开源编程模型，256K 上下文窗口对处理大型代码库的开发者极具吸引力，做 AI 编程工具或需要自主部署模型的团队可以直接下载使用。

10:58

10:58

shao__meng@shao__meng

精选76°

Cohere 发布了其首个开源编程模型 North Mini Code，采用 MoE 架构（30B 参数，3B 激活），拥有 128 个专家，每 token 激活 8 个。模型支持 256K 输入和 64K 输出上下文，最低可在 1× H100（FP8）上运行。训练采用三阶段后训练方法，包括级联 SFT、可验证奖励强化学习（RLVR）和跨 Harness 泛化，使其在 Agent 编程任务上表现突出。在 SWE-Bench Verified 上 pass@10 达 80.2%，Terminal-Bench v2 pass@10 达 55.1%，并在同量级开源模型中领先。模型原生支持交错思考与工具调用，适合子 Agent 编排、代码审查、终端操作等场景。

AI模型开源模型编程模型 Agent编程 MoE架构 Cohere

推荐理由：Cohere 用 30B 参数实现了超越 120B 模型的 Agent 编程能力，做自动化代码修复和多步软件工程的开发者可以直接用起来，效率提升明显。

6月1日

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月30日

13:33

13:33

Cohere@cohere

精选

Cohere 宣布其 Command A+ 模型在多语言翻译基准测试 WMT24++（xCOMET-XL）中，在所有主要欧洲语言上均超越竞争对手。具体表现为法语提升 2.4 分，西班牙语提升 1.9 分，德语提升 0.9 分。更高的翻译质量意味着更少的修正、更强的检索能力和更可靠的多语言智能体。这一进展对需要高质量多语言支持的团队尤为重要。

AI模型 Cohere Command A+多语言翻译 WMT24++智能体

推荐理由：做多语言应用或智能体的团队，翻译质量直接决定产品体验——Command A+ 在法语、西语、德语上全面领先，值得关注。

5月29日

08:02

AITOP5月29日 08:02

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？🔥Anthropic 把 AI 编程的“确认键”彻底删掉了！Claude Code 搭载全新 Opus 4.8 模型，长时间任务不跑偏、不废话、不中断，像一个资深工程师一样默默干活，从功能开发到漏洞清扫全包圆，你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”，现在它直接交完整交付物……自主编程的最后一层窗户纸，被捅破了。做自动化开发和代码审查的团队，这个模型建议直接上手，效率差距肉眼可见……

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？

5月22日

14:56

14:56

Cohere@cohere

精选

Cohere 发布了新模型 Command A+，该模型针对 NVIDIA Blackwell 架构进行了优化，并使用了 NVIDIA CUDA-X 库进行训练。NVIDIA AI 基础设施团队公开祝贺，强调了双方在 AI 基础设施上的紧密合作。这一合作意味着 Command A+ 将充分利用 NVIDIA 最新硬件的性能，为企业和开发者提供更高效的 AI 推理能力。

AI模型 Cohere Command A+NVIDIA Blackwell AI 基础设施模型优化

推荐理由：Cohere 与 NVIDIA 的深度合作让 Command A+ 在 Blackwell 上跑出最佳性能，做企业级 AI 部署的团队值得关注这个新选择。

13:55

13:55

Cohere@cohere

精选

Cohere 发布了其最强开源大模型 Command A+，并已在 Hugging Face 上提供 W4A4 量化版本。该量化技术能在几乎不损失性能的情况下大幅降低模型部署的硬件需求，显著减少服务占用空间。开发者可以直接下载使用，适合资源受限的部署场景。

AI模型 Cohere Command A+W4A4量化开源/仓库模型部署

推荐理由：Cohere 把最强模型做到 W4A4 量化还开源了，做推理部署的团队可以直接拿来降成本，值得一试。

5月14日

14:13

14:13

Cohere@cohere

精选

Cohere 发布技术报告，指出基于混合专家模型（MoE）的大型语言模型在推测解码（speculative decoding）中表现更优，打破了传统认知。推测解码是一种加速推理的技术，通常认为对密集模型更有效，但 Cohere 的实验表明 MoE 架构能进一步提升其效率。该发现有望降低推理成本，推动 MoE 模型在实时应用中的部署。

论文 MoE 推测解码推理加速 Cohere 技术报告

推荐理由：做 LLM 推理优化的开发者值得关注——MoE 模型在推测解码上的意外优势可能改变成本结构，建议点开报告看具体数据。

14:13

14:13

Cohere@cohere

精选

Cohere 宣布其 W4A8 推理方案已集成到 vLLM 中，通过结合 4 位权重（低内存）和 8 位激活（高计算），在 Hopper 架构上实现了解码和预填充阶段的显著加速。相比 W4A16，TTFT（首 token 生成时间）提升高达 58%，TPOT（每 token 输出时间）提升 45%。这一优化让大模型推理在保持低内存占用的同时大幅提升计算效率，适合生产环境部署。

AI模型推理优化 vLLM W4A8 Cohere 模型部署

推荐理由：Cohere 的 W4A8 方案解决了大模型推理中内存与速度的权衡问题，做模型部署和推理优化的团队可以直接在 vLLM 中体验，值得关注。