20:05vLLM@vllm_project精选Cohere 开源了他们使用 AI 编码智能体维护 vLLM fork 的方法。该方法将维护视为控制循环:每次上游发布后 rebase,运行测试,诊断错误,修复,重复直到通过。原本数周的工作缩短到数天。技能库已开源(cohere-ai/vllm-skills),且修复已回馈上游。技巧CoherevLLM编码智能体开源推荐理由:Cohere 开源了用 AI agent 维护 vLLM fork 的实践,把几周工作缩到几天,修复还回馈了上游。原文
12:51Cohere@cohere精选Cohere宣布其首个开源智能体编码模型的4-bit量化版本已可用。该量化版模型体积显著缩小,可在Mac上本地运行。用户可通过链接获取模型权重。此次发布使得开发者能够更便捷地在个人设备上运行智能体编码模型。AI模型Cohere4-bit量化智能体编码模型开源模型推荐理由:Cohere把自己最新的编程智能体模型压缩到4-bit,Mac上就能跑,本地开发效率直接拉满!原文
15:38Sebastian Raschka@rasbt精选Cohere 推出了一款新的轻量级 30B 开源模型,基于 Command A+ 的并行 Transformer 架构,层数几乎翻倍。该模型专为智能体编程任务优化,在 Terminal-Bench 和 SWE-Bench 等基准测试中表现优于 Gemma 4。在 Terminal-Bench 中,模型需使用终端、检查环境、运行命令并读取输出;在 SWE-Bench 中,模型需处理真实 GitHub 软件问题,理解仓库、定位文件、生成补丁并通过测试。在 SciCode 和 LiveCodeBench 等传统代码基准上,模型也具备竞争力,但整体性能略低于 Qwen3.6。AI模型CohereCommand A+30B智能体编程助手推荐理由:Cohere 新 30B 模型专攻智能体编程,比 Gemma 4 强原文
12:09vLLM@vllm_project精选vLLM 宣布对 Cohere 的 North Mini Code 模型提供 Day-0 支持,该模型是一个开源的编码模型,专为智能体工作流设计。模型采用 Mixture-of-Experts 架构,总参数量 30B,活跃参数 3B,支持 256K 上下文和 64K 最大生成长度。它具备推理、工具使用和结构化输出能力,可直接通过最新稳定版 vLLM 部署。这一支持让开发者能快速在 vLLM 上运行该模型,用于构建复杂的智能体应用。AI产品vLLMCohereNorth Mini Code编码模型智能体3 个信源在谈推荐理由:做智能体工作流和编码应用的开发者,现在可以直接用 vLLM 部署 Cohere 的 North Mini Code 模型,省去适配麻烦,建议试试。原文
13:13Cohere@cohere精选Cohere 宣布其首个编程模型 OpenCode North Mini Code 完全开源,并免费提供在 OpenCode 平台上。该模型拥有 256K 上下文窗口,支持长代码理解与生成。此举旨在推动主权 AI 理念,让更多开发者和组织能够自主使用和定制 AI 编程能力。开源版本将促进社区协作与创新,降低 AI 编程工具的门槛。AI模型CohereOpenCode开源/仓库编程助手主权AI推荐理由:Cohere 首次开源编程模型,256K 上下文窗口对处理大型代码库的开发者极具吸引力,做 AI 编程工具或需要自主部署模型的团队可以直接下载使用。原文
10:58shao__meng@shao__meng精选76°Cohere 发布了其首个开源编程模型 North Mini Code,采用 MoE 架构(30B 参数,3B 激活),拥有 128 个专家,每 token 激活 8 个。模型支持 256K 输入和 64K 输出上下文,最低可在 1× H100(FP8)上运行。训练采用三阶段后训练方法,包括级联 SFT、可验证奖励强化学习(RLVR)和跨 Harness 泛化,使其在 Agent 编程任务上表现突出。在 SWE-Bench Verified 上 pass@10 达 80.2%,Terminal-Bench v2 pass@10 达 55.1%,并在同量级开源模型中领先。模型原生支持交错思考与工具调用,适合子 Agent 编排、代码审查、终端操作等场景。AI模型开源模型编程模型Agent编程MoE架构Cohere6 个信源在谈推荐理由:Cohere 用 30B 参数实现了超越 120B 模型的 Agent 编程能力,做自动化代码修复和多步软件工程的开发者可以直接用起来,效率提升明显。原文
13:33Cohere@cohere精选Cohere 宣布其 Command A+ 模型在多语言翻译基准测试 WMT24++(xCOMET-XL)中,在所有主要欧洲语言上均超越竞争对手。具体表现为法语提升 2.4 分,西班牙语提升 1.9 分,德语提升 0.9 分。更高的翻译质量意味着更少的修正、更强的检索能力和更可靠的多语言智能体。这一进展对需要高质量多语言支持的团队尤为重要。AI模型CohereCommand A+多语言翻译WMT24++智能体推荐理由:做多语言应用或智能体的团队,翻译质量直接决定产品体验——Command A+ 在法语、西语、德语上全面领先,值得关注。原文
AITOP5月29日 08:02Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……
14:56Cohere@cohere精选Cohere 发布了新模型 Command A+,该模型针对 NVIDIA Blackwell 架构进行了优化,并使用了 NVIDIA CUDA-X 库进行训练。NVIDIA AI 基础设施团队公开祝贺,强调了双方在 AI 基础设施上的紧密合作。这一合作意味着 Command A+ 将充分利用 NVIDIA 最新硬件的性能,为企业和开发者提供更高效的 AI 推理能力。AI模型CohereCommand A+NVIDIA BlackwellAI 基础设施模型优化推荐理由:Cohere 与 NVIDIA 的深度合作让 Command A+ 在 Blackwell 上跑出最佳性能,做企业级 AI 部署的团队值得关注这个新选择。原文
13:55Cohere@cohere精选Cohere 发布了其最强开源大模型 Command A+,并已在 Hugging Face 上提供 W4A4 量化版本。该量化技术能在几乎不损失性能的情况下大幅降低模型部署的硬件需求,显著减少服务占用空间。开发者可以直接下载使用,适合资源受限的部署场景。AI模型CohereCommand A+W4A4量化开源/仓库模型部署推荐理由:Cohere 把最强模型做到 W4A4 量化还开源了,做推理部署的团队可以直接拿来降成本,值得一试。原文
14:13Cohere@cohere精选Cohere 发布技术报告,指出基于混合专家模型(MoE)的大型语言模型在推测解码(speculative decoding)中表现更优,打破了传统认知。推测解码是一种加速推理的技术,通常认为对密集模型更有效,但 Cohere 的实验表明 MoE 架构能进一步提升其效率。该发现有望降低推理成本,推动 MoE 模型在实时应用中的部署。论文MoE推测解码推理加速Cohere技术报告推荐理由:做 LLM 推理优化的开发者值得关注——MoE 模型在推测解码上的意外优势可能改变成本结构,建议点开报告看具体数据。原文
14:13Cohere@cohere精选Cohere 宣布其 W4A8 推理方案已集成到 vLLM 中,通过结合 4 位权重(低内存)和 8 位激活(高计算),在 Hopper 架构上实现了解码和预填充阶段的显著加速。相比 W4A16,TTFT(首 token 生成时间)提升高达 58%,TPOT(每 token 输出时间)提升 45%。这一优化让大模型推理在保持低内存占用的同时大幅提升计算效率,适合生产环境部署。AI模型推理优化vLLMW4A8Cohere模型部署推荐理由:Cohere 的 W4A8 方案解决了大模型推理中内存与速度的权衡问题,做模型部署和推理优化的团队可以直接在 vLLM 中体验,值得关注。原文