13:49Together AI@togethercomputeGLM-5.2模型已在Together AI平台上架,并通过OpenRouter快速提供服务。Together AI优化推理路径,使模型在长上下文编码和智能体工作负载中每GPU能处理更多token,同时保持低延迟。该模型展现出强劲性能,适合需要高吞吐的复杂任务。AI模型GLM-5.2Together AIOpenRouter推理模型长上下文推荐理由:GLM-5.2跑得快,长上下文和智能体场景下Together的优化让token更多更流畅,试试看。原文
18:41Together AI@togethercompute精选Zai_org 推出其最新旗舰开源模型 GLM-5.2,支持 1M token 长上下文,可灵活调整推理思考力度。该模型在智能体编程任务上表现更强,现已通过 Together AI 提供推理服务,专为长上下文和工具密集型智能体工作负载优化。AI模型GLM-5.2Zai_orgTogether AI智能体长上下文推荐理由:GLM-5.2 支持百万级上下文,还能控制推理深度,搞智能体编程和复杂工具链的可以试试。Together AI 上直接用。原文
04:25Clement Delangue@ClementDelangue精选Poolside 发布了其最新模型 Laguna M.1,拥有 256K 上下文长度。该模型采用 Apache 2.0 许可,权重已开放至 Hugging Face。包括基础版和微调版检查点可供下载。AI模型PoolsideLaguna M.1Hugging Face开源模型长上下文2 个信源在谈推荐理由:Poolside 把最强的 Laguna M.1 模型完全开放了,256K 上下文,Apache 2.0 许可,直接去 Hugging Face 下载权重用。原文
23:06LMSYS Org (SGLang)@lmsysorg精选Zai_org 发布了新旗舰模型 GLM-5.2,支持 1M token 长上下文。在 Terminal-Bench 2.1 上,GLM-5.2 得分 81.0,相比 GLM-5.1 的 62.0 提升明显。IndexShare 机制在 1M 上下文下将每 token 的 FLOPs 降低了 2.9 倍,改进的 MTP 将投机解码接受率提升了 20%。该模型在 SGLang 中已获得即日支持。AI模型GLM-5.2Zai_orgSGLang长上下文推理模型推荐理由:Zai_org 的 GLM-5.2 来了,1M 长上下文拿下了 81.0 的 Terminal-Bench 分数,比上一代高出一截,而且推理效率也优化了,值得上手试试。原文
11:55歸藏(guizang.ai)@op741874°智谱 AI 正式发布并开源 GLM-5.2 模型。该模型支持 100 万 token 稳定上下文,并引入思考力度控制能力。架构上采用 IndexShare 机制,每四层稀疏注意力共享 indexer,在百万 token 下将每 token 计算量降低约 2.9 倍。基准测试成绩表现出色,定位处理长周期任务。AI模型GLM-5.2智谱开源模型长上下文推理模型推荐理由:智谱 GLM-5.2 开源了,百万上下文还能省 2.9 倍算力,做长任务的朋友可以上手试试。原文
08:45berryxia@berryxiaGLM-5.2 以 MIT 协议免费开源,提供 1M 上下文窗口,重点强化了长程任务的 Agent 能力。在 Coding、Tool use、Reasoning 上相比 GLM-5.1 有明显进步,尤其在需要长时间规划和多步执行的场景。API 价格不变,同时支持 Max 和 High 两种推理模式。社区已在 DeepSWE 等基准上验证其实力,开发者可在本地运行长上下文 Agent。AI模型GLM-5.2开源模型智能体编程助手长上下文推荐理由:智谱开源了GLM-5.2,MIT协议、1M上下文,编程和Agent任务比上一代强不少,还能本地跑,别错过。原文
04:01elvis@omarsar072°Z.ai 宣布推出 GLM-5.2 开源权重模型,MIT 许可发布。其在编码和智能体任务上有显著改进,支持 1M 上下文窗口。提供两种推理等级:GLM-5.2 (max) 和 GLM-5.2 (high),后者在性能与 token 效率间取得平衡。API 定价与 GLM-5.1 相同,权重已上架 Hugging Face。AI模型GLM-5.2Z.ai开源模型编码智能体长上下文推荐理由:Z.ai 发了 GLM-5.2,开源权重、MIT 许可,编码和智能体能力提升明显,还支持 1M 上下文,想玩前沿模型的可以试试。原文
03:49ollama@ollama精选Z.ai 发布 GLM-5.2,支持 1M token 上下文窗口,专为长程编码和智能体任务设计。提供两种推理模式:GLM-5.2 (max) 和 GLM-5.2 (high),权重以 MIT 许可开源。现已通过 Ollama 云服务在美国 NVIDIA Blackwell GPU 上可用,API 定价与 GLM-5.1 相同。该模型声称是目前最强开源编码模型。AI模型GLM-5.2Z.aiOllama开源模型长上下文10 个信源在谈推荐理由:Z.ai 开源了 GLM-5.2,有 1M 上下文窗口,适合写长代码和搭智能体,在 Ollama 上直接就能用,MIT 许可随便玩。原文
02:17kimmonismus@kimmonismus77°GLM-5.2 以 MIT 许可证开源,权重开放。该模型支持 1M token 上下文窗口。提供 max 和 high 两种推理模式。专门针对大规模部署、自动化研究、性能优化和复杂调试进行训练。API 定价与 GLM-5.1 保持一致。AI模型GLM-5.2智谱开源模型长上下文推理模型推荐理由:智谱开源了 GLM-5.2,1M 上下文还能选推理模式,做长代码任务更强了。原文
22:52NVIDIA AI@NVIDIAAIMiniMax 团队发布了 MiniMax M3,这是一个支持文本、图像和视频推理的长上下文多模态模型。模型采用稀疏注意力机制,总参数量约 428B,激活参数仅约 23B,在保持高性能的同时大幅降低了计算成本。该模型已开源权重,可在 Hugging Face 获取,并可通过 NVIDIA 的 GPU 加速端点免费试用。M3 的长上下文能力使其在处理视频、长文档等场景中具有优势。AI模型MiniMaxM3多模态模型长上下文开源/仓库10 个信源在谈推荐理由:多模态推理模型终于有了高效的开源选择——MiniMax M3 用 23B 激活参数实现长上下文多模态推理,做视频分析或长文档处理的团队可以直接在 NVIDIA 端点免费试,值得关注。原文
12:32karminski-牙医 (AI工具)@karminski3精选FlashMemory 论文提出一种神经内存索引器,能将 DeepSeekV4 的 1M 上下文显存占用从约 10GB 压缩至 1.3GB,且输出准确率反而提升 0.6%。该方法通过预测未来需要的历史片段,按需加载 KVCache,实现注意力降噪。索引器采用解耦训练,无需加载基座模型,训练成本大幅降低。该技术对长文本推理场景具有重大意义,尤其适合资源受限的部署环境。论文FlashMemoryDeepSeekV4显存优化长上下文注意力降噪推荐理由:长文本推理的显存瓶颈被 FlashMemory 大幅缓解,做 LLM 推理优化或部署长上下文模型的团队可以直接参考论文方法,效果甚至比原版更好。原文
07:01Together AI@togethercompute精选Together AI 团队提出 Untied Ulysses 方法,解决了长上下文训练中的显存瓶颈。传统方法在单节点 8xH100 上训练 Llama 3B 模型时,仅模型参数就会耗尽显存,无法支持 3M token 的上下文长度。新方法通过优化注意力机制,在 8B 和 32B 规模下实现了比先前实现长 25% 的序列训练。这项研究让大模型长上下文训练变得更可行,降低了硬件门槛。论文长上下文显存优化注意力机制Together AI训练效率推荐理由:长上下文训练一直是显存大户,Untied Ulysses 让单节点就能跑 3M token,做 LLM 训练和推理优化的团队值得关注,能省下不少 GPU 预算。原文
00:24SiliconFlowAI@siliconflowai精选Google DeepMind 的 Gemma 4 12B 模型已在 SiliconFlow 平台上线,支持 262K 上下文、内置思考、原生工具调用及 140+ 语言。该模型采用无编码器架构,视觉和音频输入直接进入 LLM 主干,降低处理延迟。12B 参数规模但拥有 26B 的“大脑”性能,接近 Google 26B 模型的表现,在多步推理和智能体工作流中表现出色。定价为输入/输出每百万 tokens 0.1/0.3 美元,性价比突出。AI模型Gemma 4智能体多模态长上下文SiliconFlow7 个信源在谈推荐理由:做智能体、长上下文或多模态应用的开发者终于有了一个模型搞定三件事的选择——Gemma 4 12B 在 SiliconFlow 上价格亲民,建议直接上手试试。原文
12:57AI Will@FinanceYF588°Anthropic 的 Claude 5 Fable 模型在 Stripe 的 5000 万行 Ruby 代码库迁移任务中表现出色,将原本需要整支团队耗时两个月的工作压缩至一天完成。该模型在长任务和复杂场景下优势显著,效率、上下文管理能力全面升级,且 token 使用更高效。测试显示,任务越长越复杂,Fable 5 与其他模型的差距越大。这一成果标志着 AI 在大型代码库工程任务中的实用价值迈上新台阶。AI产品Claude 5 Fable代码迁移长上下文效率提升Stripe10 个信源在谈推荐理由:大型代码库迁移是工程团队的噩梦,Fable 5 把两个月压缩成一天,做后端或基础设施的开发者值得关注——这可能是你未来省下整支团队时间的关键工具。原文
01:21Fireworks AI@FireworksAI_HQ78°MiniMax 发布了新模型 M3,其核心创新是 MiniMax Sparse Attention (MSA) 机制,在 1M token 长上下文场景下解码速度提升 15.6 倍。Fireworks AI 宣布与 MiniMax 合作,为本次发布提供推理支持。用户可前往 minimax.io 试用,模型权重发布后也将对 Fireworks 社区开放。这一突破显著降低了长上下文推理的延迟和成本,对需要处理超长文档、代码库或对话历史的开发者意义重大。AI模型MiniMaxM3稀疏注意力长上下文推理加速推荐理由:长上下文推理的瓶颈被 MSA 大幅缓解,做 RAG、长文档分析或大上下文应用的团队值得立即体验,速度提升意味着更低的成本和更好的用户体验。原文
12:49rohanpaul_ai@rohanpaul_ai一篇新论文提出Self-Pruned Key-Value Attention方法,让大语言模型在长文本生成时只保留对后续token有用的历史键值对,从而大幅压缩KV缓存。该方法通过一个小型预测器为每个键值对打分,只保留高分项,同时确保最近token始终保留。模型在训练时通过正常的next-token预测学习剪枝策略,无需手工规则。实验表明,模型通常只保留10%到33.7%的旧键值对,性能接近全注意力,解码速度在长上下文场景下提升2.1到4.6倍。论文KV缓存长上下文注意力机制模型压缩Self-Pruned Key-Value Attention推荐理由:KV缓存是长上下文推理的瓶颈,这篇论文用自学习剪枝解决了内存爆炸问题,做LLM推理优化或长文本应用的开发者可以直接参考其方法。原文
04:40Together AI@togethercompute76°MiniMax-M3 是一款结合了 1M 上下文窗口、原生多模态能力和 MiniMax 稀疏注意力机制的新模型。Together 的推理和内核团队通过 KV-block-major 稀疏注意力、分页 MSA 解码、优化索引评分以及 GPU 工作前的多模态预处理,将常见智能体流量下的吞吐量提升了 81-125%。该模型在长上下文和多模态任务上表现出色,适合需要处理大量信息和多种数据类型的应用场景。AI模型MiniMax-M3稀疏注意力多模态长上下文推理优化7 个信源在谈推荐理由:做长上下文和多模态应用的团队可以关注——MiniMax-M3 的稀疏注意力优化让吞吐量提升显著,直接降低推理成本,值得一试。原文
18:53岚叔@lufzzliz精选76°MiniMax 发布新一代旗舰模型 M3,面向 coding agent、长上下文和多模态任务。M3 支持 1M 上下文,核心技术创新是 MiniMax Sparse Attention (MSA),通过稀疏注意力将 KV 分块并精确选取相关块,大幅降低长上下文计算成本。在 1M 上下文下,每 token 计算量仅为上一代的 1/20,prefill 提速 9 倍以上,decode 提速 15 倍以上。M3 支持文本、图片、视频输入,将长上下文、工具调用、多模态理解和持续执行能力整合,明确押注 agentic coding 场景。AI模型MiniMax-M3稀疏注意力长上下文Agentic Coding多模态6 个信源在谈推荐理由:M3 的稀疏注意力解决了长上下文推理的成本痛点,做 coding agent 和自动化任务的开发者可以直接关注——1M 上下文下计算量骤降 95%,意味着更长的任务链也能跑得动。原文
14:50歸藏(guizang.ai)@op7418精选76°MiniMax 正式发布大版本模型升级 MiniMax M3,核心亮点包括标配 1M 超长上下文、采用新的 MSA(MoE with Segment-wise Attention)稀疏注意力架构,以及从训练起就融合了文本、图片、视频和桌面操作的原生多模态能力。MSA 架构在 100 万上下文下每 token 计算量仅为上一代的约 1/20,大幅提升可落地性。API 价格同步更新,小于 512k 的 API 限时五折(7 天)。模型权重和技术报告将在约 10 天后开源。AI模型MiniMax M3长上下文稀疏注意力多模态API6 个信源在谈推荐理由:MiniMax M3 把长上下文、稀疏注意力和多模态融合做到了一个模型里,而且计算效率大幅提升,做 Agent 开发、多模态应用或长文档处理的团队可以直接用 API 试试,价格也很友好。原文
11:11OpenRouter@OpenRouterAI精选76°MiniMax-M3 是一款前沿开源权重模型,已在 OpenRouter 平台上线。它集成了 100 万 token 的超长上下文窗口、顶尖的编程与智能体能力,以及原生支持图像和视频的多模态处理。该模型在编码和智能体任务上表现卓越,同时保持了开源特性,为开发者和研究者提供了强大的工具。其 1M token 上下文窗口尤其适合处理长文档、复杂代码库和多模态数据融合场景。AI模型MiniMax-M3开源模型长上下文多模态编程助手6 个信源在谈推荐理由:MiniMax-M3 把长上下文、强编码和多模态塞进一个开源模型里,做复杂智能体或长文档处理的团队可以直接在 OpenRouter 上试,省去自己部署的麻烦。原文
09:06NVIDIA AI@NVIDIAAI精选76°NVIDIA 宣布推出 Step 3.7 Flash 模型,这是一个 198B 参数的混合专家(MoE)模型,但仅需 11B 活跃参数即可运行,大幅降低推理成本。该模型支持 256K 上下文长度,并原生支持图像和视频输入。即日起可在 build.nvidia.com 上通过 GPU 加速端点使用,也可通过 NVIDIA NIM 微服务部署,并支持使用 NeMo 框架进行微调。这一发布标志着 NVIDIA 在高效大模型领域的重要进展,尤其适合需要多模态理解和长上下文处理的应用场景。AI模型Step 3.7 FlashNVIDIAMoE多模态长上下文5 个信源在谈推荐理由:198B 参数但仅 11B 活跃,推理效率极高,做多模态应用或长文档处理的团队可以直接在 NVIDIA 平台试用,省成本又省心。原文
10:40rohanpaul_ai@rohanpaul_ai精选研究发现,长时间运行的语言智能体如果定期暂停并整合记忆,性能会更好。当前Transformer模型随着上下文增长,注意力机制需要检查更多历史token,导致推理变慢且成本增加。论文提出在模型中引入“睡眠阶段”:暂停推理,多次重读近期上下文,将有用信息写入固定大小的记忆层,然后清空短期注意力缓存。这样,模型在睡眠时进行额外计算,而正常推理仍保持单次前向传播的高效。实验表明,睡眠时间越长,模型在需要深度推理的复杂任务上表现越好,尤其当旧信息已不在注意力缓存中时。论文智能体长上下文记忆整合注意力机制推理模型推荐理由:长时运行智能体终于有了解决上下文膨胀问题的思路——做Agent或长链推理的开发者值得关注,它可能改变你处理长期记忆的方式。原文
06:13rohanpaul_ai@rohanpaul_ai本期新闻简报涵盖多项AI与芯片领域重要进展:华为公布芯片设计新突破,有望缩小与台积电、英特尔的差距;阿里巴巴与南京大学联合论文提出通过选择性稀疏注意力机制,使标准LLM高效处理超长上下文;深度分析DeepSeek的真正优势不在于廉价聊天机器人,而在于将硬件稀缺转化为策略的架构创新;Meta、斯坦福与伊利诺伊大学联合调研论文主张AI智能体在代码作为主要工作层时表现更佳;Anthropic联合创始人警告AI导致的失业将引发历史性道德危机;xAI向SuperGrok和X Premium+用户推出终端原生智能体“Grok Build”。行业华为芯片设计长上下文DeepSeek智能体Grok BuildAI失业10 个信源在谈推荐理由:芯片开发者、长上下文研究者、智能体实践者都能从中找到硬核洞察——华为的突破可能重塑竞争格局,阿里论文直接解决长文本推理痛点,DeepSeek的架构思路值得借鉴。建议花5分钟扫读,挑与自身领域相关的深度内容细看。原文
04:56宝玉@doteyRepoPrompt 是一款将整个代码仓库拼接成 XML 文本的工具,方便发送给支持长上下文的 AI 模型(如 Gemini 2、Claude 3.5、o1 pro)。其作者已被 OpenAI 招安,软件现已免费,并计划开源。此前付费用户将获得 Codex Credits 作为补偿。该工具目前仅支持 Mac 平台,可选择性包含部分文件。这一变化意味着开发者可以免费使用该工具,并期待其开源后的社区贡献。AI产品RepoPrompt开源/仓库AI编程助手长上下文OpenAI10 个信源在谈推荐理由:RepoPrompt 解决了将整个代码仓库高效喂给大模型的痛点,做 AI 编程或代码审查的开发者现在可以免费使用,而且即将开源,值得关注后续社区版本。原文
08:36berryxia@berryxia83°MiniMax AI工程负责人Skyler Miao预告了下一代模型M3的发布,并透露其核心架构:基于GQA的动态块稀疏注意力。该技术通过轻量索引分支快速筛选相关token块,仅对关键块执行稀疏注意力计算,大幅降低算力需求。在1M token上下文下,M3的预填充速度比M2快9.7倍,解码速度快15.6倍。这使得百万token级别的Agent任务从理论走向实用,长上下文处理变得又快又省。M3的发布将为长上下文模型赛道增添有力竞争者。AI模型MiniMaxM3长上下文稀疏注意力Agent推荐理由:MiniMax M3用动态稀疏注意力把1M上下文的算力成本打下来了,做长上下文Agent的开发者可以直接关注,这可能是让百万token任务真正落地的关键突破。原文
04:08elvis@omarsar0精选该论文提出一种睡眠压缩机制,让模型每N步进行离线递归处理将上下文写入持久快速权重,然后清除KV缓存。在细胞自动机、多跳图检索和数学推理任务上,该方法比纯Transformer和SSM-Attention混合模型效果更好,睡眠时间越长性能提升越大。这为长时智能体提供了替代方案,通过压缩和遗忘原始token来避免注意力二次计算开销。论文DAIR.AI智能体长上下文推理模型状态空间模型推荐理由:智能体睡一觉,推理更强原文
01:37rohanpaul_ai@rohanpaul_ai研究发现,长上下文AI模型并非被大量错误信息逐渐削弱,而是仅需10%的误导性段落就能造成近58%的性能损失,这种现象被称为“第一滴墨水效应”。误导信息之所以危险,是因为它们与问题高度相关但错误,在注意力机制中会挤占正确答案的空间。在128K token的Qwen2.5实验中,前10%的硬干扰项解释了97%的干扰压力。这意味着过滤文档时,移除坏内容不如缩短整个上下文有效。该研究对构建长上下文AI系统的开发者具有重要警示意义。论文长上下文注意力机制误导信息第一滴墨水效应Qwen2.5推荐理由:做长上下文AI应用或RAG系统的团队,这个发现会颠覆你对上下文管理的认知——不是堆更多文档就能提升效果,少而精才是关键,建议点开看看具体实验数据。原文
23:22berryxia@berryxia83°CMU和UMD的研究团队发现,Transformer大模型在处理超长任务时注意力机制会因上下文长度二次方爆炸而性能下降。他们提出“sleep-like consolidation”机制,让模型在“睡眠”期间将最近上下文转化为持久fast weights并清空KV cache,从而将短期记忆转为长期记忆。实验表明,增加睡眠深度或时长能显著提升睡眠后的推理能力。该方案完全开源,颠覆了传统靠堆显存扩展上下文的做法。论文Transformer长上下文记忆固化开源/仓库推理优化推荐理由:这个研究用“睡觉”这种生物启发机制解决了长上下文推理的显存和速度瓶颈,做长序列AI应用的开发者可以直接参考开源方案,比堆显存更聪明。原文
04:37rohanpaul_ai@rohanpaul_ai精选72°阿里巴巴与南京大学联合发表论文,提出RTPurbo方法,通过轻量级适配将百万token预填充速度提升9.36倍(对比FlashAttention-2)。该方法发现训练好的全注意力模型已存在隐藏稀疏结构,无需重新训练。RTPurbo识别出少数需要远距离token的注意力头,其余头聚焦邻近文本,并使用16维索引器快速定位关键token。在长上下文基准和推理任务中,RTPurbo保持接近全注意力的精度,同时实现高达9.36倍加速。这证明长上下文推理中的浪费比表面看起来更有结构性。论文长上下文注意力稀疏化推理加速RTPurboAlibaba推荐理由:长上下文推理的算力瓶颈是AI应用落地的关键障碍,做LLM推理优化或长文档处理的团队可以直接参考RTPurbo的稀疏化思路,无需从头训练模型。原文
09:37Together AI@togethercompute83°阿里巴巴推出Qwen3.7-Max旗舰模型,专为智能体时代设计,支持100万token上下文窗口。该模型在智能体编程、推理和长周期自主任务上表现领先。现在可通过Together Serverless Inference平台用于生产级智能体工作流。这标志着大模型从对话助手向自主智能体核心引擎的转变。AI模型Qwen3.7-Max智能体长上下文推理模型阿里推荐理由:做智能体应用的开发者终于有了一个原生支持长上下文和自主决策的旗舰模型,1M上下文窗口直接解决复杂任务中的记忆瓶颈,建议在Together上试试生产级部署。原文
02:45Jeff Dean@JeffDean72°Jeff Dean 展示了 Gemini 3.5 Flash 的新能力:它能瞬间消化密集的学术论文,并自主编码出一个完全交互式的可视化网站,解释研究的细节。该过程融合了超长上下文、深度推理、复杂编码和超低延迟,是对模型综合能力的极限测试。这一功能帮助用户快速提炼论文精髓,加深理解。AI产品Gemini 3.5 Flash论文理解自动编码交互式网站长上下文推荐理由:研究人员和开发者终于有了一个能边读论文边自动生成交互式演示的工具,省去手动编码和理解的繁琐,建议直接体验。原文
01:25berryxia@berryxia精选73°Sebastian Raschka发布《Recent Developments in LLM Architectures》,用可视化方式拆解Gemma 4到DeepSeek V4的硬核优化。文章指出长上下文瓶颈已从“能否支持更多token”转向“如何聪明分配计算”,这些优化已在生产环境落地。正在做长上下文模型、Agent或RAG的团队,这篇文章的视觉图和效率对比特别值得细读。论文长上下文架构优化Gemma 4DeepSeek V4效率对比1 个信源在谈推荐理由:长上下文竞争已从堆token转向架构优化,做Agent或RAG的团队可以从Gemma 4到DeepSeek V4的真实方案中直接借鉴效率提升思路。原文
23:51Viking@vikingmute精选开发者 vikingmute 分享了一个解决 Codex 长上下文响应变慢的技巧:使用 handoff 技能将当前对话压缩成一份 handoff 文件,然后新开 session 继续任务。他发现 Codex 在上下文变长时返回速度明显下降,而 handoff 能避免自动压缩带来的性能损失,在任务进行到 70%-80% 时使用效果最佳。该技巧与 Codex 最新的 /goal 模式原理相似,适合处理长任务。AI产品Codexhandoff长上下文性能优化编程助手推荐理由:Codex 重度用户终于有了应对长上下文卡顿的实战技巧——handoff 压缩对话再开新 session,比硬扛自动压缩快很多,做复杂自动化任务的开发者可以直接抄作业。原文
13:37深度求索 DeepSeek@deepseek_ai78°DeepSeek 发布了 V4 Preview 版本,包含 Pro 和 Flash 两个模型,均支持 1M 上下文长度。Pro 版本总参数量 1.6T,激活参数 49B,性能对标全球顶级闭源模型;Flash 版本总参数量 284B,激活参数 13B,主打高效经济。模型权重和技术报告已开源,API 同步更新。这标志着开源大模型在长上下文和性价比上迈出重要一步。AI模型DeepSeek-V4开源/仓库长上下文推理模型性价比推荐理由:长上下文和低成本是当前 AI 应用的两大痛点,DeepSeek-V4 同时解决这两个问题,做 RAG、文档分析或长对话的开发者可以直接上手试试。原文
21:55Together AI@togethercompute75°DeepSeek V4 Pro在Together AI无服务器平台上发布,具备长上下文推理能力和领先的编程性能。该模型通过KV缓存、前缀重用、混合注意力、批处理、内核优化和端点配置等技术实现高效服务。来自@zhyncs42、@realDanFu等人的深入分析揭示了其技术细节。AI模型推理模型开源/仓库Together AI长上下文编程推荐理由:DeepSeek V4 Pro在长上下文推理和编程任务上的表现达到SOTA,同时其高效服务技术栈的公开分析对AI部署实践有重要参考价值。原文