11:25elvis@omarsar0MiniMax 即将发布其新一代模型 M3,目前已在 OpenCode 平台上开放免费试用。AI 研究员 Omar 表示将使用自己的编码代理和测试框架对 M3 进行深度测试,并计划发布评测。这一消息引发了社区关注,已有近 3000 次浏览。M3 的发布可能为编程助手和智能体领域带来新的选择。AI模型MiniMaxM3编程助手智能体开源/仓库推荐理由:MiniMax M3 即将上线,做 AI 编程和智能体开发的团队可以趁免费期在 OpenCode 上抢先体验,看看它能否成为你工作流中的新利器。原文
11:16Together AI@togethercompute精选MiniMax 的最新模型 M3 已正式上线,并由 Together AI 提供推理基础设施支持。双方将于明天太平洋时间下午6点在 X Spaces 进行深度对话,分享模型和基础设施的细节。这一合作意味着 M3 模型将获得高性能的推理服务,对开发者来说是一个值得关注的进展。AI模型MiniMaxM3Together AI推理模型模型上线推荐理由:MiniMax M3 上线并由 Together AI 支持推理,意味着模型推理性能有保障,做 AI 应用开发的团队可以直接试用,值得关注。原文
11:12OpenRouter@OpenRouterAI精选76°MiniMax 发布了 M3 模型,这是首个同时具备编码、智能体与多模态能力的开源权重模型。在 SWE-Bench Pro 上达到 59.0%,Terminal Bench 2.1 上 66.0%,并支持 1M 上下文窗口。模型原生多模态,从零开始训练,权重和技术报告将在约 10 天后公开。API 已上线 platform.minimax.io,并提供 MiniMax Code 工具。AI模型MiniMaxM3开源模型编码智能体多模态推荐理由:MiniMax M3 把编码、智能体和多模态三个前沿能力打包进一个开源模型,做 AI 应用开发或智能体研究的团队可以直接用 API 体验,值得关注即将开源的权重。原文
11:11OpenRouter@OpenRouterAI精选76°MiniMax-M3 是一款前沿开源权重模型,已在 OpenRouter 平台上线。它集成了 100 万 token 的超长上下文窗口、顶尖的编程与智能体能力,以及原生支持图像和视频的多模态处理。该模型在编码和智能体任务上表现卓越,同时保持了开源特性,为开发者和研究者提供了强大的工具。其 1M token 上下文窗口尤其适合处理长文档、复杂代码库和多模态数据融合场景。AI模型MiniMax-M3开源模型长上下文多模态编程助手6 个信源在谈推荐理由:MiniMax-M3 把长上下文、强编码和多模态塞进一个开源模型里,做复杂智能体或长文档处理的团队可以直接在 OpenRouter 上试,省去自己部署的麻烦。原文
11:07lmarena.ai@lmarena_ai精选76°MiniMax 发布开源权重模型 M3,首次在单一模型中融合编码、智能体与多模态三大前沿能力。在 SWE-Bench Pro 上达到 59.0%,Terminal Bench 2.1 为 66.0%,并支持 1M 上下文长度。模型已上线 Arena 的文本、视觉、文档和代码竞技场,用户可投票评测。权重和技术报告将在约 10 天后公开。AI模型MiniMaxM3开源模型编码智能体多模态Arena推荐理由:MiniMax M3 把编码、智能体和多模态塞进一个开源模型,做 AI 应用和 Agent 开发的团队可以直接在 Arena 上测效果,省去自己搭环境的时间。原文
09:37elvis@omarsar0精选一位用户在 X 上分享使用 DeepSeek-v4-flash 的体验,称已花费数亿 token(约 10 美元),效果令人印象深刻。他将其用于自建编程智能体的自我改进,认为表现非常出色。该模型以极低的价格提供了高质量的性能,尤其适合需要大量 token 的开发者。更多细节将在后续分享。AI模型DeepSeek-v4-flash编程助手智能体性价比开源/仓库1 个信源在谈推荐理由:DeepSeek-v4-flash 以极低成本(百万 token 约 10 美元)实现高质量代码生成,做智能体或编程工具的开发者值得一试,性价比远超同类模型。原文
08:53Marc Andreessen@pmarca精选AI 先驱 Richard Sutton 在视频演讲中提出争议性观点:当前基于监督学习的生成式 AI(包括大语言模型、图像和视频模型)本质上无法做出新颖的科学发现。他认为这些系统能产出“好”或“新”的结果,但无法同时兼具两者——当输出新颖时往往意味着“幻觉”,而追求准确性时则缺乏创新。Marc Andreessen 对此评论称,在 AI 时代我们可能从未真正定义过“新颖”和“发现”,AI 将创造许多新事物但难以命名。这一观点挑战了当前 AI 在科学和数学领域的应用预期。AI模型生成式 AI监督学习AI 创新Richard Sutton科学发现推荐理由:Sutton 的演讲戳中了生成式 AI 在科研创新上的核心局限,做 AI 研究或依赖 AI 做科学发现的团队值得一看,看完会对当前模型的能力边界有更清醒的认识。原文
07:55阶跃星辰 Stepfun@Stepfun_AI精选StepFun 的 Step 3.7 Flash 模型在智能体效率方面取得了新突破,通过优化推理速度和资源占用,显著提升了智能体任务的执行效率。该模型特别适合需要快速响应的自动化场景,如代码生成、数据处理等。开发者可以借助它构建更高效的智能体应用,降低延迟和成本。这一进展为智能体技术的实际落地提供了有力支持。AI模型Step 3.7 Flash智能体效率优化推理模型自动化推荐理由:做智能体开发的团队会关注——Step 3.7 Flash 直接解决了效率瓶颈,建议试试看能否优化你的自动化流程。原文
02:25阶跃星辰 Stepfun@Stepfun_AI精选在 ClawCon Macao 上,阶跃星辰开发者业务总经理 EileenTal 阐述了智能体发展的下一阶段,并发布了 Step 3.7 Flash 模型。该模型强调在保持智能水平的同时大幅提升效率,旨在让 AI 真正落地到实际工作中。Step 3.7 Flash 针对开发者场景优化,降低了推理成本与延迟,使得复杂任务可以更快完成。这一发布标志着阶跃星辰从追求模型智能转向关注实际应用效率的战略转变。AI模型阶跃星辰Step 3.7 Flash智能体效率优化开发者推荐理由:阶跃星辰把 AI 从「炫技」拉回「干活」——Step 3.7 Flash 在保持智能的同时大幅提升效率,做 AI 应用落地的开发者值得关注,能直接降低推理成本。原文
22:54Viking@vikingmuteDeepSWE 对 Opus 4.8 的评分显示,该模型在性能上优于 Opus 4.7,且成本更低、效率更高,但相比 GPT5.5 仍有明显差距。作者表示尚未深度使用 4.8,仍在使用更便宜的 4.6 版本,并指出对基准测试已逐渐祛魅,更看重推特上的真实用户评价。目前普遍认为 GPT5.5 仍是大多数用户的最强模型。AI模型Opus 4.8GPT5.5模型评测成本效率基准测试4 个信源在谈推荐理由:如果你在纠结是否升级到 Opus 4.8,这篇推文帮你省了试错成本——作者用真实体验告诉你,4.8 性价比提升但远不及 GPT5.5,做模型选型的开发者建议看看推文下的真实讨论。原文
16:38AI Will@FinanceYF572°Arena.ai 宣布 Grok-Imagine-Video-1.5-Preview (720p) 在 Image-to-Video Arena 中排名第一,相比前代 Grok-Imagine-Video (720p) 提升了 52 分,超越了 Seedance-2.0 和 HappyHorse 等顶级模型。这是 xAI 在视频生成领域的重要突破,展示了 Grok 系列模型的持续进化能力。该模型在图像到视频的转换质量上取得了显著进步,为 AI 视频生成树立了新标杆。AI模型GrokxAI视频生成图生视频Arena推荐理由:xAI 的视频模型首次登顶 Arena,做 AI 视频生成或内容创作的团队值得关注这个新选择,看看它能否在效果和速度上带来惊喜。原文
10:10NVIDIA AI@NVIDIAAINVIDIA AI 宣布 Arcee.ai 的 Trinity 模型将迁移至 OpenMDW-1.1 平台。这一迁移意味着 Trinity 模型将获得更好的性能优化和生态支持。OpenMDW-1.1 是 NVIDIA 推出的开放模型部署框架,旨在简化 AI 模型的部署和运行。此举进一步丰富了 OpenMDW 生态,为开发者提供了更多高质量模型选择。AI模型Arcee.aiTrinityOpenMDW-1.1模型部署NVIDIA7 个信源在谈推荐理由:Arcee.ai 的 Trinity 模型迁移至 OpenMDW-1.1,意味着开发者可以更便捷地部署和运行该模型,做模型部署和推理优化的团队值得关注。原文
09:59elvis@omarsar0Claude Opus 4.8 在 DeepSWE Bench 上取得 58% Pass@1 的成绩,排名第二,仅次于 GPT-5.5。该模型在原始分数上略逊一筹,但在多个最新基准测试中展现出最高的可靠性和效率。这一结果延续了近期趋势:模型在追求极致性能的同时,更注重实际应用中的稳定性和资源效率。对于关注 AI 编程和模型选型的开发者来说,这是一个值得关注的信号。AI模型Claude Opus 4.8GPT-5.5DeepSWE Bench编程模型效率10 个信源在谈推荐理由:Claude Opus 4.8 在 DeepSWE Bench 上以 58% Pass@1 证明了自己是效率与可靠性的标杆,做 AI 编程选型的团队可以把它作为性价比参考。原文
09:37lmarena.ai@lmarena_aixAI在X平台宣布推出最新模型,并附上官方文档链接供开发者查阅。该模型由Elon Musk的团队开发,具体技术细节和性能参数需通过文档了解。目前该推文互动量较低,但已获得一定关注度。AI模型xAIElon Musk新模型文档AI模型推荐理由:xAI的新模型值得AI开发者和研究者关注,建议点开文档看看具体技术细节。原文
09:03lmarena.ai@lmarena_ai72°xAI 的 Grok-Imagine-Video-1.5-Preview 在图像转视频竞技场中排名第一,相比前代 Grok-Imagine-Video 提升了 52 分,超越了 Seedance-2.0 和 HappyHorse 等顶级模型。该模型支持 720p 分辨率输出,标志着 xAI 在视频生成领域的重大突破。这一进展表明 AI 视频生成竞争正加速,xAI 已跻身第一梯队。AI模型xAIGrok视频生成图像转视频模型竞技场推荐理由:做视频生成或关注多模态模型的开发者值得关注——Grok 视频模型首次超越主流竞品,意味着又多了一个高性价比选择,建议去竞技场实测对比效果。原文
05:10rohanpaul_ai@rohanpaul_ai精选72°atomic.chat 在 MacBook Pro M5 Max 64GB 上对比了本地 AI 智能体的工具调用能力。Liquid 的 LFM2.5-8B-A1B 模型(8B 参数,MoE 架构)在规划旅行任务中,成功完成所有 7 次外部工具调用(天气查询、货币转换、邮件和提醒),而 gpt-oss-20b 仅完成 3/7 次。LFM2.5-8B-A1B 运行速度达 266 tok/s,内存占用仅 4.8GB,而 gpt-oss-20b 为 146 tok/s 和 11GB。这表明工具调用本质上是控制问题而非语言问题,更小但训练更聚焦的模型可以胜过更大但泛化的模型。AI模型本地模型工具调用智能体LFM2.5-8B-A1Bgpt-oss-20b1 个信源在谈推荐理由:做本地 AI 智能体或工具调用开发的团队,这个对比直接告诉你:模型大小不是关键,控制能力才是。LFM2.5-8B-A1B 的性价比碾压,值得在本地部署试试。原文
13:34Cohere@cohereCohere 宣布其 Command A+ 模型在机器翻译方面取得新突破,性能显著超越开源对手如 Mistral Medium 3.5、DeepSeek 和 OpenAI 的 gpt-oss,甚至优于专业翻译系统 Google Translate。与 RWS 合作开发的系统表现更佳,但 A+ 已拉开明显差距。这标志着 Cohere 在翻译领域的竞争力大幅提升,尤其对需要高质量翻译的企业用户意义重大。AI模型CohereCommand A+机器翻译模型对比企业级AI8 个信源在谈推荐理由:做多语言内容或翻译服务的团队值得关注——Cohere 的 A+ 模型在翻译质量上已经超过主流开源和专有方案,可以直接用于生产环境,省去自研或调优的麻烦。原文
13:33Cohere@cohere精选Cohere 宣布其 Command A+ 模型在多语言翻译基准测试 WMT24++(xCOMET-XL)中,在所有主要欧洲语言上均超越竞争对手。具体表现为法语提升 2.4 分,西班牙语提升 1.9 分,德语提升 0.9 分。更高的翻译质量意味着更少的修正、更强的检索能力和更可靠的多语言智能体。这一进展对需要高质量多语言支持的团队尤为重要。AI模型CohereCommand A+多语言翻译WMT24++智能体推荐理由:做多语言应用或智能体的团队,翻译质量直接决定产品体验——Command A+ 在法语、西语、德语上全面领先,值得关注。原文
12:00Google AI@GoogleAIGoogle AI发布了一期《Release Notes》播客,邀请了Gemini模型的核心架构师Jeff Dean、Koray Kavukcuoglu、Oriol Vinyals和Noam Shazeer共同出镜。他们分享了从愿景到模型落地的幕后故事,探讨了如何持续推动AI前沿。这期节目为关注大模型研发的从业者提供了难得的第一手视角。AI模型GeminiGoogle AI大模型架构师访谈前沿探索推荐理由:Gemini核心团队首次集体出镜聊幕后,做大模型研发的从业者能从他们的思考中看到前沿方向,值得花时间听一听。原文
08:06Julien Chaumond@julien_cNVIDIA 发布了 DeepSeek-V4-Pro-NVFP4 的修复版本,该模型基于 DeepSeek-V4 架构,采用 NVFP4 精度优化,旨在提升推理效率和性能。修复版解决了之前版本中的一些问题,使模型更加稳定可靠。对于使用 NVIDIA 硬件进行 AI 推理的开发者来说,这是一个值得关注的更新。AI模型DeepSeek-V4NVIDIANVFP4模型修复推理优化5 个信源在谈推荐理由:NVIDIA 官方修复版解决了 DeepSeek-V4 在自家硬件上的精度和稳定性问题,用 NVIDIA GPU 做推理的团队可以直接拉取使用,省去自己调优的麻烦。原文
05:15NVIDIA AI@NVIDIAAINVIDIA AI 宣布,Harvey 与 Trajectory Labs 合作,基于 NVIDIA Nemotron 3 Super 模型进行后训练,专注于复杂法律任务。他们在 Harvey 的 Legal Agent Benchmark(LAB)上测试了 1200+ 端到端法律任务,覆盖 24 个业务领域。初始结果显示,后训练的 Nemotron 3 Super 在性能上可媲美闭源前沿模型。该项目强调开放权重、可审计性和数据主权,支持持续学习(continual learning),使法律智能体能够从反馈中不断改进。这标志着开放模型在专业领域应用的重要突破。AI模型NVIDIANemotron 3 Super法律 AI后训练开放权重5 个信源在谈推荐理由:法律 AI 团队终于有了可审计、可定制的开放模型选择——Nemotron 3 Super 在复杂法律任务上追平闭源模型,做法律科技或合规自动化的开发者可以直接关注这个开源方案。原文
03:36Logan Kilpatrick@OfficialLoganK精选Gemini联合负责人Jeff Dean、Koray Kavukcuoglu、Noam Shazeer和Oriol Vinyals在一场对话中回顾了Gemini的发展历程。他们讨论了Gemini在多模态推理和编程任务上的性能表现。对话还展望了下一步在Agent和工具使用能力上的增强方向。AI模型GeminiGoogle多模态对话推荐理由:Gemini团队亲自聊未来原文
02:21Cohere@cohere精选Cohere 发布 Command A+,在非拉丁语系语言测试中表现突出。在韩语、日语、希伯来语、中文和阿拉伯语上均超越 Mistral Medium 3.5。尤其在阿拉伯语上,Command A+ 比 Mistral Medium 3.5 高 5 个百分点,比 DeepSeek V4 Pro Sovereign AI 高 10 个百分点。AI模型Command A+Mistral Medium 3.5DeepSeek V4 ProCohere多语言模型1 个信源在谈推荐理由:非拉丁语表现更优原文
01:29rohanpaul_ai@rohanpaul_ai83°Kog AI 在 8× AMD MI300X GPU 上实现了 3000 tokens/s 的推理速度,在 8× NVIDIA H200 上达到 2100 tokens/s(FP16,无投机解码)。这一速度比常规低批次解码快 10-30 倍。其核心创新是将 LLM 解码视为内存流问题而非数学问题,通过 monokernel 技术将整个解码过程作为单个持久 GPU 程序运行,消除了内核启动、CPU 调度和中间内存往返的开销。他们还优化了同步机制和内存访问,并设计了 Laneformer 模型使用延迟张量并行技术。目前技术预览基于 2B 模型,但声称可扩展到大型 MoE 模型。AI模型推理优化GPUKog AIAMD MI300XNVIDIA H2005 个信源在谈推荐理由:Kog AI 把 GPU 推理的隐藏效率瓶颈挖出来了,做 LLM 推理优化的开发者可以直接关注他们的技术预览,看看 monokernel 和延迟张量并行能否复现到自己的模型上。原文
01:17berryxia@berryxiaLiquid AI 发布 LFM2.5-8B-A1B 模型,这是一个 8B MoE 模型,但仅需 1.5B 活跃参数即可运行。该模型经过 38T tokens 训练和大规模 RL,支持 128K 上下文,工具调用和多步 Agent 能力接近 4 倍参数模型。单台笔记本即可运行完整本地 Agent 循环,延迟低且全程隐私安全,无需调用 GPT-4o 或 Claude。支持 llama.cpp、MLX、vLLM 等框架,覆盖 Apple、NVIDIA、AMD 硬件,表明本地 Agent 落地比预期更快。AI模型Liquid AILFM2.5-8B-A1BMoE本地Agent工具调用6 个信源在谈推荐理由:本地 Agent 开发者终于不用等大模型了——1.5B 活跃参数就能跑出接近 4 倍参数模型的效果,笔记本就能部署,隐私和延迟都解决了,做本地自动化的建议直接试。原文
00:23AK@_akhaliq精选DynaFLIP 提出一种基于三模态(视觉、触觉、动力学)的表示学习方法,用于提升机器人对物体动态交互的理解。在 RoboTouch 和 DexYCB 等基准上,DynaFLIP 相比单模态基线提升了 15% 的抓取成功率。该方法利用自监督动力学预测任务对齐多模态特征,无需大量标注数据。实验显示,DynaFLIP 在零样本迁移到新物体时泛化性优于现有方法。AI模型DynaFLIP机器人感知多模态表示学习推荐理由:让机器人看懂手-物交互原文
00:08AK@_akhaliq精选minWM是一个全栈开源框架,专门用于构建实时交互式视频世界模型。该框架提供了从模型设计到部署的完整工具链。开发者可以利用minWM创建能够实时响应输入的环境模拟。AI模型minWM世界模型视频生成开源框架推荐理由:开源实时视频世界模型框架原文
23:55AK@_akhaliqOmniRetrieval 是一个新提出的统一检索框架,能够跨结构化数据库、非结构化文本和知识图谱等多种异构知识源进行检索。通过单一模型,它无需为每种数据源单独设计检索器,在多个基准测试中降低了检索延迟约30%。该工作由学术界联合发布,参数规模为7B,已开源模型权重。AI模型OmniRetrieval统一检索异构知识源开源模型推荐理由:跨源检索统一方案原文
23:50AK@_akhaliq精选Qwen-VLA 是一个统一的视觉-语言-动作模型,旨在跨任务、环境和机器人本体进行泛化。该模型通过融合视觉与语言指令,直接输出机器人动作。在多个基准测试中,Qwen-VLA 展示了优于现有方法的性能,尤其是在零样本泛化场景。其架构基于 ViT-L 视觉编码器和 Qwen2.5 语言基座。AI模型Qwen-VLA机器人多模态视觉-语言-动作推荐理由:通才机器人模型来了原文
23:00阶跃星辰 Stepfun@Stepfun_AI精选StepFun 发布了 Step 3.7 Flash 模型,专为智能体工作流优化。该模型旨在提升 AI 代理在复杂任务中的执行效率。NousResearch 的用户将在其 Hermes Agent 平台上率先使用该模型。这一合作将推动智能体技术的发展,为开发者提供更强大的工具。AI模型智能体Step 3.7 FlashNousResearchHermes Agent工作流优化推荐理由:智能体开发者终于有了专门优化工作流的模型——Step 3.7 Flash 直接解决了代理任务执行效率问题,做自动化流程的团队值得关注。原文
22:53rohanpaul_ai@rohanpaul_ai72°一场由顶尖研究者参与的 Transformer 与 Post-Transformer 辩论,以拳击擂台形式呈现,兼具技术深度与娱乐性。Transformer 阵营强调其规模化优势、硬件友好性和当前统治地位,认为替代者需 10 倍更好才能迫使生态切换。Post-Transformer 阵营则指出原生推理、持续学习和真正记忆是当前架构的短板,未来可能是混合架构。辩论持续 1 小时 20 分钟,涵盖从注意力机制到 latent reasoning 的多个关键点。AI模型TransformerPost-Transformer推理模型持续学习架构辩论推荐理由:这场辩论把 AI 架构之争讲得既硬核又好玩,做模型研究或关注下一代架构的开发者看完会有新视角,建议直接看原视频。原文
18:37AI Will@FinanceYF5一条推文指出,旧模型正在被淘汰,新模型的空间已经腾出,暗示GPT-5.6即将到来。该推文获得少量互动,但浏览量达519次,反映出社区对下一代模型的期待。这标志着AI模型迭代加速,旧模型可能面临被快速替代的局面。AI模型GPT-5.6模型迭代旧模型淘汰AI趋势推荐理由:关注模型迭代的开发者可以提前感知GPT-5.6的临近,旧模型被淘汰意味着新机会,值得留意。原文
18:36AI Will@FinanceYF5一位名为 Chubby♨️ 的 X 用户发帖称,旧模型正在被淘汰,为新模型腾出空间,并暗示 GPT-5.6 即将到来。该言论引发了社区对 OpenAI 下一代模型发布的猜测。目前尚无官方确认,但用户基于模型迭代节奏和近期动态做出推断。这一消息若属实,将标志着 AI 模型能力的又一次重大跃升。AI模型GPT-5.6OpenAI模型迭代AI 预测下一代模型5 个信源在谈推荐理由:OpenAI 模型迭代节奏的线索对 AI 从业者和开发者至关重要,GPT-5.6 可能带来推理、多模态等能力的突破,建议关注后续动态。原文
17:57AI SDK@aisdkAnthropic 发布了 Claude Opus 4.8,这是 Opus 4.7 的升级版本。新模型在判断力上更加敏锐,对自身进展的表述更诚实,并且能够比前代更长时间地独立工作。该模型现已可用,价格与 Opus 4.7 相同。AI SDK 已支持集成该模型,开发者可以立即使用。AI模型Claude Opus 4.8推理模型AI SDK自主工作Anthropic10 个信源在谈推荐理由:Claude Opus 4.8 提升了判断力和自主工作能力,做复杂推理和长任务自动化的开发者可以直接用上,价格不变值得升级。原文
14:36阶跃星辰 Stepfun@Stepfun_AI88°阶跃星辰发布了 Step 3.7 Flash 模型,专注于智能体效率,在 ClawEval-1.1、SimpleVQA Search 等基准测试中取得领先成绩。该模型采用 198B 稀疏 MoE 架构,约 11B 活跃参数,支持 400 TPS 推理速度和 256K 上下文,并提供三种推理级别。它擅长理解 UI、图表、文档和图像,并能直接编写代码或调用工具执行操作,在 τ²-bench 上工具调用可靠性超过 98%。模型权重以 Apache 2.0 开源,可在 Mac Studio M4 Max、DGX Spark 等设备本地运行,并兼容 Claude Code、MCP 等生态。AI模型阶跃星辰Step 3.7 Flash智能体开源/仓库推理模型2 个信源在谈推荐理由:做智能体、编程或搜索应用的开发者终于有了一个兼顾速度、成本和可靠性的开源模型——Step 3.7 Flash 在工具调用和视觉理解上表现突出,而且能在本地跑,建议直接试试。原文
14:33阶跃星辰 Stepfun@Stepfun_AI精选Step 3.7 Flash 模型在发布首日即获得 NVIDIA 的全面支持,包括 NIM 推理微服务、NeMo 框架以及 GPU 加速端点。这意味着开发者可以立即在 NVIDIA 的生态系统中部署和运行该模型,无需额外适配。NVIDIA 的首日支持通常意味着模型经过了优化,能充分利用 GPU 硬件性能,降低推理延迟和成本。这对于需要高性能推理的 AI 应用团队来说是一个重要信号,表明 Step 3.7 Flash 已具备企业级部署条件。AI模型Step 3.7 FlashNVIDIANIMNeMoGPU加速5 个信源在谈推荐理由:NVIDIA 首日支持意味着 Step 3.7 Flash 可直接用于生产环境,做推理部署的团队可以省去适配工作,直接使用 NIM 和 NeMo 加速。原文
13:38岚叔@lufzzliz精选本文揭示大模型在生成低频词汇(如冷门人名)时表现不佳,并非小bug,而是底层偏好高频表达所致。作者串联了“马嘉祺”事件、Anthropic tokenizer调整以及FaceMind团队的SLoW和Adam's Law研究,指出频率是大模型数据工程的关键变量。FaceMind早于大众关注低频token退化问题,将其写成论文并落地产品场景。文章还解释了为何prompt并非越多越好,以及高频同义表达更稳定。最后介绍了FaceMind的动态弹幕产品,暗示其可能应用于世界杯等场景。AI模型大模型低频tokenFaceMindSLoW数据工程10 个信源在谈推荐理由:做AI应用或数据工程的团队,这篇把低频token退化讲透了——FaceMind的SLoW方法直接给出了解决方案,值得点开看看怎么从模型规律里建立产品差异。原文
12:15OpenRouter@OpenRouterAI精选76°StepFun 发布了 Step 3.7 Flash 模型,这是一款面向智能体、编码、搜索和多模态工作流的高效模型。该模型采用 198B 稀疏 MoE 架构,仅激活约 11B 参数,支持 256K 上下文和三种推理级别,推理速度达 400 TPS。在 ClawEval-1.1、SimpleVQA Search 和 SWE-PRO 等基准测试中表现领先,并支持视觉理解、工具调用和本地运行。模型权重以 Apache 2.0 开源,可在 Mac Studio、DGX Spark 等设备上运行。AI模型智能体推理模型开源/仓库编程助手多模态推荐理由:Step 3.7 Flash 解决了智能体场景中速度与可靠性的平衡问题,做智能体开发、编码自动化和多模态应用的团队可以直接用开源权重部署,值得一试。原文
12:15OpenRouter@OpenRouterAI精选阶跃星辰的 Step 3.7 Flash 模型已在 OpenRouter 平台上线。该模型是一个多模态(图像/视频/文本)MoE 架构,总参数量达 196B,但推理时仅激活 11B 参数,效率极高。模型针对编程、智能体工作流和结构化输出进行了专门调优,并支持可选的推理级别,用户可根据需求在速度、成本和深度之间灵活权衡。AI模型阶跃星辰Step 3.7 FlashMoE多模态编程助手2 个信源在谈推荐理由:做编程和智能体开发的团队终于有了一个高效的多模态 MoE 选择——196B 参数只激活 11B,成本可控且支持灵活推理级别,建议在 OpenRouter 上直接试。原文
12:07Jerry Liu@jerryjliu0LlamaIndex 对 Opus 4.8 进行了全面的文档理解基准测试,并与 Opus 4.7 对比。结果显示,Opus 4.8 在表格、语义格式和布局方面略有提升,但在图表和内容忠实度方面出现轻微退化。这表明 Opus 4.8 并未针对视觉文档理解进行专门的后训练。完整结果已发布在 ParseBench 上。LlamaIndex 指出,让 LLM 像人类一样阅读文档仍有大量改进空间,而 LlamaParse 仍是 AI 智能体最佳的文档摄取 API。AI模型Opus 4.8文档理解基准测试LlamaIndexParseBench6 个信源在谈推荐理由:做文档解析或 RAG 应用的团队,Opus 4.8 的表格能力提升值得关注,但内容忠实度下降可能影响关键业务,建议先跑一遍 ParseBench 再决定是否升级。原文