17:52marktechpost@Asif Razzaq精选76°微软研究院发布了 Fara1.5 系列浏览器计算机使用智能体,包含 4B、9B 和 27B 三个参数规模。其中 Fara1.5-27B 在 Online-Mind2Web 基准测试上达到 72% 的准确率,超越了 OpenAI Operator、Gemini 2.5 Computer Use 和 Yutori Navigator n1。该系列还配套推出了 FaraGen1.5 合成数据流水线,用于训练智能体执行门控操作。这一进展表明,开源级别的浏览器自动化智能体正在快速追赶并超越闭源竞品。AI模型浏览器智能体微软Fara1.5开源/仓库自动化10 个信源在谈推荐理由:做浏览器自动化或 RPA 的开发者终于有了一个开源且性能领先的选择——Fara1.5 直接对标 OpenAI Operator,27B 模型在关键基准上胜出,值得立即上手测试。原文
17:51marktechpost@Asif Razzaq精选阿里巴巴 Qwen 团队在 2026 年阿里云峰会上推出 Qwen3.7-Max,这是其最先进的智能体模型。该模型拥有 100 万 token 的上下文窗口和扩展思考模式,专为长周期任务设计,包括编程、调试和多步骤工作流自动化。在 Artificial Analysis Intelligence Index 上得分为 56.6,在专有模型中排名第五。AI模型Qwen3.7-Max推理模型智能体百万上下文编程助手推荐理由:百万 token 上下文窗口让长代码库分析和复杂工作流自动化成为可能,做 AI 智能体或编程工具的开发者值得关注,可以直接用于长周期任务。原文
17:50marktechpost@Michal Sutter78°Cohere 发布了 Command A+,一个 218B 参数的稀疏混合专家(MoE)模型,整合了此前四个 Command A 变体。该模型在 W4A4 量化下仅需两张 H100 GPU 即可运行,支持 48 种语言,是 Cohere 首个多模态推理模型,专为智能体工作流设计。其开源特性降低了部署门槛,适合需要高效多模态推理和智能体任务的团队。AI模型CohereCommand A+稀疏 MoE多模态推理智能体工作流推荐理由:Cohere 把 218B 模型压到两张 H100 就能跑,做智能体工作流的团队终于有了高性价比的开源选择——多模态推理和 48 语言支持直接可用,建议试试。原文
16:21@atomic_chat_hq@atomic_chat_hq在游戏开发竞赛中,Deepseek V4 Pro 与 GPT-5.5 被要求制作卡丁车游戏。GPT-5.5 以 0.33 美元成本、25 tok/s 速度生成 10,580 tokens,耗时 7 分钟,最终游戏质量、视觉效果和创意方向明显更优。Deepseek V4 Pro 成本仅 0.07656 美元,便宜 4.3 倍,生成 18,869 tokens(近 2 倍),但游戏在图形、视觉打磨和创意执行上较弱。结论是尽管 Deepseek 定位为强编码模型,在游戏开发测试中仍远落后于 GPT-5.5。AI模型Deepseek V4 ProGPT-5.5游戏开发模型对比成本效率3 个信源在谈推荐理由:想用 AI 做游戏开发的团队,这个对比直接告诉你:省钱不一定省心——Deepseek 便宜但质量差一截,GPT-5.5 贵但成品更靠谱,建议根据预算和品质要求选模型。原文
16:19@atomic_chat_hq@atomic_chat_hq精选72°Atomic Chat 团队通过 Multi-Token Prediction (MTP) 技术,在 2 块 RTX 5090 上对 Qwen 模型实现了最高 2.5 倍的推理加速。其中,Qwen3.6 27B 密集模型从 51 tps 提升至 117 tps(+137%),而 MoE 模型 35B-A3B 从 218 tps 提升至 267 tps(+25%)。MTP 通过一次前向传播验证多个预测 token,显著减少了内存带宽瓶颈,密集模型受益更大。该技术保持零精度损失,仅需额外约 1 GB 显存,且代码已开源。AI模型推理加速MTP/多token预测QwenMoE/密集模型开源/仓库推荐理由:MTP 技术让本地大模型推理速度翻倍,尤其适合在消费级显卡上跑密集模型的开发者——2 块 RTX 5090 就能让 27B 模型达到 117 tps,值得直接试开源代码。原文
16:19@atomic_chat_hq@atomic_chat_hq精选76°在编写自训练俄罗斯方块机器人的真实智能体任务中,Qwen 3.7-Max 以 56% 的改进幅度、仅 1.32 美元的训练成本,全面超越 Claude Opus 4.7(+28%,12.15 美元)和 GPT-5.5(+7%,2.85 美元)。测试中每个模型可读取自身代码、运行基准测试并迭代重写 10 轮。Qwen 3.7-Max 在性能提升和成本效率上均占优,成本仅为 Claude 的 1/9、GPT 的 1/2。这表明 Qwen Max 在长智能体循环任务中具有显著优势。AI模型Qwen 3.7-Max智能体模型对比成本效率自迭代推荐理由:做智能体开发或自动化任务的团队,Qwen 3.7-Max 在成本与性能上碾压对手,值得在类似场景中直接替换测试。原文
15:00IT之家(博客/媒体)精选智元发布新一代二阶段Motion-Between运控基座模型BFM-2,旨在让机器人具备类似“肌肉记忆”的自主运动能力。该模型能在任意状态(静态、预设动作或随机输入)下,让机器人自主进行高稳定性的动作插值和动态任务闭环。演示视频显示,搭载BFM-2的机器人被打倒在地后能快速站起并自我平衡。这为具身智能提供了更可靠的运动底座,提升了机器人在复杂环境中的适应性和鲁棒性。AI模型机器人运动控制基座模型具身智能智元推荐理由:做机器人运动控制的团队终于有了更可靠的基座模型——BFM-2解决了机器人在任意状态下自主恢复和动态平衡的痛点,做具身智能或机器人开发的值得关注。原文
14:42Greg Brockman@gdbDHH 在 X 上发帖称 GPT-5.5 在复杂智能体任务上表现惊人,相比 GPT-5.2 有显著进步,甚至让 Opus 4.7 显得像倒退。他认为这是 OpenAI 的强力回归,体现了模型竞争的激烈程度。该评价来自知名开发者,对关注 AI 模型迭代和智能体能力的读者有参考价值。AI模型GPT-5.5智能体模型评测OpenAIDHH10 个信源在谈推荐理由:DHH 作为 Ruby on Rails 创始人,他的实战评测对做复杂智能体开发的团队很有参考价值——GPT-5.5 的进步值得亲自试一下。原文
10:42IT之家(博客/媒体)78°微软研究院推出 Fara1.5 系列浏览器 AI 智能体模型,包含 4B、9B 和 27B 三个参数版本。该模型通过读取浏览器截图并输出鼠标键盘操作来完成网页任务,采用“观察—思考—行动”循环。在 Online-Mind2Web 基准测试中,Fara1.5-27B 以 72% 的任务成功率超越 OpenAI Operator(58.3%)和 Gemini 2.5 Computer Use(57.3%)。模型基于 Qwen3.5 微调,使用约 200 万条样本训练,并在安全方面设计了主动询问机制。配套的 MagenticLite 沙盒浏览器提供了安全边界。AI模型微软Fara1.5浏览器智能体Qwen3.5任务成功率10 个信源在谈推荐理由:做浏览器自动化或网页智能体的开发者终于有了一个开源可用的强基线——Fara1.5 在多项基准上碾压 OpenAI Operator,且附带安全机制,建议直接下载试试。原文
09:53Hugging Face: Blog(博客/媒体)精选NVIDIA 发布了 Nemotron-Labs 扩散语言模型,该模型采用扩散机制替代传统的自回归生成方式,大幅提升文本生成速度,接近光速。与 GPT-4 等模型相比,Nemotron-Labs 在保持生成质量的同时,推理速度提升了一个数量级。该模型在多个基准测试中表现出色,尤其适合需要低延迟的实时应用场景。这一突破可能改变大语言模型的部署范式,让文本生成更接近实时交互。AI模型扩散模型文本生成NVIDIA推理加速Nemotron-Labs2 个信源在谈推荐理由:NVIDIA 的扩散语言模型将文本生成速度推向新高度,做实时对话或低延迟应用的开发者可以直接关注,它可能改变你对大模型推理速度的认知。原文
09:26rohanpaul_ai@rohanpaul_ai72°DeepMind 创始人 Demis Hassabis 指出当前 AI 的局限:语言可以描述世界,但无法包含世界。语言模型从文本中意外学到了大量现实结构,但文本只是经验的压缩残渣,而非经验本身。世界由需要亲身经历、触摸、预测、违反和修复的约束构成,而非仅由可命名的事实组成。Hassabis 认为世界模型旨在学习物理现实的隐藏语法——物体如何持续、力如何展开、空间如何变化、行动如何产生反馈。他强调,智能不仅是回答得好,更是知道如果你移动、伸手、推、闻、滑倒或失败,接下来会发生什么。AI模型世界模型语言模型Demis HassabisDeepMindAGI推荐理由:Hassabis 点出了当前大语言模型的核心天花板——文本无法替代真实体验,做 AI 研究或关注 AGI 路径的人值得细读,看完会对世界模型的价值有更深理解。原文
05:18NVIDIA AI@NVIDIAAI72°NVIDIA Research 推出 LongLive-2.0,一个端到端的 NVFP4 训练与推理系统,专门解决长视频生成问题。该系统将 NVFP4 感知训练、蒸馏和 W4A4 推理对齐,弥补了低精度部署中训练与运行之间的差距。在保持基准质量的同时,显著提升了速度和内存效率。这标志着长视频生成从模型问题转向系统问题,为实际部署提供了更高效的方案。AI模型NVIDIA长视频生成NVFP4训练推理系统低精度部署2 个信源在谈推荐理由:长视频生成一直受限于计算和内存瓶颈,NVIDIA 这次从系统层面给出了端到端方案。做视频生成模型训练或部署的团队,可以直接参考这套 NVFP4 对齐方法,提升效率。原文
04:21NVIDIA AI@NVIDIAAI精选NVIDIA 推出 LongLive-2.0,支持生成 720p 分辨率的长视频。该模型在多镜头序列中保持主体和背景一致性,并能在视频分块边界处切换提示词。相比前代,LongLive-2.0 在长视频连贯性和用户控制性上有所提升。AI模型LongLive-2.0NVIDIA视频生成长视频2 个信源在谈推荐理由:NVIDIA 新模型能生成长视频还保持一致性原文
03:38Anthropic@AnthropicAI精选Anthropic 在 Project Glasswing 的初始更新中报告,Claude Mythos Preview 模型能够发现大量软件漏洞。该模型的能力可能对软件行业的安全流程产生显著影响。Anthropic 提示行业需适应这种新型漏洞发现方式的规模。AI模型Claude Mythos PreviewAnthropicProject GlasswingAI安全软件漏洞10 个信源在谈推荐理由:Anthropic 展示了 Claude 发现漏洞的新能力原文
02:16Logan Kilpatrick@OfficialLoganK精选Gemini 3.5 Flash 在 Roboflow 视觉评估中多项指标超越 3.1 Pro。其平均推理速度快约6倍,大幅降低延迟。该模型在多模态理解上展示出更强能力,尤其适合视觉密集型任务。AI模型Gemini 3.5 FlashGemini 3.1 ProGoogle多模态视觉理解推荐理由:谷歌新 Flash 视觉又快又准原文
23:03rohanpaul_ai@rohanpaul_ai精选76°由 ModelBest、清华大学和 OpenBMB 社区联合开发的 BitCPM-CANN 成为全球首个完全基于中文 AI 基础设施(华为昇腾 910B NPU)训练的开源 1.58-bit 三元大语言模型。该模型采用三元权重(仅三种状态),大幅降低部署内存需求,适合手机、PC、汽车等本地设备。其训练系统在昇腾 910B 上实现了量化感知训练(QAT)、直通估计器(STE)等全套流程,并开源了可复现的训练脚本。这一成果展示了在硬件成本上升背景下,模型能否在真实约束下训练、复现、部署和优化比单纯追求榜单分数更重要。AI模型三元模型1.58-bit华为昇腾开源/仓库低资源部署推荐理由:对于关注国产 AI 基础设施和低资源部署的开发者,BitCPM-CANN 展示了在昇腾 NPU 上训练三元模型的完整路径,可以直接参考其开源训练脚本做本地化部署或模型优化。原文
22:38Paul Couvert@itsPaulAi精选76°Qwen-3.7-max 在真实智能体任务(编写自训练俄罗斯方块机器人)中,以 1.32 美元成本实现 56% 的改进,远超 Claude Opus 4.7(12.15 美元,28% 改进)和 GPT-5.5(2.85 美元,7% 改进)。该模型在长智能体循环中表现突出,成本仅为 Opus 4.7 的 1/9、GPT-5.5 的 1/2。这一结果出乎意料,展示了开源模型在复杂自主任务上的潜力。AI模型Qwen-3.7-max智能体成本对比开源模型GPT-5.5推荐理由:做智能体开发或自动化任务的团队,可以拿 Qwen-3.7-max 替代高价闭源模型,成本直降 9 倍效果反而更好,值得立刻跑个 benchmark 验证。原文
22:26阿里通义 Qwen@Alibaba_Qwen83°atomic.chat 团队测试了三个前沿模型在真实智能体任务中的表现:编写一个能自我训练并玩俄罗斯方块的机器人。每个模型可以读取自己的代码、运行基准测试并在10次迭代中自我重写。最终 Qwen 3.7-Max 以训练成本仅1.32美元、机器人性能提升56%的成绩全面领先,而 Claude Opus 4.7 成本12.15美元提升28%,GPT-5.5 成本2.85美元提升仅7%。Qwen 在成本效益和性能提升上均胜出,尤其在长智能体循环场景中表现出色。AI模型Qwen 3.7-Max智能体Claude Opus 4.7GPT-5.5成本对比推荐理由:Qwen 3.7-Max 在智能体任务中成本仅为 Claude 的1/9、GPT 的1/2,性能提升却翻倍,做 AI 智能体开发的团队值得关注这个性价比之选。原文
22:25阿里通义 Qwen@Alibaba_Qwen76°阿里通义千问团队发布旗舰模型Qwen3.7-Max,已在OpenRouter平台上线。该模型是Qwen3.7系列的最强版本,专为智能体场景设计,涵盖编程、办公和生产力任务,以及长周期自主执行。相比Qwen3.6,在编程和智能体基准测试上有大幅提升,并支持显式提示缓存以处理重复上下文。这标志着阿里在智能体AI领域的重要进展。AI模型Qwen3.7-Max阿里通义千问智能体编程助手OpenRouter推荐理由:做智能体开发或自动化任务的团队,可以直接在OpenRouter上试用Qwen3.7-Max,编程和长任务执行能力提升明显,值得关注。原文
22:16Gary Marcus@GaryMarcusGaryMarcus 在 X 上转发了一条消息,称标准 GPT-5.5 已经成功复现了某个数学证明,并质疑这是否意味着所谓的“阶跃变化”只是问题本身更简单。该推文引用了 ChatGPT 的分享链接,显示模型在推理任务上的表现。这一讨论反映了 AI 社区对模型能力提升本质的持续争论:是模型真的变强了,还是任务难度被高估了。AI模型GPT-5.5推理模型阶跃变化AI 能力评估数学证明推荐理由:AI 研究者和大模型用户值得关注——GPT-5.5 的推理表现引发了对“阶跃变化”定义的反思,看完会重新审视模型能力的评估标准。原文
22:11Gary Marcus@GaryMarcusAI 研究者 Gary Marcus 在 X 上公开承认此前对 OpenAI 新模型 Erdos 的批评有误。他根据新信息表示,即使 OpenAI 在 Erdos 上使用了新模型,但 GPT-5.5 也能实现类似效果,Ethan Mollick 的估算基本适用。这一反转表明,当前 GPT 系列的能力可能被低估,且新模型与现有模型的差距可能没有想象中大。对于关注 AI 模型进展和评估的研究者与开发者,这是一个值得注意的修正。AI模型GPT-5.5ErdosGary Marcus模型评估AI 研究10 个信源在谈推荐理由:Gary Marcus 公开认错,说明 AI 模型评估比想象中复杂——做模型对比的团队值得关注这个反转,避免自己踩坑。原文
19:05岚叔@lufzzliz83°阿里通义千问发布 Qwen3.7-Max,在第三方 Arena 全球大模型盲测总榜中超越 Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1,位列国产第一,与 GPT、Claude、Gemini 最强模型接近。在编程智能体方面,SWE-Pro、SWE-Multilingual 等测评领先,Terminal Bench 2.0 得分 69.7。通用智能体能力显著提升,在 MCP-Atlas、MCP-Mark 等现实测试中创国产新高。新增 preserve_thinking 参数,保留前序思维内容以增强 Agent 决策一致性,减少重复推理 Token 消耗,默认关闭。实测在 Claude Code 下跨框架泛化能力不错,但需要更精准的提示词和多轮迭代。AI模型Qwen3.7-Max国产模型编程智能体AgentMCP/工具2 个信源在谈推荐理由:Qwen3.7-Max 在多项基准上追平国际顶尖模型,做 Agent 和编程自动化的开发者可以直接拿来替代闭源方案,尤其是 preserve_thinking 参数对长周期任务很有用,值得一试。原文
17:49IT之家(博客/媒体)精选网易有道宣布将“子曰”大模型 4.0 的核心双引擎——多模态模型(27B 参数)和语音合成(TTS)模型面向全球全量开源。多模态模型在视觉数理问题上达到行业顶尖水平,纯文本中文数理难题准确率达 81.4%,并通过思维链重构将输出长度压缩 43.2%,降低推理成本。TTS 模型支持跨语种音色情感迁移克隆,3 秒内完成零样本原声复制,准确度超 97%,覆盖 14 种语言。开发者可免费下载、部署并二次开发,适合教育场景和语音应用。AI模型开源/仓库多模态模型语音合成教育场景网易有道推荐理由:教育场景的开发者终于有了可商用的开源多模态模型——27B 参数在数理问题上达到 SOTA,且推理成本更低;TTS 模型 3 秒克隆音色并跨语种带情感,做语音助手或教育产品的团队可以直接下载试试。原文
16:09pandaily@contact@pandaily.com (Pandaily)精选HiDream AI 推出了其原生统一多模态模型 HiDream-O1-Image-Pro,该模型拥有超过 2000 亿参数,能够处理图像、文本等多种模态信息。同时,公司宣布完成新一轮亿元级融资,资金将用于模型研发和商业化落地。这一进展标志着多模态大模型在参数规模和统一架构上迈出了重要一步,有望推动更复杂的跨模态应用场景。AI模型多模态模型HiDream AIHiDream-O1-Image-Pro参数规模融资推荐理由:200B+ 参数的统一多模态模型意味着更强的跨模态理解和生成能力,做多模态 AI 应用或研究的团队值得关注其技术细节和后续开源动态。原文
16:08pandaily@contact@pandaily.com (Pandaily)76°字节跳动开源了Lance,一个仅3B激活参数的原生统一多模态AI模型。Lance能在一个系统中同时处理图像理解、图像生成和视频任务,无需多个模型拼接。该模型采用原生多模态架构,而非传统的视觉编码器+语言模型组合,实现了更高效的跨模态交互。Lance的开源发布为多模态AI研究提供了轻量级基线,尤其适合资源受限场景下的部署。AI模型多模态模型开源/仓库字节跳动Lance轻量级模型推荐理由:Lance用3B参数实现了图像理解+生成+视频的统一处理,做多模态应用或边缘部署的团队可以直接拿来用,省去多模型集成的麻烦。原文
15:16小互@imxiaohu精选网易有道今日开源 Confucius4 双模型,分别专注于数学视觉推理和语音克隆任务。不同于其他公司追求参数规模,有道更注重工程精度和落地成本。开源直接提供完整权重,而非仅开放 API,降低了开发者使用门槛。数学视觉推理模型可处理几何、图表等复杂视觉数学问题,语音克隆模型则能实现高保真声音复制。此举有望推动多模态和语音技术在教育和内容创作领域的实际应用。AI模型开源/仓库多模态语音克隆数学推理Confucius4推荐理由:做教育 AI 或语音应用的开发者可以直接拿到完整权重,省去从零训练的成本,建议试试这两个模型的实际效果。原文
14:56Cohere@cohere精选Cohere 发布了新模型 Command A+,该模型针对 NVIDIA Blackwell 架构进行了优化,并使用了 NVIDIA CUDA-X 库进行训练。NVIDIA AI 基础设施团队公开祝贺,强调了双方在 AI 基础设施上的紧密合作。这一合作意味着 Command A+ 将充分利用 NVIDIA 最新硬件的性能,为企业和开发者提供更高效的 AI 推理能力。AI模型CohereCommand A+NVIDIA BlackwellAI 基础设施模型优化推荐理由:Cohere 与 NVIDIA 的深度合作让 Command A+ 在 Blackwell 上跑出最佳性能,做企业级 AI 部署的团队值得关注这个新选择。原文
14:37IT之家(博客/媒体)76°美团技术团队正式开源了数字人视频生成模型 LongCat-Video-Avatar 1.5,该版本在唇形同步、物理合理性、长视频稳定性、多人互动及推理效率方面全面升级。模型采用 DMD 蒸馏技术,将生成步数从 50 步压缩至 8 步,推理效率提升约 15 倍,生成 10 秒视频仅需约 1 分钟。在用户偏好对比中,该模型相比 Kling Avatar 2.0 胜率为 65.9%,相比 OmniHuman-1.5 胜率为 61.1%,相比 HeyGen 胜率为 54.3%。美团表示,数字人视频生成正从展示效果走向真实使用,希望开源能成为可验证、可改进、可共建的技术基座。AI模型数字人视频生成开源/仓库美团LongCat-Video-Avatar推荐理由:数字人视频生成终于从演示走向了可商用——10 秒视频 1 分钟生成,效率提升 15 倍,做虚拟主播、在线教育、客服视频的团队可以直接拿来用,省去大量渲染时间。原文
14:00OpenRouter@OpenRouterAI精选DeepSeek V4 Flash 在 OpenRouter 每周排行榜中登顶,获得 1196 次浏览和 38 个点赞。该模型是 DeepSeek V4 的轻量版本,表现出色。OpenRouter 排行榜基于用户使用量和反馈,V4 Flash 的领先显示了其在开发者中的受欢迎程度。AI模型DeepSeek V4 FlashDeepSeekOpenRouter推理模型推荐理由:DeepSeek新模型登顶社区排行榜原文
13:58IT之家(博客/媒体)精选83°字节跳动开源了名为Lance的多模态AI模型,激活参数量仅3B,却能原生统一处理图像理解、视频理解、图像生成、视频生成和跨模态编辑等任务。与常见将理解与生成拆分为多个模块的方案不同,Lance从训练起就采用共享上下文与能力解耦的双流专家架构,兼顾高层语义特征与低层连续表示。在多项基准测试中,Lance在图像生成、视频生成、图像编辑和视频理解上均取得领先成绩,例如GenEval总分0.90、VBench总分85.11。模型采用Apache 2.0许可开源,权重已在Hugging Face提供,推理需至少40GB显存。AI模型多模态模型开源/仓库字节跳动Lance统一模型推荐理由:Lance用3B参数实现了多模态理解与生成的统一,解决了传统方案模块拼接效率低、能力割裂的问题。做多模态AI研究或应用开发的团队可以直接下载权重试试,尤其适合资源有限但想探索统一模型的场景。原文
13:55Cohere@cohere精选Cohere 发布了其最强开源大模型 Command A+,并已在 Hugging Face 上提供 W4A4 量化版本。该量化技术能在几乎不损失性能的情况下大幅降低模型部署的硬件需求,显著减少服务占用空间。开发者可以直接下载使用,适合资源受限的部署场景。AI模型CohereCommand A+W4A4量化开源/仓库模型部署推荐理由:Cohere 把最强模型做到 W4A4 量化还开源了,做推理部署的团队可以直接拿来降成本,值得一试。原文
13:25Logan Kilpatrick@OfficialLoganK88°Google 的 Gemini 3.5 Flash 模型在 GDPval 基准测试中相比 3.1 Pro 取得了显著进步,性能已接近前沿水平。这表明后训练(post-training)技术仍在持续提升模型能力。该消息由开发者 Logan Kilpatrick 在 X 上分享,引发社区关注。Gemini 3.5 Flash 作为轻量级模型,其竞争力提升对开发者选择高效模型具有参考价值。AI模型Gemini 3.5 FlashGDPval后训练基准测试模型进步推荐理由:轻量模型逼近前沿,做推理或成本敏感应用的开发者值得关注——Flash 系列可能成为性价比新选择。原文
10:45arXiv: DeepSeek@Mao Zheng, Zheng Li, Tao Chen, Bo Lv, Mingrui Sun, Mingyang Song, Jinlong Song, Hong Huang, Decheng Wu, Hai Wang, Yifan Song, Yanfeng Chen, Guanwei Zhang, Guanghua Yu, Yi Su, Hong Liu, Jinxiang Ou, Keyao Wang, Weile Chen, Haozhao Kuang, Kai Wang, Nuo Chen, Zihao Zheng, Chenhao Wang, Bin Xing, Chengcheng Xu, Tinghao Yu, Binghong Wu, Long Xu, Jiacheng Shi, Yunhao Wang, Baifang Chen, Lei Zhang, Qi Yang, Zhao Wu, Jiacheng Li, Lan Jiang, Lanrui Wang, Kai Zhang, Shuaipeng Li, Zhongzhi Chen, Weixuan Sun, Jiaqi Zhu, An Wang, Wei Li, Jun Xia, Weidong Han, Wutian Yang, Litong Hui, Luoguo Jia, Jiajia Wu, Xinpeng Zhou, Tianxiang Fei精选Hy-MT2 是一系列面向复杂真实场景的快速多语言翻译模型,包含 1.8B、7B 和 30B-A3B(MoE)三个尺寸,支持 33 种语言间的翻译。通过 AngelSlim 1.25-bit 极端量化,1.8B 模型仅需 440MB 存储,推理速度提升 1.5 倍,适合端侧部署。在通用、商业、领域和指令跟随翻译任务中,7B 和 30B 模型在快速思考模式下超越 DeepSeek-V4-Pro 和 Kimi K2.6 等开源模型,1.8B 模型整体也优于微软和豆包等主流商业 API。该工作为多语言翻译提供了高效且强大的新选择。AI模型多语言翻译Hy-MT2端侧部署量化开源模型1 个信源在谈推荐理由:做多语言翻译或端侧部署的团队终于有了一个又快又准的选择——1.8B 量化后 440MB 就能跑,性能还超过微软豆包 API,值得直接上手试。原文
10:27Geek@geekbb精选腾讯发布Hy-MT2翻译模型,参数量1.8B。该模型在配置较低的Mac mini上实测翻译效果不错,表明小参数模型可胜任设备端翻译任务。Hy-MT2已在Hugging Face平台开放下载。AI模型Hy-MT2腾讯翻译模型开源模型推荐理由:丐版Mac mini也能跑翻译原文
10:08IT之家(博客/媒体)83°智谱今日面向部分企业客户推出 GLM-5.1 高速版 API,输出速度达到 400 tokens/s,刷新全球大模型 API 速度上限。该模型首次在国产大模型中实现旗舰级能力与低延迟的结合,打破了高速模型通常为轻量级模型的行业惯例。GLM-5.1 高速版由智谱 GLM 团队与 TileRT 团队联合打造,在推理引擎、调度系统和基础设施三个层面进行系统级优化,确保 400 TPS 是稳定可用的生产级能力。该模型适用于 AI 编程、实时交互、商业决策、实时语音等对响应延迟要求高的场景,现已面向部分企业客户开放服务。AI模型智谱GLM-5.1高速推理API国产大模型推荐理由:智谱把旗舰模型的推理速度拉到 400 tokens/s,做实时交互、AI 编程的团队可以直接用,延迟敏感场景终于有了国产高性能选项,建议点开看技术细节。原文
09:37Together AI@togethercompute83°阿里巴巴推出Qwen3.7-Max旗舰模型,专为智能体时代设计,支持100万token上下文窗口。该模型在智能体编程、推理和长周期自主任务上表现领先。现在可通过Together Serverless Inference平台用于生产级智能体工作流。这标志着大模型从对话助手向自主智能体核心引擎的转变。AI模型Qwen3.7-Max智能体长上下文推理模型阿里推荐理由:做智能体应用的开发者终于有了一个原生支持长上下文和自主决策的旗舰模型,1M上下文窗口直接解决复杂任务中的记忆瓶颈,建议在Together上试试生产级部署。原文
09:28IT之家(博客/媒体)83°加州大学圣地亚哥分校的研究首次提供实证,证明现代 AI 能通过经典图灵测试。在实验中,GPT-4.5 有 73% 被裁判判定为人类,频率甚至高于真实人类。LLaMa-3.1-405B 也有 56% 被判定为人类,与真人无显著差异。研究强调,模型通过模仿人类的语气、幽默和易错性而非展示知识来获胜,但需要精心设计的提示词才能伪装成功。该发现对网络信任构成挑战,提示人们应降低对线上陌生人身份的确定性。AI模型GPT-4.5图灵测试LLaMa-3.1AI 安全大语言模型推荐理由:这项研究首次用实证数据证明 AI 能通过图灵测试,对关注 AI 社会影响和网络安全的人意义重大——做 AI 伦理或在线身份验证的团队值得仔细看,它会让你重新思考“像人”意味着什么。原文
08:06OpenRouter@OpenRouterAI88°阿里 Qwen 团队发布 Qwen3.7-Max 旗舰模型,专为智能体时代设计。该模型在编码、办公助手和长周期自主任务上表现出色,支持 MCP 集成和多智能体编排。在长达 35 小时的连续内核优化任务中,模型自主完成超过 1000 次工具调用,无需人工干预。模型兼容多种智能体框架,包括 Claude Code、OpenClaw 和 Qwen Code,已在阿里云 Model Studio 上线。AI模型Qwen3.7-Max智能体编码助手MCP/工具阿里云9 个信源在谈推荐理由:Qwen3.7-Max 解决了智能体在长周期任务中自主性不足的痛点,做编码自动化或办公流程的团队可以直接在阿里云上试用,体验零干预的复杂任务执行。原文
08:05berryxia@berryxiaYoLo作为传统目标检测模型,在AI浪潮推动下迭代速度和优化支持不断提升。最新应用案例显示,YoLo被用于交通信号灯智能辅助系统,通过识别红绿灯状态和等待时间来优化交通管理。这一进展展示了传统模型在AI时代焕发新活力,为智能交通系统提供了更高效的解决方案。AI模型YoLo目标检测智能交通模型迭代视觉识别推荐理由:YoLo在AI时代持续进化,做交通或视觉应用的开发者可以关注其最新优化,直接用于智能辅助系统开发。原文
08:05lmarena.ai@lmarena_aiHiDream AI 推出的 HiDream-01-Image 模型在 Text-to-Image Arena 中综合排名第27,成为排名第4的开源文生图模型。该模型在开源社区中表现出色,超越了多数同类开源模型,展示了 HiDream AI 在图像生成领域的实力。这一成绩意味着开发者可以免费使用接近闭源顶尖水平的文生图能力。AI模型文生图开源模型HiDream-01-ImageHiDream_AI模型排名推荐理由:开源文生图模型又添猛将,HiDream-01-Image 排名第4,做图像生成应用的团队可以直接拿来用,性价比很高。原文