00:13Google Gemini App@GeminiApp精选Gemini 3.5 Flash 能处理复杂视觉数据并转化为可运行的交互代码。它可分析参考图像的照明条件,构建一个交互式3D可视化器来预览光照设置。该模型演示了从视觉输入到功能性代码的端到端能力。AI模型Gemini 3.5 Flash代码生成3D可视化Google推荐理由:看Gemini 3.5 Flash从图生成3D代码原文
00:09AK@_akhaliq精选SpatialWorld 是针对多模态 AI 智能体在真实世界任务中交互式空间推理能力的新基准。该基准涵盖物体操作、路径规划等空间认知场景。测试结果将揭示现有模型在空间理解与动态交互上的局限性。AI模型SpatialWorld多模态空间推理智能体benchmark1 个信源在谈推荐理由:新基准测试AI空间推理原文
23:23Google AI Developers@googleaidevs精选Gemini 3.5 Live Translate 是谷歌最新的音频模型,支持 70+ 语言的低延迟实时语音翻译。它通过流式处理语音,实现近实时的翻译输出,并具备多语言输入、自动语言检测、原生音频处理(保留语调、节奏和音高)以及噪声鲁棒性(在嘈杂环境中过滤背景噪音)等特点。开发者可利用该模型构建更自然的语音交互应用。AI模型Gemini 3.5 Live TranslateGoogle语音翻译多语言低延迟推荐理由:谷歌新模型,能实时翻译70+语言原文
23:18Google DeepMind@GoogleDeepMind精选Google DeepMind 推出了 Gemini 3.5 Live Translate,一个专为快速跨语言交流设计的音频模型。该模型支持实时翻译,覆盖包括英语、西班牙语和中文在内的多种语言。在测试中,Gemini 3.5 Live Translate 在语音翻译基准上相比前代 Gemini 3.0 提升了 20% 的准确率。它能够无缝处理对话中的语言切换,延迟低于 200 毫秒。AI模型Gemini 3.5 Live TranslateGoogle DeepMind音频模型跨语言翻译推荐理由:谷歌出了个超快语音翻译模型原文
22:19Hunyuan@TXhunyuan72°腾讯混元团队推出UniRL,一个面向统一多模态模型的强化学习基础设施。该框架支持扩散模型、流匹配模型、大语言模型(LLM)和视觉语言模型(VLM)的强化学习训练,并同时发布两个新算法:DRPO和Flow-DPPO。UniRL旨在用一个强化学习循环覆盖多种模型类型,简化多模态模型的训练流程。代码已在GitHub开源,为多模态AI研究提供了新的基础设施选择。AI模型强化学习多模态模型开源/仓库腾讯混元UniRL推荐理由:多模态模型训练一直面临框架碎片化问题,UniRL用一个RL循环统一了扩散、LLM和VLM,做多模态研究的团队可以直接用开源代码降低实验成本。原文
20:09Viking@vikingmute小米发布了 MiMo-V2.5-Pro-UltraSpeed 模型,拥有 1T 参数,生成速度达到 1000 TPS。官方演示视频显示速度极快,引发关注。目前该模型开放试用申请,但用户对其实际质量存疑,因为小米此前在 AI 模型领域知名度不高。该模型在 HackerNews 上引起讨论,速度指标令人印象深刻,但最终效果仍需实测验证。AI模型小米MiMo大模型推理速度TPS1 个信源在谈推荐理由:1T 参数模型跑出 1000 TPS 的生成速度,对追求低延迟推理的开发者来说是个值得关注的指标,建议申请试用实测质量。原文
18:42小互@imxiaohu72°据小道消息,Anthropic 计划于今晚发布其最强 AI 模型 Mythos。该消息来自社交媒体,引发广泛关注。Mythos 可能代表 Anthropic 在 AI 能力上的重大突破,具体细节待官方确认。若属实,这将是 AI 领域的重要事件,值得密切关注。AI模型AnthropicMythosAI模型发布前沿10 个信源在谈推荐理由:Anthropic 的新模型可能刷新 AI 能力上限,关注前沿模型的开发者和研究者建议今晚蹲守官方动态。原文
17:09歸藏(guizang.ai)@op741878°MiMo 推出 V2.5 Pro UltraSpeed 模型,实现每秒输出超过 1000 Token,成为全球首个达到此速度的万亿参数模型。实测中,复杂 3D 游戏生成峰值达 1426 Token/s,32 秒输出 25624 Token。该模型在保持高推理速度的同时,未出现能力下降,适合 Agent 和并发场景。藏师傅的测试显示,其首次响应时间低至 0.83 秒,代码生成质量高。目前面向 To B 客户,成本有待优化。AI模型MiMo超高速模型万亿参数推理模型Agent场景推荐理由:万亿参数模型跑出 1000+ Token/s 的速度,做 Agent 和实时交互的开发者可以直接体验,效率提升肉眼可见。原文
16:33Pandaily@contact@pandaily.com (Pandaily)UniSound 发布了其通用基础模型 U2,该模型以效率优先为特色,在保持竞争力的同时将 token 消耗降低了 25%。U2 的推出标志着 UniSound 正式进入中国大模型的第一梯队。该模型通过优化架构和训练策略,实现了更低的推理成本,对于需要大规模部署 LLM 的企业来说是一个重要进展。U2 的发布也反映了中国大模型领域从单纯追求参数规模转向注重实际应用效率的趋势。AI模型UniSoundU2大模型效率优化token 节省推荐理由:U2 的 25% token 节省直接降低了企业调用大模型的成本,做 AI 应用开发和模型部署的团队值得关注这个效率标杆。原文
16:23PolymarketMoney@PolymarketMoney72°据 Polymarket 报道,Anthropic 将于明天发布其新 AI 模型“Mythos”。该消息来自社交媒体平台 X 上的爆料,目前尚未得到 Anthropic 官方确认。Mythos 可能延续 Anthropic 在安全性和推理能力上的优势,或将对标 GPT-5 等前沿模型。若消息属实,这将是 AI 领域近期最受瞩目的发布之一。AI模型AnthropicMythos模型发布AI 前沿推理模型10 个信源在谈推荐理由:Anthropic 新模型 Mythos 即将发布,关注前沿 AI 动态的开发者可以提前了解,明天值得蹲守。原文
15:00IT之家(博客/媒体)88°小米 MiMo 与 TileRT 联合发布 MiMo-V2.5-Pro-UltraSpeed 模式,首次在 1 万亿参数模型上实现超过 1000 tokens/s 的输出速度。该模式 API 已上线,定价为原版的 3 倍,但输出速度提升约 10 倍。由于高速推理资源有限,该模式采取申请制限时开放,申请通过的用户可在 2026 年 6 月 9 日至 6 月 23 日期间免费体验 Chat 功能,每日最多 10 次会话,每次最长 30 分钟。这一突破标志着万亿参数模型在实时推理场景中的实用化迈出关键一步。AI模型万亿参数模型推理速度MiMoTileRTAPI推荐理由:万亿参数模型首次达到千 tokens/s 输出,做大规模推理或实时 AI 应用的团队可以直接申请体验,看看能否真正落地到生产环境。原文
10:03shao__meng@shao__meng精选76°Cognition 发布 FrontierCode 评估基准,旨在衡量 AI 模型生成代码的“可合并性”,而非仅通过单元测试。该基准包含 150 个来自 36 个旗舰开源仓库的任务,由 20 多位维护者参与,每个任务耗时 40 小时以上。评估沿六个维度(行为正确性、回归安全、机械整洁、测试质量、Scope 纪律、代码质量)打分,并设置 blocker 和 non-blocker 标准。结果中 Claude Opus 4.8 在 Diamond 子集得分 13.4%,GPT-5.5 为 6.3%,Kimi K2.6 仅 3.8%,显示前沿模型仍有巨大提升空间。AI模型CognitionFrontierCode代码评估可合并性Claude Opus 4.83 个信源在谈推荐理由:FrontierCode 把 AI 编程评估从“能跑就行”升级到“能合并”,做代码质量评估或 AI 编程工具的团队可以直接参考这套标准,看看自己的模型在真实维护者眼中能拿几分。原文
08:46Gary Marcus@GaryMarcus83°Gary Marcus 发推指出 METR 的编码基准已饱和,但 Cognition 随即推出更难的 FrontierCode 评测,最高分仅 13.4%。该评测由顶级开源维护者花费 40+ 小时设计,首次衡量代码是否可合并维护,而非仅功能正确。这揭示了当前模型在编写可维护代码方面的严重不足,为 AI 编程能力评估设立了新标准。AI模型编码基准FrontierCodeClaude Opus 4.8代码可维护性AI 评估3 个信源在谈推荐理由:做 AI 编程评估或关注模型实际能力的开发者,这个新基准直接戳中了当前模型的软肋——代码能跑但不可维护,值得看看你的模型能拿几分。原文
08:05NVIDIA AI@NVIDIAAI精选72°NVIDIA 在 Blackwell 平台上使用 NVFP4 精度训练了 Llama 3 8B 和 405B 模型。实验结果显示,相比 FP8 精度,NVFP4 实现了 1.31 到 1.73 倍的训练速度提升,且未出现任何精度损失。这一突破意味着大模型训练可以在更短的时间内完成,同时保持模型质量。对于需要大规模训练 AI 模型的团队来说,这能显著降低计算成本和等待时间。AI模型NVIDIABlackwellNVFP4Llama 3训练加速4 个信源在谈推荐理由:训练速度提升 1.3-1.7 倍且零精度损失,做大规模模型训练的团队可以直接在 Blackwell 上尝试 NVFP4,省时省成本。原文
05:03lmarena.ai@lmarena_ai精选xAI 的 Grok Build 0.1 和 Grok 4.3 (High) 在最新的 Agent Arena 排行榜中分别位列第15和第17名。Grok Build 0.1 在 bash 能力上有明显提升,但可操控性稍差且更容易出现工具幻觉,不过整体任务完成率更高。Agent Arena 使用因果追踪方法对模型在真实世界智能体任务中的表现进行排名。该排行榜基于全球用户社区提交的真实任务,从5个信号维度评估模型表现。AI模型智能体GrokxAIAgent Arena模型排名推荐理由:xAI 的模型在 Agent Arena 中取得不错排名,做智能体开发和自动化任务的团队可以看看 Grok Build 0.1 在 bash 能力上的改进,值得关注其实际任务完成率提升。原文
05:01a16z@a16z精选World Labs CEO 李飞飞在 Bloomberg Tech Live 上指出“世界模型”一词已被过度使用,并澄清了当前空间智能领域对世界模型的三种定义。第一类是渲染器,负责生成精美像素;第二类是规划器,主要用于机器人和机器决策;第三类是模拟器,她认为这是三者中的关键,既能成为渲染器也能成为规划器,是解锁空间智能的核心路径。World Labs 正专注于模拟器这一层的研发。AI模型世界模型空间智能李飞飞World Labs模拟器推荐理由:李飞飞把混乱的“世界模型”概念拆清楚了,做空间智能、机器人或 3D 生成的研究者值得一看,能帮你快速对齐行业术语和方向。原文
02:22Decoder@Jonathan Kemper精选72°微软研究院推出Lens,一个仅3.8B参数的文本到图像模型,在基准测试中匹配更大模型,训练成本大幅降低。其关键创新是使用GPT-4.1生成的8亿条详细图像描述,而非模糊的网页替代文本。代码和权重已开源。这表明高质量标注比模型规模更重要。AI模型图像生成微软LensGPT-4.1开源/仓库推荐理由:做图像生成模型训练或研究的团队,可以借鉴Lens用详细标注替代规模扩张的思路,直接复用其开源代码和权重,能大幅降低训练成本。原文
00:49marktechpost@Asif Razzaq精选小米MiMo团队与TileRT发布MiMo-V2.5-Pro-UltraSpeed推理模式。该模式在单个8-GPU普通节点上,使1万亿参数模型MiMo-V2.5-Pro的译码速度超过1000 tokens/秒。这是首次在commodity GPU上实现如此高吞吐量。相比此前方案,速度提升显著。AI模型MiMoTileRTMiMo-V2.5-Pro-UltraSpeedXiaomi推理加速推荐理由:1万亿参数跑出1000t/s原文
00:42OpenRouter@OpenRouterAI精选OpenRouter 指出,在决策点切换模型能有效减少自偏好偏差,即模型倾向于固守自身失败的推理轨迹。该观点引用 Panickssery 等人 2024 年的论文,强调切换模型可打破这种锚定效应,提升决策质量。这对于需要多模型协作或复杂推理的 AI 应用场景具有重要参考价值。AI模型OpenRouter自偏好偏差模型切换推理优化决策点推荐理由:做多模型编排或推理链优化的开发者,这个发现能帮你减少模型自我锚定带来的错误,值得在 pipeline 里试试切换策略。原文
22:52Philipp Schmid@_philschmid精选72°Google 发布了新的 Gemma 4 QAT(量化感知训练)检查点,在保持相似性能的同时,将内存占用降低约 4 倍。该版本引入了一种新的移动端量化格式,将 Gemma 4 E2B 的内存占用降至仅 1GB。QAT 通过在训练过程中模拟低精度运算,实现无损量化,从而得到更小、更快的模型。这些检查点已在 Hugging Face 上提供,可直接运行。AI模型Gemma 4QAT量化移动端部署Hugging Face1 个信源在谈推荐理由:做移动端或边缘部署的开发者终于可以跑 Gemma 4 了——内存降到 1GB 意味着手机和 IoT 设备也能用,建议直接去 Hugging Face 拉下来试试。原文
19:01AI Will@FinanceYF5Claude Opus 4.7 在 Android Arena 排行榜中以 1313 Elo 分排名第一,超越 OpenAI 的 GPT-5.5 和谷歌的 Gemini 3.5 Flash。Anthropic 在前十名中占据五个席位,显示出其在移动端 AI 领域的强势地位。该排行榜主要评估模型在安卓设备上的实际表现,对移动端 AI 应用开发者有重要参考价值。AI模型Claude Opus 4.7Android Arena排行榜AnthropicGPT-5.510 个信源在谈推荐理由:移动端 AI 开发者可以快速了解当前安卓设备上最强的模型格局——Claude Opus 4.7 领先,Anthropic 整体优势明显,值得关注其技术路线。原文
17:14IT之家(博客/媒体)精选开放媒体联盟AOMedia发布AV2 v1.0.0标准,相比AV1可在相同画质下减少三成带宽需求。新标准增强对AR/VR内容、多画面传输、屏幕内容编码等场景的支持。目前RTX 30/40/50系、RDNA 2/3/4、苹果M3等芯片仅支持AV1,尚未支持AV2硬件加速。参考AV1普及历程,AV2硬件广泛支持预计等到2028年。AI模型AV2AV1AOMedia视频编码压缩效率推荐理由:AV2省带宽三成,2028见原文
17:03marktechpost@Asif Razzaq精选微软 AI 发布了其自研语音转文字模型 MAI-Transcribe-1.5,这是该系列的第二代。该模型支持 43 种语言,在 Artificial Analysis 排行榜上词错误率低至 2.4%,在 FLEURS 基准测试中达到最佳精度。它引入了关键词(实体)偏置功能,可针对特定领域术语提升识别准确率。长音频转录速度提升高达 5 倍,1 小时音频可在 15 秒内完成转录。该模型已在 Azure AI Foundry 中正式可用。AI模型语音识别微软MAI-Transcribe-1.5Azure AI Foundry多语言推荐理由:语音转文字场景的开发者终于有了微软官方的强力选项——MAI-Transcribe-1.5 在精度和速度上双双突破,做会议转录、客服质检或多语言内容处理的团队可以直接在 Azure 上试用,省去自建模型的麻烦。原文
14:17Gary Marcus@GaryMarcus精选Gary Marcus 针对 Anthropic 近期关于接近递归自我改进(RSI)的暗示提出质疑。他引用了一项名为 Meta-Agent Challenge(MAC)的基准测试,该测试要求 AI 代理在没有人类设计帮助的情况下,自主构建另一个能完成隐藏测试任务的代理。结果显示,当前 AI 代理在数学、科学问答、竞赛编程、软件修复等五个领域,通常无法超越人类设计的强代理方案,仅有少数闭源前沿模型(如 Claude)表现尚可。Marcus 指出,真正的自主不仅需要工具使用,还需预算意识、失败恢复、压力下的克制以及设计迭代的纪律,而当前代理只是强大的执行者,缺乏工程所需的可靠判断力。AI模型RSIMeta-Agent ChallengeAnthropicAI 代理自主开发10 个信源在谈推荐理由:Gary Marcus 用 Meta-Agent 挑战戳破了 Anthropic 的 RSI 叙事,关心 AI 自主性和工程可靠性的开发者值得一读,看完会对当前代理的局限性有清醒认识。原文
00:44宝玉@dotey用户 @ysober 在 X 上分享实测结果:使用 Claude 配合 Qwen3.7-Max 模型,总花费不到 10 元人民币,效果优于 GPT5.5,略低于 Opus4.8。该测试展示了低成本下通过模型组合获得高性能的可行性,对预算有限的开发者和团队有参考价值。Qwen3.7-Max 作为阿里通义千问的最新模型,在性价比上表现突出。AI模型Qwen3.7-MaxClaudeGPT5.5Opus4.8模型对比推荐理由:不到 10 元就能跑出接近 Opus4.8 的效果,做 AI 应用开发的团队值得关注这个低成本高性价比的模型组合方案。原文
21:43LovartAI@lovart_aiIdeogram 4.0 正式发布,官方称其为“世界上最好的开源图像模型”。该模型支持权重下载、用户在自己的数据上进行微调,并可在本地硬件上运行。目前已在所有 Ideogram 套餐和 API 上可用。这一发布意味着开发者可以自由定制和部署高质量的图像生成能力,降低了图像 AI 的门槛。AI模型开源/仓库图像生成Ideogram 4.0模型微调本地部署2 个信源在谈推荐理由:开源图像模型终于有了新标杆,做图像生成、模型微调或本地部署的团队可以直接下载权重试试,不用再依赖闭源 API。原文
14:27marktechpost@Asif Razzaq精选UIUC与Chroma联合推出Harness-1,一个20B参数的检索子智能体,通过强化学习在状态搜索框架中训练。该框架维护候选池、重要性标记的精选集、证据图和验证记录,策略决定搜索、筛选、验证和停止时机。在8个基准测试中,Harness-1平均精选召回率达0.730,领先下一名开源子智能体11.4个百分点,仅次于Opus-4.6。模型权重和框架代码已开源。AI模型Harness-1检索子智能体强化学习状态搜索框架开源推荐理由:Harness-1用强化学习解决了检索子智能体的搜索策略优化问题,做信息检索或RAG系统的开发者可以直接用开源代码复现,效果接近闭源最强模型。原文
10:23AI Will@FinanceYF5Claude Mythos 模型生成了一个令人惊艳的 Minecraft 复刻版,从画面到玩法机制都实现了高度还原。该版本不仅细节用心,还成功加入了多人模式,展示了模型在复杂游戏生成方面的能力。这是目前公开可见的由模型生成的 Minecraft 复刻版中质量最高的之一。AI模型Claude MythosMinecraft 复刻游戏生成AI 模型多人模式推荐理由:对游戏开发者和 AI 生成内容感兴趣的读者值得一看——Claude Mythos 展示了模型从零构建完整游戏玩法的潜力,甚至能自动实现多人联机,建议点开视频感受效果。原文
10:21AI Will@FinanceYF5一位开发者使用 Claude Mythos 模型生成了一个《我的世界》克隆游戏,其图形和机制细节丰富,令人印象深刻。该模型不仅实现了基础的游戏玩法,还成功添加了多人模式,且运行流畅。这展示了 AI 模型在复杂游戏生成方面的巨大潜力,能够从零开始构建功能完整的交互式体验。AI模型Claude Mythos游戏生成我的世界克隆AI模型多人模式推荐理由:对于游戏开发者和 AI 爱好者来说,这展示了 AI 模型生成复杂、可玩游戏的惊人能力,值得一看。原文
10:12Gary Marcus@GaryMarcusGary Marcus 回顾3.5年前的推文,指出大型语言模型(如GPT-3)在生成超现实散文和通过基准测试方面表现出色,但在可靠地从用户话语中推断用户意图方面仍然不足。他认为,尽管编码和数学领域通过神经符号技术有所改进,但核心问题依然存在。Marcus 强调,LLM 可能永远无法成为可靠推断用户意图的技术。这条推文引发了对AI能力边界和实用性的讨论。AI模型LLMGPT-3神经符号技术用户意图AI局限性推荐理由:Gary Marcus 的反思戳中了 LLM 的长期痛点——生成能力强但意图理解弱,做 AI 产品设计或对话系统的开发者看完会重新评估技术选型。原文
09:48pandaily@contact@pandaily.com (Pandaily)精选小红书(RED)研究团队提出Evolving-RL框架,通过强化学习让AI智能体在经验中自主进化技能,无需额外技能提取模块。该框架使智能体能够动态调整行为策略,适应新任务和环境变化,显著提升在复杂场景下的表现。这一方法为构建更灵活、自适应的AI系统提供了新思路,尤其适用于需要持续学习的应用场景。AI模型强化学习智能体技能进化小红书自适应系统推荐理由:做AI智能体开发的团队终于有了让模型自主进化的方案——Evolving-RL省去了手动设计技能模块的麻烦,做强化学习或自适应系统的开发者值得深入研究。原文
09:44pandaily@contact@pandaily.com (Pandaily)Harness Engineering 是近期 AI 领域兴起的新概念,旨在通过系统化方法将 AI 模型的能力“驾驭”到实际应用中。它强调在模型训练之外,设计有效的输入输出接口、反馈循环和任务分解策略,以提升 AI 系统的可靠性和实用性。这一范式被认为是对传统“提示工程”的升级,尤其适用于复杂任务和多步骤工作流。该概念由多位 AI 研究者和从业者推动,正在成为行业讨论的焦点。AI模型Harness EngineeringAI 范式提示工程系统化方法AI 应用推荐理由:Harness Engineering 解决了 AI 落地中模型能力与真实场景脱节的问题,做 AI 应用开发或系统集成的团队值得关注,它可能改变你设计 AI 工作流的方式。原文
08:25AI Will@FinanceYF588°NVIDIA 近日发布 Nemotron 3 Ultra,这是一款专为长期运行的 AI Agent 设计的旗舰开源模型。该模型采用 550B 参数的 MoE 架构,激活参数仅 55B,推理速度比同级开源模型快 5 倍,Agent 任务成本降低 30%。Nemotron 3 Ultra 旨在解决复杂、长时间运行的 Agent 任务中的效率与成本问题,为开发者提供高性能且经济的选择。该模型的开源特性有望推动 Agent 应用生态的发展。AI模型NVIDIANemotron 3 Ultra开源模型AgentMoE10 个信源在谈推荐理由:做 Agent 开发的团队终于有了一个高性能且成本可控的开源选择——Nemotron 3 Ultra 推理快 5 倍、成本降 30%,值得直接上手试试。原文
07:27AI Will@FinanceYF5精选VIGA将Blender转化为反馈环境,用于训练3D资产的行为属性,如门开合、铰链旋转、抽屉拉动。Articraft3D则把3D生成定义为写测试驱动的程序,确保模型不仅外观逼真,物理交互也正确。两项工作都聚焦于3D资产的功能性验证,超越传统渲染静态图。AI模型VIGAArticraft3DBlender3D生成测试驱动推荐理由:3D生成要行为正确,试试它们原文
19:15Decoder@Jonathan Kemper78°一款名为 Audio Interaction 的新型开源语音模型发布,它能够持续监听音频流,并每 0.4 秒决定是否说话或保持沉默,无需等待录音结束。该模型支持翻译、转录、聊天以及识别日常噪音(如咳嗽),实现了真正的实时交互。与 GPT-4o 或 Qwen3.5-Omni 不同,它在一个流中处理所有任务。代码、模型权重和下载说明已在 GitHub 上以 Apache 2.0 开源许可证发布,训练数据也将随后提供。AI模型开源/仓库语音模型实时交互Audio InteractionApache 2.0推荐理由:这款模型解决了实时语音交互中“等待录音结束”的痛点,做语音助手或实时翻译的开发者可以直接在 GitHub 上试玩,体验每 0.4 秒的决策能力。原文
15:55marktechpost@Asif Razzaq精选NVIDIA发布了Nemotron 3.5 ASR,一个600M参数的流式语音识别模型。该模型采用cache-aware架构,可从单个检查点实时转录40种语言-区域。它针对低延迟场景优化,支持多种语言的实时语音转文字。AI模型Nemotron 3.5 ASRNVIDIA语音识别流式模型多语言10 个信源在谈推荐理由:600M模型转40语言实时原文
15:24Decoder@Jonathan Kemper83°阿里巴巴Qwen团队发布Qwen3.7-Plus,这是一个多模态智能体模型,集视觉感知、GUI操作和编码于一体。在演示中,基于该模型的智能体自主开发了一款词汇学习应用,在11小时内通过1000次智能体调用生成了超过10000行代码。该模型在Qwen自己的基准测试中屏幕理解能力领先,但整体性能参差不齐。Qwen3.7-Plus是专有模型,未开源,定价远低于西方前沿模型。AI模型多模态智能体Qwen3.7-Plus阿里巴巴自主开发1 个信源在谈推荐理由:阿里将多模态AI推向自主智能体新高度,做GUI自动化或端到端应用开发的团队值得关注——它能自己写代码、操作界面,11小时产出上万行代码,效率惊人。原文
11:06IT之家(博客/媒体)精选中国科学院海洋研究所发布了“琅琊”2.0,这是全球海洋现象智能预报大模型,在2024年1.0版本基础上,从海洋状态变量预报扩展至复杂海洋现象智能预报。该模型针对台风、降水、风暴潮、海冰等六类现象开发了6个垂直模型,提升了预报速度和精度。例如,台风预报模型可提升24小时路径与强度预报能力,海冰预报模型可实现3公里分辨率下月尺度以上的北极海冰快速预测。相比传统数值模式,智能预报大模型解决了计算成本大、更新频率低的问题,为海洋防灾减灾和航运安全提供科技支撑。AI模型琅琊2.0海洋预报AI大模型台风预报海冰预报推荐理由:海洋预报从数值模式转向AI大模型,精度和速度都大幅提升,做海洋防灾、航运规划或极地研究的团队值得关注,可以直接评估其预报能力。原文
09:43Pandaily@contact@pandaily.com (Pandaily)精选StepFun 最新模型 Step 3.7 Flash 在 Artificial Analysis 基准测试中夺得速度、成本效率和端到端性能三项第一。该模型在 OpenRouter 和 Hugging Face 上获得大量关注,展现出强大的竞争力。这一成绩表明 StepFun 在推理优化和成本控制方面取得了显著突破,为开发者提供了高性价比的 AI 模型选择。AI模型Step 3.7 Flash基准测试推理优化成本效率StepFun推荐理由:做 AI 应用选型或部署推理服务的团队,Step 3.7 Flash 在速度和成本上的优势值得直接对比测试,可能帮你省下不少预算。原文
08:26rohanpaul_ai@rohanpaul_ai精选72°Google 发布了 Gemma 4 的 QAT(量化感知训练)检查点,将最小模型从 11.4GB 压缩至 1.1GB,纯文本版本仅 0.84GB。与传统的 PTQ(训练后量化)不同,QAT 在训练过程中模拟压缩,让模型学会在权重被压缩时保持推理质量。Google 还构建了针对移动端的格式,包括静态激活、通道级量化、目标 2 位量化和 KV 缓存优化,减少手机计算负担,延长长对话的内存使用。这使得 Gemma 4 更容易在手机和笔记本上运行,降低了部署门槛。AI模型Gemma 4量化移动端部署QAT模型压缩7 个信源在谈推荐理由:QAT 解决了模型压缩后推理质量下降的痛点,做移动端 AI 部署的开发者可以直接用这些检查点,在手机上跑大模型不再吃内存。原文