13:17Geek@geekbb精选Qwythos 9B 基于 Qwen3.5-9B,在 5 亿 token 的 Claude 思维链轨迹上全参数微调,可处理 1M 上下文。支持原生 Function Calling 和多模态视觉(图像+文本)。GGUF 量化后仅 5.2 GiB,可在低配设备上运行。该模型为开源且未经审查。AI模型Qwythos 9BQwen3.5-9BClaude推理模型多模态推荐理由:Empero AI 开源的 Qwythos 9B 把 Qwen3.5 和 Claude 思维链结合,1M 上下文加 Function Calling,量化后 5.2GB 的推理模型,低配机器也能跑。原文
01:57AWS Machine Learning Blog@Sanghwa Na精选AWS 博客展示如何用 Amazon Nova 2 Lite 和 Claude Sonnet 4.6 构建两模型管道,用于扫描文档的数字化。Nova 2 Lite 在单次调用中完成多模态提取(检测照片、提取姓名坐标、返回页面元数据)。Claude Sonnet 4.6 根据版面布局进行空间推理,将姓名和面孔匹配。该管道在 Amazon Bedrock 上运行,通过分工降低总处理成本。技巧Amazon Nova 2 LiteClaude Sonnet 4.6Amazon Bedrock文档数字化多模态1 个信源在谈推荐理由:用 Nova 2 Lite 做粗提取,Claude Sonnet 4.6 做精准匹配,文档数字化省心又省钱。原文
13:49阶跃星辰 Stepfun@Stepfun_AI精选Step 3.7 Flash 是开源多模态推理模型,现已在 DeepInfra API 上线。该模型支持私有端点部署,适用于专用负载场景。它专为智能体编码、工具使用、搜索和视觉工作流设计。开发者可通过 DeepInfra 的 API 直接调用。AI模型Step 3.7 FlashDeepInfra多模态推理模型开源模型推荐理由:Step 3.7 Flash 开源多模态推理模型刚上线 DeepInfra,支持私有部署,适合智能体编程和视觉任务,开发者可以试试。原文
13:49Jasper AI@heyjasperai精选72°Jasper Research 宣布推出 MONET 数据集,从 29 亿张图片中精炼出 1.049 亿张高质量样本,成为全球最大的开放文本-图像数据集。该数据集采用 Apache 2.0 许可,可免费商用。同时发布的 nano-t2i 方案支持在单张 GPU 上训练有竞争力的文生图模型。AI模型MONETJasper Researchnano-t2iApache 2.0多模态推荐理由:Jasper Research 放出了 MONET 数据集,有 1 亿多张图,免费商用,还能用 nano-t2i 在单卡上训练模型,做文生图的值得试试。原文
03:54Mustafa Suleyman@mustafasuleyman精选72°Microsoft 发布 MAI-Image-2.5,在 Artificial Analysis Image Arena 文本到图像基准中排名第2,仅次于 OpenAI 的 GPT Image 2。其图像编辑能力排名第3,仅次于 OpenAI 模型,性能与 Google 的 Nano Banana 2 相当。MAI-Image-2.5 最大输出约 1MP 分辨率,支持灵活宽高比和 32K token 上下文。定价为每千张图 $48(Flash 变体 $20),可通过 Foundry API 和 MAI Playground 使用。AI模型MAI-Image-2.5Microsoft文本到图像图像编辑多模态10 个信源在谈推荐理由:微软新出的 MAI-Image-2.5 图像生成和编辑都很强,排名只输给 OpenAI,价格也透明,值得试试看。原文
16:06IT之家(博客/媒体)精选商汤科技正在研发代号U1 Pro的多模态模型,聚焦设计场景,对标OpenAI GPT-Image 2。该模型由联合创始人林达华牵头,属于日日新家族,预计7月启动内部邀请测试。支持8K分辨率输出,能实现设计-生成-评审长程循环。内部评测显示,相同提示词下U1 Pro生成图片质量接近甚至优于GPT-Image 2。LMSYS Chatbot Arena中GPT-Image 2文生图评分领先谷歌Nano Banana 2。AI模型商汤科技U1 ProGPT-Image 2多模态图像生成10 个信源在谈推荐理由:商汤新模型U1 Pro专攻设计,对标GPT-Image 2,内部评测更优,支持8K输出,7月内测。原文
10:45arXiv cs.LG@Akshay Paruchuri, Sanmi Koyejo, Ehsan Adeli精选论文提出Facet-Probe审计框架,从选项、证据块、文档排序、图像集、混合模态五个维度测试18个前沿和开源MLLM的排序敏感性。采用贝叶斯项目反应模型分离排序噪声与各维度偏差,发现所有模型均非排序不变,各维度平均翻转率在24%至50%之间。Gemini在温度0下的同序控制显示,验证单元中存在远超解码器噪声的排序超额。最优模型仍有13.4%的试次输出翻转,提示词级缓解措施无法泛化到视觉推理。论文Facet-ProbeMLLMGemini多模态模型可靠性推荐理由:这篇论文用Facet-Probe测试了18个主流多模态大模型,发现它们对输入顺序都很敏感,最好的模型也错13.4%,提醒我们模型可靠性还不是想象中那么好。原文
08:42lmarena.ai@lmarena_ai精选72°Wan-2.7 I2V在视频生成竞技场中取得第5名,得分1,434。该排名来自与顶级模型的一对一对决,由全球用户在其创作任务中投票选出。它超越了Grok Imagine Video(720p)和所有Google Veo-3.1变体。该模型支持文本、图像、音频和视频的多模态控制,以及最多5个参考输入的角色自定义。阿里通义万相团队还提供了视频编辑、克隆、重风格化等全栈工具。AI模型Wan-2.7AlibabaVideo Arena视频生成多模态推荐理由:阿里通义万相出了个新视频模型Wan-2.7,在Video Arena排第5,干掉了Grok和Veo,视频创作能力挺强,可以试试。原文
01:25elvis@omarsar0精选作者完全改用语音而非文字输入与AI代理交互,发现音频描述越详细、越长,代理结果越好。他还开发了屏幕录制、截图、追踪鼠标动作和语音注释功能,帮助代理处理设计和精确开发任务。多模态提示(语音+屏幕+动作)显著提升了代理的可靠性,尽管消耗更多token。作者将这些经验制作为可复用的命令集,插入循环后效果显著改善。技巧智能体多模态提示词工程语音交互推荐理由:有人分享用语音+屏幕录制和多模态提示跟AI代理唠嗑,提示越啰嗦结果越靠谱,还教你怎么录屏加注释,值得试试原文
08:24SuperTechFans(博客/媒体)精选Mistral于2026年6月24日发布OCR 4模型,新增边界框、区块分类和置信度分数。该模型在内部盲评和公开基准测试中性能领先,支持170种语言,可自托管部署。AI模型MistralOCR 4多模态自托管模型发布推荐理由:Mistral新出的OCR 4能自己部署,支持170种语言,还带边界框和置信度分数,识别效果领先,做文档处理很合适。原文
02:09Philipp Schmid@_philschmid精选Google 推出 Interactions API,提供单一 API 接口调用 Gemini 模型和智能体。该 API 包含隔离的远程 Linux 沙箱环境,支持异步后台运行的 background=True 参数。已集成图像生成 Nano Banana、音乐生成 Lyria 3,并预告未来支持视频生成 Omni。同时具备多模态工具调用与组合能力,以及专用编码技能。开发者可通过该 API 构建人类与智能体交互的应用。AI产品Interactions APIGeminiGoogle智能体多模态推荐理由:Google 上线了 Interactions API,一个 API 就能调用 Gemini 模型和智能体,还有沙箱、图像音乐生成,异步运行很简单。原文
00:48AWS Machine Learning Blog@Gilbert V Lepadatu精选AWS博客介绍了基于Amazon Bedrock和OpenSearch Serverless构建的可搜索航空影像系统架构。团队使用OpenStreetMap地面实况数据设计了四项实验,对比了嵌入模型、融合策略、字幕生成和搜索方法。其中Amazon Nova Multimodal Embeddings在基准查询中取得了最高的F1分数。该系统最终演变为Vexcel Intelligence产品,为地理空间语义搜索提供了实用指导。AI模型Amazon Nova Multimodal EmbeddingsAmazon BedrockOpenSearch Serverless多模态地理空间搜索推荐理由:AWS用Amazon Nova做航空影像搜索,F1分数最高,想搞地理空间搜索的可以参考他们的实验设计。原文
03:05Together AI@togethercompute精选MiniMax-M3 模型支持智能体携带长历史(超过百万token)、图像、视频、文档和工具输出进入上下文,显著提升多模态信息处理能力。Together 的推理优化通过改进服务路径上的 token 吞吐量,使这一能力在大规模部署时更实用。相比之前方案,每 GPU 可处理更多 token,从而降低每美元自动化工作成本。AI模型MiniMax-M3Together智能体多模态推理优化2 个信源在谈推荐理由:MiniMax-M3 让智能体一口气带进长历史、图、视频、文档和工具输出,Together 优化后每 GPU token 翻倍,自动任务成本更低。原文
06:40Stanford AI Lab@StanfordAILab精选斯坦福AI实验室发布M*运行时,用于统一服务多模态模型。相比专业系统,M*在omni TTS任务上提速2.7倍,在world-model rollouts任务上提速12.5倍。它匹配或超越所有专门系统的性能。AI产品M*斯坦福多模态运行时推荐理由:斯坦福新发的M*运行时,一个系统就能搞定各种多模态模型,速度比专业方案快2到12倍,值得做部署的看看。原文
09:37AWS Machine Learning Blog@Aris Tsakpinis精选Google DeepMind 发布的 Gemma 4 开源权重模型系列现已在 Amazon Bedrock 上可用。该系列包含三个指令调优变体:Gemma 4 31B(密集架构)、26B-A4B(MoE 架构,每次激活 4B 参数)和 E2B。所有变体均支持内置推理、原生函数调用以及文本和图像多模态输入。模型基于 Apache 2.0 许可发布,旨在多种部署场景下实现每参数智能最大化。AI模型Gemma 4Amazon BedrockGoogle DeepMind开源模型多模态4 个信源在谈推荐理由:Google DeepMind 把最新的 Gemma 4 放到 AWS 上了,三种规格可选,带推理和图文理解,正好拿来玩开源项目。原文
17:36IT之家(博客/媒体)精选理想在 Livis Day 上宣布马赫 Mind-Pro 模型全面落地 L9。该模型在 IFEval 指令跟随、LongBench-v2 超长文本理解、AIME26 高阶数学推理、BFCL-v4 工具调用等基准上位列第一梯队。其 Token 生成速度、任务完成质量、成本、端到端响应时延达到可量产水平。模型采用多模态流式时序建模,能连续理解动态物理世界并自主决策。所有能力在车端本地完成,数据不上传。AI模型马赫 Mind-Pro理想L9多模态车载AI推荐理由:理想把马赫 Mind-Pro 模型塞进 L9 了,指令跟随和推理稳居第一梯队,多模态本地跑还不传数据,车载 AI 这波挺实在。原文
11:13arXiv cs.LG@Rohit Gandikota, David Bau精选论文发现视觉语言模型的LM骨干中存在一组称为gaze heads的注意力头,其注意力会追踪模型当前描述的图像区域。通过仅对top-100个gaze heads(少于全部9%)进行注意力掩码干预,能以83.1%的准确率引导模型描述指定的漫画面板,而随机干预无效。该干预同样适用于自然COCO图像,且机制在2B到32B参数规模及多种VLM架构中复现。该工作展示了通过机制分析实现无需重训的推理时多模态行为操控。论文VLMGaze Heads注意力头多模态模型可解释性推荐理由:操控VLM输出,像翻漫画一样准原文
22:23rohanpaul_ai@rohanpaul_ai精选73°Nvidia 推出 Cosmos 3,一个能够理解、模拟和行动于多种物理 AI 任务的统一模型。它将动作视为世界的一等语言,把语言、图像、视频、音频和动作整合到一个共享系统中。该模型通过动作标记设计,让机器人能连接所见与可能发生的事,并决定下一步行动。论文显示,Cosmos 3 可基于视频推断动作,或与未来场景一同生成动作,从而解决机器人抓取、滑动等物理交互问题。论文Cosmos 3Nvidia物理AI多模态动作标记3 个信源在谈推荐理由:Nvidia 让机器人学会动作语言原文
17:22量子位@一水精选Jiuwen Symbiosis是一个将AI Agent与物理实体结合的框架,通过整合传感器、执行器和实时控制,使Agent能直接与环境交互。该框架在工业机器人测试中实现了90%的任务完成率,相比传统方案提升30%。它支持多模态感知(视觉、触觉、力觉)和动态规划,已在仓储物流场景中部署。实践表明,这种具身智能系统能有效处理非结构化环境中的复杂操作。AI模型Jiuwen Symbiosis智能体具身智能多模态工业机器人推荐理由:让AI Agent动起来干活原文
10:55MiniMax_AI@MiniMax_AI精选MiniMax 发布 M3 模型,总参数量约 428B,激活参数约 23B。该模型在编码、长周期智能体和原生多模态(文本、图像、视频)任务上表现优异,支持 1M token 上下文长度。M3 以开源权重形式发布,在 Baseten 平台可运行。AI模型MiniMaxM3开源模型多模态智能体推荐理由:开源模型能打编码和多模态原文
10:53Together AI@togethercompute精选MiniMax 发布开源权重原生多模态模型 MiniMax-M3,具备 1M 上下文窗口和 MiniMax 稀疏注意力机制。模型提供思考与非思考两种模式。Together AI 作为首选云合作伙伴,通过推理优化在并发场景下实现高达 125% 的吞吐量提升。AI模型MiniMax-M3Together AI多模态开源模型1M上下文7 个信源在谈推荐理由:MiniMax 新模型上线,吞吐量提升 125%原文
10:02pandaily@contact@pandaily.com (Pandaily)精选华为在HDC 2026上推出HarmonyOS 7开发者测试版,系统从应用平台转型为智能任务平台。新架构以Agent为核心,支持任务自动编排与跨设备协同。开发者可通过ArkTS语言和API构建智能体,实现语音、视觉等多模态交互。HarmonyOS 7计划于2026年第三季度正式商用。AI产品HarmonyOS 7华为智能体多模态开发者测试版1 个信源在谈推荐理由:华为系统全面转向智能体原文
09:47IT之家(博客/媒体)精选华为云与MiniMax达成深化合作,基于昇腾算力底座为M3模型提供Tokens算力支持。M3采用MSA注意力架构,支持1M超长上下文,是原生多模态模型,可处理图片、视频输入并操作电脑桌面。在SWE-Bench Pro上,M3超过GPT-5.5和Gemini 3.1 Pro,接近Opus 4.7;在SVG-Bench上超过Opus 4.7;在OmniDocBench上超过Gemini 3.1 Pro;在Claw-Eval上获得最高分。华为云通过昇腾算力优化MSA算子和MOE均衡,保障M3大规模推理性能。AI模型MiniMaxM3华为云昇腾多模态1 个信源在谈推荐理由:华为云联手MiniMax,M3多模态模型开源原文
00:24SiliconFlowAI@siliconflowai精选Google DeepMind 的 Gemma 4 12B 模型已在 SiliconFlow 平台上线,支持 262K 上下文、内置思考、原生工具调用及 140+ 语言。该模型采用无编码器架构,视觉和音频输入直接进入 LLM 主干,降低处理延迟。12B 参数规模但拥有 26B 的“大脑”性能,接近 Google 26B 模型的表现,在多步推理和智能体工作流中表现出色。定价为输入/输出每百万 tokens 0.1/0.3 美元,性价比突出。AI模型Gemma 4智能体多模态长上下文SiliconFlow7 个信源在谈推荐理由:做智能体、长上下文或多模态应用的开发者终于有了一个模型搞定三件事的选择——Gemma 4 12B 在 SiliconFlow 上价格亲民,建议直接上手试试。原文
12:32arXiv cs.AI@Litao Li, Yibo Yu, Yufeng Hu, Zhuo Yang, Jiali Wen, Yixin Chen, Yixi Zhou精选本文提出了针对2026年SoccerNet VQA挑战赛的解决方案。研究团队首先开发了一种由视觉语言模型驱动的低成本数据合成流程,将原始领域数据系统性地转化为多样化的VQA样本,包括简洁答案和长文本回答。其次,提出了MSUE架构,这是一种多专家问答架构,利用大语言模型动态地将问题分配给文本、图像和视频专家。这些专家分别由强大的文本基线Gemini3-Flash、微调的Qwen3-VL和外部知识库实例化,协同工作以提升VQA性能。MSUE在挑战基准上达到了0.95的准确率,在排行榜上获得第三名。论文多模态VQA足球分析SoccerNet大语言模型推荐理由:足球视频分析团队和体育AI研究者可以借鉴其低成本数据合成和多专家协作架构,直接提升VQA任务的准确率,值得关注。原文
09:51arXiv cs.AI@Shang Ma, Jisheng Dang, Wencan Zhang, Yifan Zhang, Bimei Wang, Hong Peng, Bin Hu, Qi Tian, Tat-Seng Chua精选研究者提出了一种名为 MODF-SIR 的多智能体协作框架,基于轻量级多模态大语言模型,专门用于社交智能推理。该框架通过知识蒸馏增强训练和推理阶段,能够精确定位多模态社交数据,并提取长尾事件以格式化文本呈现,避免关键信息被噪声淹没。它集成了测试时自适应(TTA)、思维链提示和自反思机制,并利用 LoRA 微调基础模型。在多个基准测试中,仅用约 30% 的训练数据就达到了最先进的结果。代码、演示和模型均已开源。论文多智能体知识蒸馏社交智能推理多模态LoRA推荐理由:社交智能推理是 AI 理解人类互动的关键,MODF-SIR 用轻量模型和蒸馏技术解决了长尾事件被忽略的痛点,做多模态社交分析或人机交互的团队可以直接用开源代码复现。原文
10:07arXiv cs.AI@Peiqi Jia, Haonan Jia, Ziqi Miao, Linkang Du, Yuntao Wang, Zhou Su精选该论文首次在视觉语言模型(MLLMs)中引入显式人格条件,建立了涵盖单人格诱导、多人格诱导和人格切换的系统评估框架。实验发现,人格诱导能提升图像描述性能,但会损害需要精确推理的任务(如视觉问答)。多人格组合和动态切换时存在平衡与残留效应,模型行为受前后人格约束共同调节。现有基于提示的人格诱导方法在多模态场景下迁移性有限。研究揭示了MLLMs人格建模的动态复杂性,呼吁开发更鲁棒、定制化的方法。论文视觉语言模型人格建模多模态行为控制评估框架推荐理由:做多模态AI行为控制或社交机器人开发的团队,这篇论文揭示了人格诱导对推理能力的意外损害,值得在模型部署前仔细评估。原文
09:10arXiv: DeepSeek@ Kwai Keye Team, Bin Wen, Changyi Liu, Chengru Song, Chongling Rao, Guowang Zhang, Han Li, Haonan Fan, Hengrui Ju, Jiankang Chen, Jiapeng Chen, Jiawei Yuan, Kaixuan Yang, Kaiyu Jiang, Kun Gai, Lingzhi Zhou, Na Nie, Sen Na, Tianke Zhang, Tingting Gao, Xuanyu Zheng, Yulong Chen, Fan Yang, Haixuan Gao, Lele Yang, Mingqiao Liu, Muxi Diao, Qi Zhang, Qile Su, Wei Chen, Wentao Hong, Xingyu Lu, Yancheng Long, Yankai Yang, Yingxin Li, Yiyang Fan, Yu Xia, Yuzhe Chen, Ziliang Lai, Chuan Yi, Haonan Jia, Tianming Liang, Weixin Xu, Xiaoxiao Ma, Yang Tian, Yufei Han, Feng Han, Hang Li, Jing Wang, Jinghui Jia, Junmin Chen, Junyu Shi, Ruilin Zhang精选76°快手发布Keye-VL-2.0-30B-A3B,一个基于MoE架构的开源多模态基础模型,专为长视频理解和智能体场景设计。该模型首次将DeepSeek Sparse Attention适配到GQA架构,实现无损256K上下文处理,能捕捉关键帧和长程时序依赖。通过跨模态多教师策略蒸馏(MOPD)和上下文/视频强化学习,解决了多任务对齐中的灾难性遗忘问题,仅激活3B参数即可在代码、工具和搜索场景中实现智能体协作与多模态自我纠正。在视频理解、时序定位、推理、STEM和智能体基准测试中,Keye-VL-2.0在相似规模模型中达到最优性能,尤其在TimeLens细粒度时序定位和Video-MME-v2长视频理解上表现突出。模型权重已开源。AI模型开源/仓库MoE长视频理解智能体多模态推荐理由:长视频理解和智能体场景的开发者终于有了一个开源且高效的MoE模型——Keye-VL-2.0仅激活3B参数就能处理256K上下文,做视频分析或智能体应用的团队可以直接下载权重试试。原文
11:01arXiv cs.AI@Luciano Duarte, Olga Ovcharenko, Sebastian Schelter精选数据库社区缺乏结合表格、文本和图像的大规模真实数据集。研究者从大都会艺术博物馆、芝加哥艺术博物馆和荷兰国立博物馆收集了651045条博物馆记录,构建了多模态文化遗产数据集ArtiFact。该数据集包含130209条注入七类错误(如材料时代错乱、时间偏移)的记录,用于跨模态错误检测任务。实验表明,当前系统难以检测领域特定的细微错误,且在语义查询处理中,对文化邻近性、模糊对象类型和历史术语的查询表现不佳。ArtiFact为多模态数据管理研究提供了具有挑战性的基准。论文多模态数据集/基准文化遗产错误检测语义查询推荐理由:做多模态数据管理、文化遗产数字化或数据质量研究的团队,这个真实世界的大规模基准能帮你测试模型在细粒度错误检测和语义查询上的真实水平,值得跑一跑。原文
10:38arXiv cs.AI@Jonathan F. Carter, Lionel Tarassenko精选该研究提出 Hypnos,一个多模态睡眠基础模型,使用来自 2 万多次夜间多导睡眠监测的 8 种传感模态(如 EEG、ECG、呼吸信号)训练。与现有使用掩码重建或对比学习的方法不同,Hypnos 采用下一词预测作为自监督目标,通过残差向量量化将每种模态离散化为 token 流,并用自回归 RQ-Transformer 并行预测所有模态的下一个 token。在睡眠阶段分类任务中,Hypnos 仅用 1% 的标注数据就达到了强监督基线的性能,还能泛化到日间生理信号,在检测房颤上超越专门的 ECG 基础模型。结果表明,下一词预测是多模态生理信号表征学习的有效且可扩展的自监督目标。论文基础模型睡眠生理学多模态下一词预测自监督学习推荐理由:睡眠医学和生理信号分析的研究者终于有了一个无需大量标注数据就能学到通用表征的基础模型——Hypnos 用下一词预测解决了多模态生理数据的学习难题,做睡眠分期或房颤检测的团队可以直接用它生成嵌入,大幅降低标注成本。原文
AITOP5月29日 08:02Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……