01:57AWS Machine Learning Blog@Sanghwa Na精选AWS 博客展示如何用 Amazon Nova 2 Lite 和 Claude Sonnet 4.6 构建两模型管道,用于扫描文档的数字化。Nova 2 Lite 在单次调用中完成多模态提取(检测照片、提取姓名坐标、返回页面元数据)。Claude Sonnet 4.6 根据版面布局进行空间推理,将姓名和面孔匹配。该管道在 Amazon Bedrock 上运行,通过分工降低总处理成本。技巧Amazon Nova 2 LiteClaude Sonnet 4.6Amazon Bedrock文档数字化多模态1 个信源在谈推荐理由:用 Nova 2 Lite 做粗提取,Claude Sonnet 4.6 做精准匹配,文档数字化省心又省钱。原文
18:50量子位@量子位的朋友们OceanBase推出AI数据库版本,将湖仓一体、多模态数据与AI能力集成于单一引擎。该版本支持SQL+AI混合查询,可同时处理结构化表格、非结构化文本及图片等数据。OceanBase在TPC-C、TPC-H等基准测试中保持领先性能,新版本使企业无需额外ETL即可直接运行AI模型。AI产品OceanBase数据库多模态湖仓一体AI数据库推荐理由:OceanBase这次更新把数据库和AI揉在一起了,一个引擎搞定表格、文本和图片,省了来回搬数据的麻烦。原文
16:34pandaily@contact@pandaily.com (Pandaily)具身智能公司智平方(Zhipingfang)完成约50亿元新融资。其估值突破200亿元(约28亿美元),成为粤港澳大湾区首个具身智能独角兽。核心采用类脑NeuroVLA架构,模拟人脑多模态信息处理机制。行业ZhipingfangNeuroVLA具身智能类脑智能多模态推荐理由:智平方刚融了50亿,估值200亿,靠类脑NeuroVLA搞具身智能,大湾区第一个独角兽,挺有看头。原文
11:39IT之家(博客/媒体)Mistral AI 于6月23日发布OCR 4文档识别模型。该模型支持横跨10个语族的170种语言,在OmniDocBench基准上获得93.07分,优于GPT 5.5 Pro和Gemini 3.1 Pro Preview。OCR 4提供边框、区域分类和置信度评分,并支持RAG语义分块等下游任务。基础API定价每千页4美元,批处理可享50%优惠。AI模型Mistral AIOCR 4多模态文档识别RAG3 个信源在谈推荐理由:Mistral出了新OCR模型,支持170种语言,评分比GPT和Gemini都高,处理文档识别可以试试它。原文
16:06IT之家(博客/媒体)精选商汤科技正在研发代号U1 Pro的多模态模型,聚焦设计场景,对标OpenAI GPT-Image 2。该模型由联合创始人林达华牵头,属于日日新家族,预计7月启动内部邀请测试。支持8K分辨率输出,能实现设计-生成-评审长程循环。内部评测显示,相同提示词下U1 Pro生成图片质量接近甚至优于GPT-Image 2。LMSYS Chatbot Arena中GPT-Image 2文生图评分领先谷歌Nano Banana 2。AI模型商汤科技U1 ProGPT-Image 2多模态图像生成10 个信源在谈推荐理由:商汤新模型U1 Pro专攻设计,对标GPT-Image 2,内部评测更优,支持8K输出,7月内测。原文
17:51Decoder@Maximilian SchreinerMistral AI推出OCR 4模型,专门用于从PDF、Word和PowerPoint等文档中读取文本。公司称在盲测中,OCR 4在72%的案例中表现优于竞品。该模型专注于文档文本提取,与现有OCR方案相比有显著提升。AI模型MistralOCR 4文档处理多模态基准测试推荐理由:Mistral新出的OCR 4在盲测里赢了七成多对手,专治PDF和PPT文字提取,文档党可以看看。原文
09:45IT之家(博客/媒体)71°火山引擎发布豆包音频生成模型1.0(Doubao-Seed-Audio 1.0),首次支持将文本、音频等多模态输入端到端生成目标音频。该模型能在长时生成中保持多角色音色一致性,减少后期修音工作。单条Prompt可编排角色对白、情绪语气、背景音乐等,直接产出完整音频作品。火山方舟已开启API邀测,个人用户可体验30分钟创作额度。AI模型豆包音频生成模型1.0火山引擎音频生成多模态音色一致性5 个信源在谈推荐理由:火山引擎新模型能一次编排对白、音效、配乐,还能保持10分钟的角色音色一致,省掉后期对轨修音,音频创作者值得一试。原文
08:24SuperTechFans(博客/媒体)精选Mistral于2026年6月24日发布OCR 4模型,新增边界框、区块分类和置信度分数。该模型在内部盲评和公开基准测试中性能领先,支持170种语言,可自托管部署。AI模型MistralOCR 4多模态自托管模型发布推荐理由:Mistral新出的OCR 4能自己部署,支持170种语言,还带边界框和置信度分数,识别效果领先,做文档处理很合适。原文
10:06IT之家(博客/媒体)字节跳动发布的豆包Seed 2.1系列包括Pro和Turbo两个版本,Pro面向高复杂度任务,Turbo面向大规模生产。该系列在Coding工程交付、Agent长链路任务执行和多模态理解三大方向实现升级。价格方面,Pro模型推理输入6元/百万tokens(缓存命中1.2元),推理输出30元/百万tokens;Turbo模型推理输入3元/百万tokens(缓存命中0.6元),推理输出15元/百万tokens。同时发布了每周至少更新一次版本的Seed-Evolving模型和面向泛娱乐的角色模型Character。AI模型豆包Seed 2.1字节跳动推理模型多模态智能体4 个信源在谈推荐理由:字节新出的豆包Seed 2.1 Pro和Turbo,专门优化编程、智能体和多模态任务,Pro适合高难度场景,Turbo便宜且效率高,很适合接项目用。原文
00:48AWS Machine Learning Blog@Gilbert V Lepadatu精选AWS博客介绍了基于Amazon Bedrock和OpenSearch Serverless构建的可搜索航空影像系统架构。团队使用OpenStreetMap地面实况数据设计了四项实验,对比了嵌入模型、融合策略、字幕生成和搜索方法。其中Amazon Nova Multimodal Embeddings在基准查询中取得了最高的F1分数。该系统最终演变为Vexcel Intelligence产品,为地理空间语义搜索提供了实用指导。AI模型Amazon Nova Multimodal EmbeddingsAmazon BedrockOpenSearch Serverless多模态地理空间搜索推荐理由:AWS用Amazon Nova做航空影像搜索,F1分数最高,想搞地理空间搜索的可以参考他们的实验设计。原文
21:30IT之家(博客/媒体)生数科技的新一代视频生成大模型 Vidu Q3 上线华为云 MaaS,支持文生视频和图生视频一体化成片。该模型是全球首个“为剧而生”的视频大模型,可生成 16 秒 1080P 画质内容,并实现声画同出、多镜头叙事。Vidu Q3 推出两个版本:Turbo 极速版优化推理速度与成本,适合快速创意打样;Pro 专业版支持 4K 分辨率,面向广告大片等专业场景。模型还具备多国语言文字渲染及多语言输出功能,可用于漫剧、短剧和影视创作。AI模型Vidu Q3华为云生数科技视频生成多模态推荐理由:生数 Vidu Q3 上线华为云,能一键文/图生视频,支持 16 秒 1080P 和 4K,还有专为剧集设计的镜头叙事能力,做短视频或专业视频都合适。原文
16:45IT之家(博客/媒体)71°京东发布并开源了实时视频视觉语言交互模型JoyAI-VL-Interaction,这是全球首个全栈开源的interaction模型和系统,获得vLLM-Omni的day-0原生支持。该模型能持续观察视频流,自主判断何时响应,而非被动等待用户提问。在58个真人盲评案例中,JoyAI-VL-Interaction对比豆包视频通话助手胜率77.6%,对比Gemini视频通话助手胜率87.9%。它支持摄像头、直播流、监控流等多种视频输入,并具备后台智能体委托能力。AI模型JoyAI-VL-Interaction京东多模态智能体开源模型推荐理由:京东开源了JoyAI-VL-Interaction,能实时看视频主动说话,安防、直播都能用,盲评胜率比豆包和Gemini高一大截。原文
10:48Pandaily@contact@pandaily.com (Pandaily)ByteDance Seed与学术合作伙伴提出SpatialTree,这是一个分层框架,旨在重新定义多模态大模型(MLLM)对空间的理解与推理能力。该工作已被计算机视觉顶级会议CVPR 2026接收。SpatialTree通过层级结构显著提升MLLM在空间任务上的表现。AI模型SpatialTreeByteDance SeedCVPR 2026多模态空间智能4 个信源在谈推荐理由:字节跳动Seed搞了个SpatialTree框架,专门提升多模态模型的空间推理能力,还被CVPR 2026接受了,值得一看。原文
10:18pandaily@contact@pandaily.com (Pandaily)小米发布并开源了Miloco 2.0全屋AI系统,具备多模态感知能力,可识别用户行为和场景。该系统支持主动智能,能预测需求并执行持续任务,如自动调节灯光温度。Miloco 2.0拥有家庭记忆功能,可记住家庭成员的偏好和习惯。该系统被比作钢铁侠的JARVIS管家,面向中国家庭提供个性化服务。AI模型小米Miloco 2.0智能家居多模态开源模型推荐理由:小米开源了Miloco 2.0,一个像JARVIS一样有记忆能主动帮忙的智能家居AI,多模态和家庭记忆功能很实用。原文
07:27IT之家(博客/媒体)苹果将于今秋推送visionOS 27,M5版Vision Pro独占Siri语音定制功能,用户可调整语气的表现力和语速。M5版还独占AFM 3 Core Advanced模型,该模型支持原生多模态能力并采用稀疏架构,可在本地执行更复杂的AI任务。M2版Vision Pro仍可享受visionOS 27的大部分升级,包括全景照片转空间场景、重新设计的控制中心以及更智能的自然语言理解。苹果未来计划通过云端计算为M2设备提供部分AI功能折中方案,但细节未公布。AI产品visionOS 27M5 Vision ProSiriAFM 3 Core Advanced多模态推荐理由:苹果给M5 Vision Pro加了本地AI模型和自定义Siri语音,其他头显暂时没有,等正式版可以试试效果。原文
10:23IT之家(博客/媒体)谷歌与艺术家Refik Anadol合作的全球首个AI艺术博物馆Dataland将于6月20日在洛杉矶开馆,面积约2500平方米。开幕展“Machine Dreams: Rainforest”由Large Nature Model驱动,该模型基于自然世界数据集训练。博物馆使用Google Cloud工具(包括Gemini Enterprise Agent Platform和Compute Engine)协调GANs、扩散模型和Gemini,将数据转化为12亿像素的超现实画面。系统可生成动态声景、实时情绪感应并通过算法增强气味,运行使用87%无碳可再生能源。行业谷歌DatalandRefik Anadol多模态AI艺术推荐理由:谷歌和艺术家在洛杉矶开了个AI艺术博物馆,进去能看到12亿像素的实时画面,还能感应你的情绪释放气味,挺新鲜的。原文
15:52IT之家(博客/媒体)DeepSeek 识图模式已在网页和 App 端正式上线,App 端标注“图片理解功能内测中”,网页端无此提示。该模式与快速模式、专家模式并列,支持用户上传图片让 DeepSeek 解读。其能力不仅是文字提取,还能理解图像内容。背后的多模态模型技术已于今年 4 月公开,核心框架名为“Thinking with Visual Primitives”。AI产品DeepSeek识图模式多模态视觉理解Thinking with Visual Primitives推荐理由:DeepSeek 现在能识图了,App 和网页都能用,不只是 OCR,还能理解画面,背后有专门的多模态技术。原文
12:35IT之家(博客/媒体)73°阿里与人大联合开源 LOGOS,这是一个基于统一“科学语法”的多领域科学生成基础模型。LOGOS-1B 仅用 1B 参数量,在多项科学任务上超越参数为 8×7B 的微软 NatureLM。模型预训练语料涵盖蛋白质(28.9B tokens)、抗体(3.0B tokens)、小分子(2.1B tokens)等 7 类模态共 44.87B tokens。它通过共享词表将异构对象编码为离散 token,无需 3D 坐标即可理解 3D 空间互作规律。LOGOS 已开源模型权重、推理代码与技术报告。AI模型LOGOSNatureLM开源模型科学大模型多模态推荐理由:阿里开源的 LOGOS 模型,用 1/56 参数就碾压了微软 NatureLM,还统一了蛋白质、小分子等科学对象的语言,搞科研的可以看看源码和论文,开箱即用。原文
07:57IT之家(博客/媒体)彭博社马克·古尔曼爆料,苹果带摄像头的AirPods将延迟到2027年发布。延迟原因是苹果在Apple智能/Siri AI方面面临开发挑战,同时需优化用于识别周围物体的视觉AI模型。该耳机左右均配备低分辨率摄像头,外观类似AirPods Pro 3。苹果还在探索通过摄像头提供基于视觉的提醒和逐向导航功能。AI产品AirPods苹果摄像头AI开发多模态推荐理由:苹果因为AI研发挑战,把带摄像头的AirPods推迟到2027年了,想实现视觉导航的功能还得等。原文
07:29IT之家(博客/媒体)谷歌正式推送 Android 17 系统,并同步发布 Wear OS 7。新版安卓深度集成 AI 模型,包括音乐生成模型 Lyria 3、多模态大模型 Gemini Omni 以及基于 AudioLM 的语音翻译工具。Pixel 系列设备率先获得更新,Pixel 10a 搭载实时同声传译功能。系统新增同屏录摄、气泡任务栏、折叠屏游戏模式等实用功能。Wear OS 7 续航提升 10%,并新增紧急状况检测和 Gemini 智能功能。AI产品Android 17Gemini OmniLyria 3Wear OS 7多模态推荐理由:谷歌刚推的Android 17,深度集成了AI,能用Lyria 3生成音乐、Gemini Omni剪视频、AudioLM实时翻译,Pixel 10a还有新功能,挺实用。原文
22:28量子位@梦瑶华为鸿蒙小艺AI助手在最新升级中展现了与央视主持人朱广权同台讲脱口秀的能力。新版本具备多模态理解、任务调度和自我进化功能,能根据场景主动调度手机应用和服务。小艺不再只是被动回应,而是能主动理解上下文并执行复杂任务,例如结合日历、天气、备忘录等信息规划行程。此次升级还引入了更强的语音交互和情绪感知能力,让对话更自然。AI产品鸿蒙小艺华为智能体多模态AI助手推荐理由:华为小艺升级后能和朱广权说脱口秀,能主动调度应用、自进化,不是普通问答助手,值得试试。原文
12:38IT之家(博客/媒体)72°苹果 iOS 27 的 AI 版 Siri 上线延迟,项目负责人迈克·罗克韦尔透露,去年已有迭代版本但未达预期,最终决定从零重构。新版 Siri 基于底层大模型,支持多模态交互,覆盖 iPhone、iPad、Mac、Apple Watch、Vision Pro、CarPlay、AirPods 全平台,隐私保护贯穿架构。AI产品AppleSiriiOS 27多模态隐私保护推荐理由:苹果总算说了实话!Siri 迟到是因为推倒重来,现在能跨设备统一体验还支持多模态,比旧版强太多了。原文
09:37AWS Machine Learning Blog@Aris Tsakpinis精选Google DeepMind 发布的 Gemma 4 开源权重模型系列现已在 Amazon Bedrock 上可用。该系列包含三个指令调优变体:Gemma 4 31B(密集架构)、26B-A4B(MoE 架构,每次激活 4B 参数)和 E2B。所有变体均支持内置推理、原生函数调用以及文本和图像多模态输入。模型基于 Apache 2.0 许可发布,旨在多种部署场景下实现每参数智能最大化。AI模型Gemma 4Amazon BedrockGoogle DeepMind开源模型多模态4 个信源在谈推荐理由:Google DeepMind 把最新的 Gemma 4 放到 AWS 上了,三种规格可选,带推理和图文理解,正好拿来玩开源项目。原文
23:15IT之家(博客/媒体)78°稀宇科技于6月12日开源了 MiniMax M3 模型权重,总参数428B,激活参数23B。M3 是首个从 Step 0 开始进行多模态混合训练的开源模型,支持百万上下文。发布两周后,M3 在 Artificial Analysis 综合智能指数排行榜上获得全球开源模型最高排名。模型输出速度已从30 TPS提升至约80 TPS,后续还将提速30-40%。在编码与智能体评测中达到行业顶尖水平,具备自主任务拆解、工具调用与多步推理能力。AI模型MiniMax M3多模态开源模型百万上下文智能体2 个信源在谈推荐理由:MiniMax 开源了原生多模态巨无霸 M3,428B参数、百万上下文,全球开源排名第一,还能自主拆任务调工具,速度从30飙到80 TPS。原文
17:36IT之家(博客/媒体)精选理想在 Livis Day 上宣布马赫 Mind-Pro 模型全面落地 L9。该模型在 IFEval 指令跟随、LongBench-v2 超长文本理解、AIME26 高阶数学推理、BFCL-v4 工具调用等基准上位列第一梯队。其 Token 生成速度、任务完成质量、成本、端到端响应时延达到可量产水平。模型采用多模态流式时序建模,能连续理解动态物理世界并自主决策。所有能力在车端本地完成,数据不上传。AI模型马赫 Mind-Pro理想L9多模态车载AI推荐理由:理想把马赫 Mind-Pro 模型塞进 L9 了,指令跟随和推理稳居第一梯队,多模态本地跑还不传数据,车载 AI 这波挺实在。原文
07:21宝玉的分享@宝玉文章指出 Claude Design 的核心能力在于模型能同时处理 UI/UX、数据结构、状态管理和交互逻辑,而非依赖 Harness 工具。Codex 目前缺乏类似产品,因为其模型在跨领域整合上存在差距。作者分析认为,Codex 需要提升模型对多模态和逻辑的协同处理能力,才能推出类似产品。AI模型CodexClaude Design多模态UI/UX模型能力1 个信源在谈推荐理由:分析 Codex 与 Claude Design 的差距原文
01:21Decoder@Jonathan KemperCount Anything 是首个能通过文本提示计数任意图像中物体的 AI 模型,在对比测试中将错误率降低 50%。该模型可处理从人群到显微镜下细胞样本等场景,但在极度密集物体和模糊术语上仍有困难。AI模型Count Anything计数模型多模态图像分析推荐理由:计数准确率翻倍原文
17:51IT之家(博客/媒体)科大讯飞在2026长三角机器人及自动化展览会上发布星火多模态大模型 X2-VL,这是当前唯一基于全国产算力训练的主流大模型,采用专属 MoE 架构。该模型基于无锡本地算力平台太湖星跃平台加速训练。在高中各科图文试题测试中,X2-VL 答题准确率接近95%。在挑战2026年高考数学全国I卷中,X2-VL 获得148分,超过模型A(144分)和模型B(143分)。AI模型星火X2-VL科大讯飞多模态国产算力MoE架构推荐理由:国产算力训练的模型,高考数学148分原文
17:22量子位@一水精选Jiuwen Symbiosis是一个将AI Agent与物理实体结合的框架,通过整合传感器、执行器和实时控制,使Agent能直接与环境交互。该框架在工业机器人测试中实现了90%的任务完成率,相比传统方案提升30%。它支持多模态感知(视觉、触觉、力觉)和动态规划,已在仓储物流场景中部署。实践表明,这种具身智能系统能有效处理非结构化环境中的复杂操作。AI模型Jiuwen Symbiosis智能体具身智能多模态工业机器人推荐理由:让AI Agent动起来干活原文
13:23IT之家(博客/媒体)6月12日,MiniMax 开源了新一代原生多模态旗舰模型 M3。同日,摩尔线程宣布其旗舰级 AI 训推一体智算卡 MTT S5000 已完成对该模型的 Day-0 适配。MTT S5000 凭借硬件级原生 FP8 加速,单卡 AI 算力(稠密)高达 1000 TFLOPS,配备 80GB 显存与 1.6TB/s 带宽,支撑百万 token 级长序列。适配通过原生算子定制提升推理吞吐并降低延迟,同时同步拉起 vLLM 与 SGLang 两大推理框架。AI模型MiniMax M3摩尔线程MTT S5000多模态推理框架7 个信源在谈推荐理由:摩尔线程让国产模型跑得更快原文
10:02pandaily@contact@pandaily.com (Pandaily)精选华为在HDC 2026上推出HarmonyOS 7开发者测试版,系统从应用平台转型为智能任务平台。新架构以Agent为核心,支持任务自动编排与跨设备协同。开发者可通过ArkTS语言和API构建智能体,实现语音、视觉等多模态交互。HarmonyOS 7计划于2026年第三季度正式商用。AI产品HarmonyOS 7华为智能体多模态开发者测试版1 个信源在谈推荐理由:华为系统全面转向智能体原文
09:47IT之家(博客/媒体)精选华为云与MiniMax达成深化合作,基于昇腾算力底座为M3模型提供Tokens算力支持。M3采用MSA注意力架构,支持1M超长上下文,是原生多模态模型,可处理图片、视频输入并操作电脑桌面。在SWE-Bench Pro上,M3超过GPT-5.5和Gemini 3.1 Pro,接近Opus 4.7;在SVG-Bench上超过Opus 4.7;在OmniDocBench上超过Gemini 3.1 Pro;在Claw-Eval上获得最高分。华为云通过昇腾算力优化MSA算子和MOE均衡,保障M3大规模推理性能。AI模型MiniMaxM3华为云昇腾多模态1 个信源在谈推荐理由:华为云联手MiniMax,M3多模态模型开源原文
17:21IT之家(博客/媒体)金山办公在“WPS AI Next”活动中发布了 AI 原生多模态笔记产品——WPS 笔记。该产品摒弃传统笔记“用户整理、工具存储”的旧范式,将 AI 能力贯穿从记录到复用的全过程。它支持语音、图片、文字、网页等多模态录入,具备实时转写与 AI 纠正、多级 AI 自动标签、全域多模态检索等功能。此外,WPS 笔记还内置 WPS 灵犀助手,并支持外部 MCP 接入,让笔记成为 AI 应用的知识入口。体验者认为,WPS 笔记重构了笔记应用的设计逻辑,真正实现了知识的无缝流动。AI产品WPS 笔记AI 笔记多模态知识管理MCP/工具推荐理由:WPS 笔记用 AI 解决了传统笔记“存了难找、整理费时”的痛点,做知识管理、会议记录、学习整理的人可以直接上手,省去手动分类和检索的麻烦。原文
20:42IT之家(博客/媒体)字节跳动旗下火山引擎宣布 Agent Plan 和 Coding Plan 限时优惠,即日起至 2026 年 8 月 27 日,新购或续费 40 元、200 元档位可享首两个月 2.5 折,最低 9.9 元/月。两个套餐均集成 MiniMax M3、DeepSeek V4、GLM-5.1 等前沿模型,Agent Plan 还内置字节自研多模态模型和 Harness 工具。这是业界首个“Agent 套餐包”,旨在降低企业使用 AI 智能体和编程助手的门槛。优惠力度大,适合开发者和小团队低成本体验。AI产品智能体编程助手火山引擎限时优惠多模态1 个信源在谈推荐理由:火山引擎把 AI 智能体和编程助手的价格打到了 9.9 元起,做开发或自动化的小团队可以直接薅羊毛,首两个月 2.5 折值得冲。原文
15:24Decoder@Jonathan Kemper83°阿里巴巴Qwen团队发布Qwen3.7-Plus,这是一个多模态智能体模型,集视觉感知、GUI操作和编码于一体。在演示中,基于该模型的智能体自主开发了一款词汇学习应用,在11小时内通过1000次智能体调用生成了超过10000行代码。该模型在Qwen自己的基准测试中屏幕理解能力领先,但整体性能参差不齐。Qwen3.7-Plus是专有模型,未开源,定价远低于西方前沿模型。AI模型多模态智能体Qwen3.7-Plus阿里巴巴自主开发1 个信源在谈推荐理由:阿里将多模态AI推向自主智能体新高度,做GUI自动化或端到端应用开发的团队值得关注——它能自己写代码、操作界面,11小时产出上万行代码,效率惊人。原文
22:52Google Blog: AI(博客/媒体)Google 在2026年5月发布了一系列AI更新,涵盖模型、产品和工具。其中包括Gemini模型的重大升级,提升了多模态理解和推理能力。同时,Google推出了新的AI编程助手,支持更高效的代码生成和调试。此外,还发布了面向企业的AI解决方案,旨在优化工作流程和决策效率。这些更新标志着Google在AI领域的持续投入,旨在为开发者和企业用户提供更强大的工具。AI产品GeminiAI编程助手企业AI多模态Google推荐理由:Google 的5月更新为AI开发者和企业用户带来了更强大的模型和工具,尤其是Gemini的升级和编程助手,值得关注和尝试。原文
09:56Pandaily@contact@pandaily.com (Pandaily)精选浙江大学与康奈尔大学、新加坡国立大学、西安电子科技大学合作开发视觉推理系统VisualThink-VLA。该系统让机器人直接通过视觉信息推理,无需语言内省,相比文本方法提速22.8倍,同时精度更高。在多个视觉-语言任务上,VisualThink-VLA达到SOTA。AI模型VisualThink-VLAZhejiang University视觉推理机器人多模态推荐理由:机器人用眼睛思考,快22倍原文
04:32Hugging Face: Blog(博客/媒体)NVIDIA 推出 Nemotron 3.5 Content Safety,这是一款面向全球企业 AI 的可定制多模态安全模型。它支持文本和图像输入,能够检测有害内容(如仇恨言论、暴力、色情等),并允许企业根据自身政策进行微调。该模型基于 Llama 3.1 架构,提供 8B 和 70B 两种规模,在多个安全基准上表现优异。Nemotron 3.5 旨在帮助企业安全部署生成式 AI,满足不同地区的合规要求。AI模型NVIDIANemotron 3.5内容安全多模态企业AI10 个信源在谈推荐理由:企业部署 AI 最头疼的就是内容安全合规,NVIDIA 这个模型直接让企业按自己的政策微调安全过滤规则,做 AI 应用落地的团队值得关注。原文
04:27Decoder@Matthias Bastian78°Google DeepMind 发布了 Gemma 4 12B 开源模型,原生支持文本、图像和音频处理,仅需 16GB 内存即可在笔记本上运行。该模型在基准测试中几乎与两倍大小的 26B 模型持平,并采用 Apache 2.0 许可证,允许商业使用。这标志着多模态 AI 在消费级硬件上的重大突破,降低了开发者和企业的使用门槛。AI模型多模态开源/仓库Gemma 4Google DeepMind本地推理10 个信源在谈推荐理由:多模态模型终于能跑在普通笔记本上了,做本地 AI 应用或边缘计算的开发者可以直接下载试试,性能还接近两倍大的模型。原文
17:15marktechpost@Michal Sutter83°阿里Qwen团队在百炼平台推出Qwen3.7-Plus,这是一个多模态智能体模型。它不仅能理解图像和视频,还新增了自主编程、工具调用和深度推理能力。该模型支持视觉理解、复杂推理和自动化迭代,可应用于更广泛的AI任务场景。这标志着阿里在构建全能型AI智能体方面迈出重要一步。AI模型Qwen3.7-Plus多模态智能体工具调用百炼平台3 个信源在谈推荐理由:Qwen3.7-Plus把视觉、推理和工具调用整合到一个模型里,做多模态应用的开发者可以直接在百炼平台体验,省去拼接多个模型的麻烦。原文