全部 AI 动态 · AI 热点

6月25日

17:30

Decoder@Matthias Bastian

71°

Google 将“Computer Use”能力直接集成到 Gemini 3.5 Flash，使模型可自主操作电脑、浏览器和移动设备。在 OSWorld 基准测试中，Gemini 3.5 Flash 得分 78.4，与 GPT-5.5 成绩相当。开发者可利用 Gemini API 构建用于软件测试或办公自动化的智能体。

推荐理由：Google 把屏幕操控塞进了 Gemini 3.5 Flash，OSWorld 得分和 GPT-5.5 差不多。开发者直接用 API 就能做自动化，很实在。

原文

16:54

16:54IT之家（博客/媒体）

月之暗面B端负责人黄震昕在亚马逊云科技中国峰会上表示，Kimi的B端业务占比持续提升，海外业务快速增长，员工规模仅300多人且优先投入模型研发。用户对高性能Token有溢价支付意愿，但Kimi通过Cache命中率优化等技术降低成本，目前Cache命中率已超过90%。6月12日月之暗面开源了Kimi K2.7 Code编程模型，相比K2.6在长上下文编程指令遵循和长程编程任务性能上显著提升，平均token消耗减少30%。

AI模型 Kimi K2.7 Code 月之暗面编程助手开源模型

推荐理由：月之暗面想和OpenAI、Google、Anthropic掰手腕，B端业务起来了，还开源了编程模型K2.7 Code，token省30%。

原文

16:26

pandaily@contact@pandaily.com (Pandaily)

6月23日，字节跳动正式推出旗舰大语言模型Doubao-Seed-2.1 Pro（豆包2.1 Pro）。该模型每日token调用量达到180万亿，突破生产级应用阈值。这一指标表明模型在稳定性和吞吐量上已能满足大规模商业部署需求。

AI模型 ByteDance Doubao-Seed-2.1 Pro 大语言模型生产级

推荐理由：字节家的豆包2.1 Pro每天能处理180万亿个token，直接跨过生产级门槛，做大规模AI应用时可以考虑它。

原文

16:21

Pandaily@contact@pandaily.com (Pandaily)

RoboScience推出Visics，一个跨平台具身AI模型，能泛化到不同机器人、物体和任务。该模型基于端到端架构，在模拟和真实环境中均表现优越。实验显示，Visics在多种操作任务上成功率超过85%，远超现有基线方法。

AI模型 Visics RoboScience 具身智能机器人通用模型

推荐理由：RoboScience出了个Visics模型，能跨不同机器人干活，不用每换一种就重新训练，有点意思。

原文

16:06

16:06IT之家（博客/媒体）

精选

商汤科技正在研发代号U1 Pro的多模态模型，聚焦设计场景，对标OpenAI GPT-Image 2。该模型由联合创始人林达华牵头，属于日日新家族，预计7月启动内部邀请测试。支持8K分辨率输出，能实现设计-生成-评审长程循环。内部评测显示，相同提示词下U1 Pro生成图片质量接近甚至优于GPT-Image 2。LMSYS Chatbot Arena中GPT-Image 2文生图评分领先谷歌Nano Banana 2。

AI模型商汤科技 U1 Pro GPT-Image 2 多模态图像生成

推荐理由：商汤新模型U1 Pro专攻设计，对标GPT-Image 2，内部评测更优，支持8K输出，7月内测。

原文

15:45

15:45IT之家（博客/媒体）

精选71°

百度于6月22日开源Unlimited OCR模型，总参数30亿，推理时仅激活5亿参数。该模型基于DeepSeek OCR架构，采用两级视觉编码和16倍token压缩，将1024×1024的PDF图像压缩为256个视觉token。训练基于DeepSeek OCR检查点继续训练4000步，使用约200万文档样本，在8×16 A800 GPU上运行。在OmniDocBench v1.5上整体得分93.23，高于DeepSeek OCR的87.01和DeepSeek OCR 2的89.17。文本编辑距离0.038，公式CDM 92.61，表格TEDS 90.93，读序编辑距离0.045。

AI模型 Unlimited OCR DeepSeek OCR 百度 OCR 文档解析

推荐理由：百度开源了一个能一次性解析长文档的OCR模型，不再越处理越慢，性能还超过了DeepSeek OCR。

原文

13:45

marktechpost@Asif Razzaq

精选

百度开源Unlimited OCR，一个3B参数的MoE模型，能在单次前向推理中解析数十页文档。其突破性的Reference Sliding Window Attention (R-SWA)机制使KV缓存保持恒定，随着输出增长内存和延迟不变。模型在OmniDocBench v1.5基准上获得93.23分，比DeepSeek OCR基线高出6.22分。该模型采用MIT许可证开源。

AI模型 Unlimited OCR Baidu DeepSeek OmniDocBench OCR

推荐理由：百度开源了一个3B参数的OCR模型，能一口气解析几十页文档，KV缓存不膨胀，性能直接碾压DeepSeek。

原文

10:03

Pandaily@contact@pandaily.com (Pandaily)

中国自主研发的LineShine超级计算机在2025年6月TOP500榜单中排名第一，采用纯CPU设计，未使用任何GPU加速器。该系统峰值性能达到每秒1.0 exaflops，超越美国Frontier超算（1.2 exaflops）但以纯CPU架构实现。这是中国超算时隔多年后重回榜首，展示了国产处理器在高性能计算领域的突破。

AI模型 LineShine 超级计算机 TOP500 纯CPU 中国

推荐理由：中国造了一台纯CPU的超算，没用GPU却拿了全球第一，和美国的Frontier路数完全不同，值得一看。

原文

10:00

Pandaily@contact@pandaily.com (Pandaily)

76°

火山引擎已具备批量生产与Anthropic Opus 4.6水平相当的模型的能力。该平台通过优化将成本降至远低于竞争对手的水平。字节跳动旗下的AI工厂正全速运转以扩大产能。

AI模型火山引擎 ByteDance Opus 4.6 模型量产

推荐理由：字节跳动的火山引擎搞定了Opus 4.6级别模型的量产，成本比Anthropic低很多，值得关注。

原文

08:56

08:56IT之家（博客/媒体）

73°

OpenAI于6月25日再次升级GPT-5.5 Instant模型，新版本在理解用户意图和上下文关联上表现更佳。此前该模型在医学、法律等领域将幻觉减少了52.5%，数学和视觉推理能力也显著提升。本次升级后，模型处理多条件约束任务更可靠，购物推荐和本地推荐结果更连贯。付费用户即日可更新，免费用户次日接入。

AI模型 OpenAI GPT-5.5 Instant 意图理解购物推荐多任务

推荐理由：OpenAI又悄悄给GPT-5.5 Instant升级了，这次更懂你的言外之意，买东西问它推荐更靠谱。

原文

06:48

06:48IT之家（博客/媒体）

74°

谷歌下一代模型 Gemini 3.5 Pro 原计划 6 月推出，现已推迟至 7 月。推迟原因是预留更多时间收集早期测试用户反馈，并对模型进行优化。该模型在长文本任务和驱动智能体两大方向实现性能提升。谷歌已将从 Flash 3.5 模型用户反馈中获得的经验融入 Gemini 3.5 Pro，尤其是针对 token 消耗过快的问题进行了改进。

AI模型 Gemini 3.5 Pro 谷歌 Flash 3.5 智能体长文本

推荐理由：谷歌把 Gemini 3.5 Pro 推迟到 7 月，就是为了打磨长文本和智能体能力，看看能不能追上 OpenAI 和 Anthropic。

原文

04:06

marktechpost@Asif Razzaq

精选

Gradium推出两个实时语音翻译模型stt-translate和s2s-translate，覆盖英语、法语、德语、西班牙语、葡萄牙语共20个语言对。模型采用双阶段架构，将传统三模型级联简化为两个：单次转录+翻译后连接Gradium TTS，通过单个双工WebSocket运行。据Gradium报告，该模型在准确性和延迟上优于gpt-realtime-translate和gemini-3.5-live-translate。模型还支持输出语音选择和语音克隆功能。

AI模型 Gradium stt-translate s2s-translate 语音翻译实时翻译

推荐理由：Gradium发了两个实时语音翻译模型，准确率和速度都超过了GPT的实时翻译，还能选声音和克隆，做多语言交流很实用。

原文

04:00

Decoder@Matthias Bastian

OpenAI更新了其最常用的ChatGPT模型GPT-5.5 Instant，重点提升对话质量。新版模型在意图识别上更准确，能更好理解用户真实需求。它还改进了多轮上下文处理，在复杂的多条件提示下表现更可靠。此次更新直接面向所有ChatGPT用户。

AI模型 GPT-5.5 Instant OpenAI ChatGPT 对话理解

推荐理由：OpenAI悄声升级了GPT-5.5 Instant，现在它更懂你的真实意图，多轮对话也不容易跑偏了。

原文

01:33

Decoder@Matthias Bastian

智谱AI的GLM-5.2在Snowflake的103项编程任务基准测试中，性能接近Claude Opus 4.7，但每输出token成本仅为后者的五分之一。不过GLM-5.2每任务消耗的token数量几乎是Opus 4.7的两倍。这一价格差异对Anthropic和OpenAI构成压力，可能影响西方AI实验室的估值。

AI模型 GLM-5.2 Opus 4.7 智谱AI Snowflake 推理模型

推荐理由：智谱AI新模型GLM-5.2用Opus 4.7五分之一的价格做差不多的活，就是更费token，性价比很猛。

原文

6月24日

22:45

22:45IT之家（博客/媒体）

360在ISC.AI 2026大会上发布AI安全两大核心能力：漏洞自动化挖掘智能体“图龙锋”和网络安全自动化防御系统“仪天阵”。图龙锋已累计挖掘漏洞3432个，其中监管确认105个，多个被国家漏洞库定义为高危。仪天阵面向安全运营和自动化防御，推动安全运营智能化。周鸿祎称图龙锋已具备与Anthropic Mythos同等能力，后者曾因自主发现漏洞引发美国网络安全公司股价暴跌。

AI模型 360 图龙锋仪天阵 Mythos AI安全

推荐理由：360搞出了对标Mythos的图龙锋，能自动挖漏洞，已经挖了3400多个，还带防御系统仪天阵，值得一看。

原文

17:51

Decoder@Maximilian Schreiner

Mistral AI推出OCR 4模型，专门用于从PDF、Word和PowerPoint等文档中读取文本。公司称在盲测中，OCR 4在72%的案例中表现优于竞品。该模型专注于文档文本提取，与现有OCR方案相比有显著提升。

AI模型 Mistral OCR 4 文档处理多模态基准测试

推荐理由：Mistral新出的OCR 4在盲测里赢了七成多对手，专治PDF和PPT文字提取，文档党可以看看。

原文

16:19

Pandaily@contact@pandaily.com (Pandaily)

精选

Moonshot AI推出Kimi K2.7 Code模型，改变了AI编码的核心范式：不再从零生成代码，而是通过分析现有产品的行为来重建代码。K2.7 Code在内部测试中表现出对复杂逻辑的精准还原能力，与主流代码生成模型（如GitHub Copilot）的生成式思路形成根本区别。该模型尚未公开基准分数，但其思路为AI编程工具提供了新方向。

AI模型 Kimi K2.7 Moonshot AI 编程助手 AI编码

推荐理由：Moonshot AI的Kimi K2.7 Code不走寻常路，不写新代码而专注复刻现有产品行为，和Copilot那套完全不一样，值得搞AI编码的人关注。

原文

15:30

marktechpost@Asif Razzaq

76°

UC San Diego推出DFlash，用轻量级块扩散模型替代自回归起草器，实现投机解码。该方法通过单次前向传播生成整块token，并利用KV注入条件于目标隐藏特征。在Qwen3-8B上达到6.08倍无损加速，NVIDIA报告在Blackwell上固定交互性下吞吐量提升15倍。DFlash已发布20个检查点，支持SGLang、vLLM和TensorRT-LLM。

AI模型 DFlash Qwen3-8B NVIDIA Blackwell 投机解码推理加速

推荐理由：UC San Diego搞了个新方法DFlash，用扩散模型直接生成整段token，比自回归快几倍，Qwen3-8B上6倍加速，Blackwell上15倍，还开源了检查点，搞推理加速的可以看看。

原文

13:09

13:09IT之家（博客/媒体）

美国政府官员透露，Anthropic的Mythos模型在测试中仅用数小时就定位出高度机密政府计算机系统的多处漏洞。测试隶属于Anthropic的Project Glasswing项目，旨在保护关键软件系统并防范模型滥用风险。弗吉尼亚州参议员马克·沃纳在听证会上称该工具几乎攻破全部机密系统。不过官员强调，模型能发现漏洞不等于能同等时间利用这些漏洞发起攻击。

AI模型 Anthropic Mythos AI安全漏洞检测模型测试

推荐理由：Anthropic的Mythos模型能快速找到政府机密系统漏洞，而且只用了几个小时，不是几个星期。想了解最新AI安全测试成果的可以看看。

原文

12:40

12:40IT之家（博客/媒体）

OpenAI 正在 ChatGPT 网页版和 App 中测试双向语音模型 Bidi 1。该模型位于设置中的模型选择器，与标准语音和高级语音并列。Bidi 1 支持双向并行对话：用户可在模型说话时继续说话或打断，模型会立即响应新指令。测试案例中，用户让模型从 1 数到 10，中途打断要求倒数，模型立即执行。

AI模型 OpenAI ChatGPT Bidi 1 语音模型双向对话

推荐理由：ChatGPT 新语音模型 Bidi 1 能边听边回应，你说话时可以随时打断它，反应超快，去试试吧。

原文

11:48

11:48IT之家（博客/媒体）

76°

阿里巴巴千问发布Qwen-AgentWorld，这是首个原生语言世界模型。提供两种规模（35B-A3B与397B-A17B）。模型能同时模拟文本类和GUI类环境，覆盖七大领域。通过三阶段训练（CPT、SFT、RL）构建世界建模能力。在Tool Decathlon、MCPMark和WideSearch基准上验证了可控模拟效果。AgentWorldBench已在Hugging Face发布。

AI模型 Qwen-AgentWorld 阿里千问智能体环境模拟 Hugging Face

推荐理由：阿里千问发布的这个Qwen-AgentWorld模型，能模拟智能体在七个领域的交互环境，还能当环境模拟器或智能体基础模型，挺有意思的。

原文

09:45

09:45IT之家（博客/媒体）

71°

火山引擎发布豆包音频生成模型1.0（Doubao-Seed-Audio 1.0），首次支持将文本、音频等多模态输入端到端生成目标音频。该模型能在长时生成中保持多角色音色一致性，减少后期修音工作。单条Prompt可编排角色对白、情绪语气、背景音乐等，直接产出完整音频作品。火山方舟已开启API邀测，个人用户可体验30分钟创作额度。

AI模型豆包音频生成模型1.0 火山引擎音频生成多模态音色一致性

推荐理由：火山引擎新模型能一次编排对白、音效、配乐，还能保持10分钟的角色音色一致，省掉后期对轨修音，音频创作者值得一试。

原文

08:24

08:24SuperTechFans（博客/媒体）

精选

Mistral于2026年6月24日发布OCR 4模型，新增边界框、区块分类和置信度分数。该模型在内部盲评和公开基准测试中性能领先，支持170种语言，可自托管部署。

AI模型 Mistral OCR 4 多模态自托管模型发布

推荐理由：Mistral新出的OCR 4能自己部署，支持170种语言，还带边界框和置信度分数，识别效果领先，做文档处理很合适。

原文

07:48

marktechpost@Asif Razzaq

精选

Mistral AI 于2026年6月23日发布 OCR 4，从纯文本提取升级为结构化文档输出。每个文本块返回边界框、类型分类以及每页和每词的置信度分数。该模型支持170种语言，可在单个自托管容器中运行，通过单一API端点向RAG、智能体和企业搜索管道提供可引用的输入。

AI模型 Mistral OCR 4 RAG 智能体企业搜索

推荐理由：Mistral 出了 OCR 4，能提取带边界框和置信度的结构化内容，方便直接用于 RAG 和搜索，支持170种语言还自托管，很实用。

原文

03:42

marktechpost@Asif Razzaq

精选

Datalab发布了lift，一个9B参数的开源视觉模型。该模型能将PDF与图像转换为符合给定schema的JSON结构。它使用schema约束解码确保输出有效，并训练弃权机制避免幻觉，在225份文档的基准上达到90.2%的字段准确率。

AI模型 Datalab lift 视觉模型文档解析 JSON提取

推荐理由：Datalab的lift模型能自动把PDF转成你需要的JSON格式，准确率90.2%，还不会瞎编字段。

原文

01:08

01:08OpenAI Blog（博客/媒体）

GPT-5 Pro协助免疫学家Derya Unutmaz破解了持续3年的T细胞行为之谜，为癌症和自身免疫疾病研究提供新线索。该模型通过分析复杂免疫数据，识别出此前未知的T细胞激活模式。研究成果被OpenAI以案例形式发布，展示了大模型在基础科学中的应用潜力。

AI模型 GPT-5 OpenAI 免疫学 T细胞科研应用

推荐理由：OpenAI用GPT-5 Pro帮科学家搞定了3年没解的免疫难题，不是画饼是真能干活，科研党可以看看怎么用的。

原文

6月23日

23:00

量子位@十三

73°

字节跳动发布豆包2.1，其Agent可在18小时内自动完成芯片设计代码编写。在编程基准测试中，豆包2.1的表现比肩Opus 4.7。该版本强化了自主编程和长时任务执行能力，适用于复杂工程场景。

AI模型豆包2.1 字节跳动智能体芯片设计编程能力

推荐理由：豆包2.1的Agent太能干了，独自跑18小时写出芯片代码，编程水平还追上了Opus 4.7，做硬件的可以关注下。

原文

20:33

Decoder@Maximilian Schreiner

74°

字节跳动在火山引擎FORCE大会上发布了五款新AI模型，其中Seedance 2.5视频模型计划于7月初上线。Seedance 2.5将AI视频生成时长从行业常见的十几秒提升至30秒，支持更高分辨率和一致性。该模型基于扩散架构，有望在短视频创作和广告领域应用。

AI模型 Seedance ByteDance 视频生成 30秒

推荐理由：字节跳动新发布的Seedance 2.5视频模型能直接生成30秒视频，比之前模型长一倍，做短视频创作者可以试试。

原文

19:06

Decoder@Matthias Bastian

精选

OpenAI 通过其 Daybreak 网络安全计划推出了更新版 Codex Security 插件和完整的 GPT-5.5-Cyber 模型，同时宣布与超过 25 家安全公司及多个政府合作。新模型专注于从发现漏洞转向自动修补漏洞。在网络安全基准测试中，GPT-5.5-Cyber 的性能超过了 Anthropic 的 Mythos 模型。

AI模型 GPT-5.5-Cyber Anthropic Mythos OpenAI 网络安全

推荐理由：OpenAI 新出的 GPT-5.5-Cyber 专攻网络安全，能自动修补漏洞，基准测试里已经跑赢了 Anthropic 的 Mythos。

原文

19:03

19:03IT之家（博客/媒体）

网易有道发布Confucius4-TTS，这是业内首个支持14种语言跨语种无口音的开源TTS模型。用户仅需提供3秒音频素材，无需参考文本即可完成零样本语音克隆，克隆音色与原声相似度超85%，准确度达97%。模型采用GPT式语义大模型搭配Flow Matching流匹配生成框架，支持音频Prompt情感克隆迁移，可跨语种保留语调韵律。全量开源（Apache协议），提供54GB完整资源包，商用无限制，适用于多语种内容生成、数字人配音等场景。

AI模型 Confucius4-TTS 网易有道语音克隆开源模型 TTS

推荐理由：网易新开源Confucius4-TTS，3秒克隆你的声音，还能用这个声音说14种外语没口音，全开源随便用，做配音超方便。

原文

16:21

Pandaily@contact@pandaily.com (Pandaily)

百度推出Unlimited-OCR技术，核心是Constant KV Cache方法，专为超长文档设计。该技术在长文档OCR任务上取得SOTA性能，解决了传统KV缓存随文档长度线性增长的问题。Constant KV Cache将缓存大小保持常数，显著降低内存占用和推理延迟。

AI模型 Unlimited-OCR Constant KV Cache 百度 OCR 长文档

推荐理由：百度搞了个Unlimited-OCR，用Constant KV Cache解决长文档识别，缓存不爆炸，性能还最强，适合处理几百页的合同或文献。

原文

15:48

OpenAI@OpenAI (@OpenAI)

OpenAI推出了GPT-5.5-Cyber，这是其最强大的网络模型，专注于高级授权防御任务。该模型能够追溯脆弱代码、验证漏洞、开发补丁，并为人工审查准备证据。这是开源模型在基准测试中首次达到GPT-3.5水平，仅用1/10的计算量。

AI模型 GPT-5.5-Cyber OpenAI 网络安全防御工作漏洞修复

推荐理由：OpenAI搞了个专门搞网络安全的模型GPT-5.5-Cyber，能自动找漏洞、打补丁，干活比人快还准，安全团队有福了。

原文

15:21

15:21IT之家（博客/媒体）

精选73°

OpenAI于6月22日发布GPT-5.5-Cyber网络安全专用模型，面向Daybreak项目有限开放。该模型在CyberGym测试中取得85.6%的得分，超过Claude Mythos 5的83.8%和GPT-5.5的81.8%。在ExploitGym测试中得分为39.5%，而GPT-5.5为25.95%。在SEC-bench Pro测试中得分69.8%，GPT-5.5为63.1%。

AI模型 GPT-5.5-Cyber OpenAI Claude Mythos 5 CyberGym 网络安全

推荐理由：OpenAI新出的网络安全大模型GPT-5.5-Cyber挺猛，CyberGym跑分超了Claude Mythos 5，安全团队可以关注一下。

原文

14:21

14:21IT之家（博客/媒体）

Sakana AI 推出多智能体编排系统 Sakana Fugu，它是一个语言模型，可根据任务智能调用包括自身在内的最适模型，并封装为单一 API。初始提供平衡型 Fugu 和面向复杂问题的 Fugu Ultra 两种版本。Sakana AI 宣称 Fugu Ultra 在部分工程、科学和推理基准测试中可提供与 Anthropic Fable 5 / Mythos Preview 相当甚至更优的性能。该系统帮助用户避免对单一供应商的依赖。

AI模型 Sakana Fugu Sakana AI Anthropic Fable 5 模型编排

推荐理由：日本 Sakana AI 搞了个 Fugu 系统，能自动选最好的模型干活，Fugu Ultra 在某些测试上比 Anthropic Fable 5 还强，值得看看。

原文

12:27

12:27IT之家（博客/媒体）

72°

AI模型豆包 Seedance 2.5 视频生成字节跳动周星驰

推荐理由：字节跳动新视频模型 Seedance 2.5 能直接生成 30 秒长视频，还支持 50 个全模态素材输入，马上 7 月就能用上了。周星驰经典片段也能用 AI 二次创作，挺有意思。

原文

10:06

10:06IT之家（博客/媒体）

字节跳动发布的豆包Seed 2.1系列包括Pro和Turbo两个版本，Pro面向高复杂度任务，Turbo面向大规模生产。该系列在Coding工程交付、Agent长链路任务执行和多模态理解三大方向实现升级。价格方面，Pro模型推理输入6元/百万tokens（缓存命中1.2元），推理输出30元/百万tokens；Turbo模型推理输入3元/百万tokens（缓存命中0.6元），推理输出15元/百万tokens。同时发布了每周至少更新一次版本的Seed-Evolving模型和面向泛娱乐的角色模型Character。

AI模型豆包Seed 2.1 字节跳动推理模型多模态智能体

推荐理由：字节新出的豆包Seed 2.1 Pro和Turbo，专门优化编程、智能体和多模态任务，Pro适合高难度场景，Turbo便宜且效率高，很适合接项目用。

原文

02:51

marktechpost@Asif Razzaq

精选73°

Sakana AI 推出 Sakana Fugu，一种编排模型，可将用户任务动态路由至可替换的前沿 LLM 池。其增强版 Fugu Ultra 在多个编码、推理和智能体基准测试中取得领先成绩。该模型通过选择最适合的模型来提升任务效率，无需用户手动切换。

AI模型 Sakana AI Sakana Fugu 编排模型智能体推理模型

推荐理由：Sakana AI 搞了个 Fugu 编排模型，能自动在多个前沿 LLM 之间切换最优选择，在编码和推理基准上表现很突出。

原文

00:48

AWS Machine Learning Blog@Gilbert V Lepadatu

精选

AWS博客介绍了基于Amazon Bedrock和OpenSearch Serverless构建的可搜索航空影像系统架构。团队使用OpenStreetMap地面实况数据设计了四项实验，对比了嵌入模型、融合策略、字幕生成和搜索方法。其中Amazon Nova Multimodal Embeddings在基准查询中取得了最高的F1分数。该系统最终演变为Vexcel Intelligence产品，为地理空间语义搜索提供了实用指导。

AI模型 Amazon Nova Multimodal Embeddings Amazon Bedrock OpenSearch Serverless 多模态地理空间搜索

推荐理由：AWS用Amazon Nova做航空影像搜索，F1分数最高，想搞地理空间搜索的可以参考他们的实验设计。

原文

6月22日

23:51

Nathan Lambert: Interconnects@Nathan Lambert

GLM-5.2 是智谱AI推出的新模型，重点提升开放智能体场景下的表现。该模型在工具调用和多步推理任务上取得进展。GLM-5.2 在多项智能体相关基准上展现了更强的自主决策能力。

AI模型 GLM-5.2 Zhipu AI 智能体开放智能体

推荐理由：GLM-5.2 把开放智能体的能力又推了一步，想看智能体怎么进化的可以瞄一眼。

原文

21:30

21:30IT之家（博客/媒体）

生数科技的新一代视频生成大模型 Vidu Q3 上线华为云 MaaS，支持文生视频和图生视频一体化成片。该模型是全球首个“为剧而生”的视频大模型，可生成 16 秒 1080P 画质内容，并实现声画同出、多镜头叙事。Vidu Q3 推出两个版本：Turbo 极速版优化推理速度与成本，适合快速创意打样；Pro 专业版支持 4K 分辨率，面向广告大片等专业场景。模型还具备多国语言文字渲染及多语言输出功能，可用于漫剧、短剧和影视创作。

AI模型 Vidu Q3 华为云生数科技视频生成多模态

推荐理由：生数 Vidu Q3 上线华为云，能一键文/图生视频，支持 16 秒 1080P 和 4K，还有专为剧集设计的镜头叙事能力，做短视频或专业视频都合适。

原文