全部 AI 动态 · AI 热点

6月24日

19:54

Geek@geekbb

Deepseek V4 Flash 是一款小型模型，能完成约 80% 原本需要 Claude 或 Codex 处理的任务。每任务成本仅为 Fable 的 1/137，性价比极高。该模型展示了小模型在特定场景下的实用价值，但需要更优的编排来发挥全部潜力。

推荐理由：小模型 Deepseek V4 Flash 能搞定八成任务，成本只有 Fable 的零头，超划算！

原文

19:12

orange.ai@oran_ge

Cola上线了Seed 2.1 Pro模型，这是一款原生多模态模型，官方声称是目前多模态最强。相比Seed 2.0版本，该模型在Coding和Agent能力上有所增强。用户可通过colaos.ai进行体验。

AI模型 Cola Seed 2.1 Pro 多模态智能体代码能力

推荐理由：Cola刚发了Seed 2.1 Pro，说是多模态最强，coding和agent比2.0强不少，想试试去colaos.ai就行。

原文

17:51

Decoder@Maximilian Schreiner

Mistral AI推出OCR 4模型，专门用于从PDF、Word和PowerPoint等文档中读取文本。公司称在盲测中，OCR 4在72%的案例中表现优于竞品。该模型专注于文档文本提取，与现有OCR方案相比有显著提升。

AI模型 Mistral OCR 4 文档处理多模态基准测试

推荐理由：Mistral新出的OCR 4在盲测里赢了七成多对手，专治PDF和PPT文字提取，文档党可以看看。

原文

16:19

Pandaily@contact@pandaily.com (Pandaily)

精选

Moonshot AI推出Kimi K2.7 Code模型，改变了AI编码的核心范式：不再从零生成代码，而是通过分析现有产品的行为来重建代码。K2.7 Code在内部测试中表现出对复杂逻辑的精准还原能力，与主流代码生成模型（如GitHub Copilot）的生成式思路形成根本区别。该模型尚未公开基准分数，但其思路为AI编程工具提供了新方向。

AI模型 Kimi K2.7 Moonshot AI 编程助手 AI编码

推荐理由：Moonshot AI的Kimi K2.7 Code不走寻常路，不写新代码而专注复刻现有产品行为，和Copilot那套完全不一样，值得搞AI编码的人关注。

原文

15:30

marktechpost@Asif Razzaq

76°

UC San Diego推出DFlash，用轻量级块扩散模型替代自回归起草器，实现投机解码。该方法通过单次前向传播生成整块token，并利用KV注入条件于目标隐藏特征。在Qwen3-8B上达到6.08倍无损加速，NVIDIA报告在Blackwell上固定交互性下吞吐量提升15倍。DFlash已发布20个检查点，支持SGLang、vLLM和TensorRT-LLM。

AI模型 DFlash Qwen3-8B NVIDIA Blackwell 投机解码推理加速

推荐理由：UC San Diego搞了个新方法DFlash，用扩散模型直接生成整段token，比自回归快几倍，Qwen3-8B上6倍加速，Blackwell上15倍，还开源了检查点，搞推理加速的可以看看。

原文

15:24

Stanford AI Lab@StanfordAILab

精选

斯坦福团队提出SPIRAL框架，通过强化学习让LLM在测试时自动协调顺序推理、并行采样和结果聚合。与传统只优化单链推理的训练方法不同，SPIRAL使用set RL训练模型生成对聚合器集体有用的多个候选答案，并用标准RL优化聚合器从这些候选合成改进答案。该方法使所有测试时计算维度（长链、并行样本、聚合）端到端可学习，缩小训练与部署的差距。

AI模型 SPIRAL LLM 强化学习推理模型测试时计算扩展

推荐理由：斯坦福团队发了SPIRAL，让LLM训练时就学会并行采样和聚合答案，不是只会单链思考，更符合实际推理场景。

原文

13:13

vLLM@vllm_project

vLLM 项目宣布支持 DFlash 投机解码，用户只需将 EAGLE-3 检查点替换为 DFlash 检查点即可启用，无需修改代码。该功能通过开源 Speculators 库将 DFlash 草案模型与目标模型的隐藏状态连接。在单块 Blackwell Ultra GPU 上运行 Gemma-4 31B 模型，Math500 基准取得 5.8 倍吞吐量提升，GSM8K 提升 5.3 倍，HumanEval 提升 5.6 倍，MBPP 提升 4.4 倍。

AI模型 DFlash vLLM Gemma-4 NVIDIA 推理优化

推荐理由：vLLM 和 NVIDIA 合作推出 DFlash 投机解码，Gemma-4 31B 推理速度提升近 6 倍，配置只需改一行 checkpoint 路径。

原文

13:09

13:09IT之家（博客/媒体）

美国政府官员透露，Anthropic的Mythos模型在测试中仅用数小时就定位出高度机密政府计算机系统的多处漏洞。测试隶属于Anthropic的Project Glasswing项目，旨在保护关键软件系统并防范模型滥用风险。弗吉尼亚州参议员马克·沃纳在听证会上称该工具几乎攻破全部机密系统。不过官员强调，模型能发现漏洞不等于能同等时间利用这些漏洞发起攻击。

AI模型 Anthropic Mythos AI安全漏洞检测模型测试

推荐理由：Anthropic的Mythos模型能快速找到政府机密系统漏洞，而且只用了几个小时，不是几个星期。想了解最新AI安全测试成果的可以看看。

原文

12:40

小互@imxiaohu

精选

百度发布新 OCR 模型 UnlimitedOCR，支持单次推理解析数百页文档，同时保持高吞吐速度。在 OmniDocBench v1.5 基准上，其准确率达到 93%，比原始 DeepSeek-OCR 基线提升 6 个百分点。模型已开源，可在 Hugging Face 和 GitHub 下载。

AI模型 UnlimitedOCR Baidu OmniDocBench DeepSeek-OCR 文档解析

推荐理由：百度新出的 UnlimitedOCR 能一次处理几百页，速度还很快，直接比 DeepSeek-OCR 高了 6 个点，真正好用。

原文

12:40

12:40IT之家（博客/媒体）

OpenAI 正在 ChatGPT 网页版和 App 中测试双向语音模型 Bidi 1。该模型位于设置中的模型选择器，与标准语音和高级语音并列。Bidi 1 支持双向并行对话：用户可在模型说话时继续说话或打断，模型会立即响应新指令。测试案例中，用户让模型从 1 数到 10，中途打断要求倒数，模型立即执行。

AI模型 OpenAI ChatGPT Bidi 1 语音模型双向对话

推荐理由：ChatGPT 新语音模型 Bidi 1 能边听边回应，你说话时可以随时打断它，反应超快，去试试吧。

原文

12:39

小互@imxiaohu

精选

百度开源的Unlimited OCR模型采用参考滑动窗口注意力（R-SWA）技术，能在32K上下文内一次前向推理处理数十页文档，无需分页。模型仅3B参数、500M激活，显存和算力不随页数增长。传统逐页OCR需要拼接结果，而R-SWA模拟人类连续抄写，始终记忆固定大小的文本。该模型据称基于DeepSeek OCR核心贡献者开发，已在标准长度文档上测试。

AI模型 Unlimited OCR 百度 R-SWA OCR 开源模型

推荐理由：百度开源了一款OCR模型，3B参数就能一次处理几十页PDF，不用切页，比传统逐页OCR强太多。

原文

12:14

arXiv cs.AI@Haorui Ji, Weizhe Liu, Hongdong Li, Hengkai Guo

FLUX3D 提出了一种从单张图像生成高保真 3D 高斯泼溅（3DGS）的新方法。它通过设计 Diffusion-Aligned Structured Latents (DA-SLAT) 改进稀疏体素表示，并用 Sparse-structure Multimodal Diffusion Transformer (SMDiT) 和 Modal-Aware Rotary Positional Embedding (MARoPE) 解决二维图像令牌与三维体素潜在的对齐问题。在多个基准测试中，FLUX3D 在外观保真度上显著优于现有最先进方法，生成的 3DGS 资产质量更高。

AI模型 FLUX3D 3D生成高斯泼溅扩散模型稀疏表示

推荐理由：想从单张图生成高质量3D模型？FLUX3D用扩散对齐稀疏表示解决了细节丢失问题，效果比现有方法好一截，值得搞3D生成的看看。

原文

12:00

arXiv cs.AI@Adhitya Charan, Adwaid Suresh, Anuj Kumar, Aparna A, Dhanakumar K, Dharun M S, Dinesh G, Goutham Kumar Reddy K, Harshini V M, Jenifa D, Jona Delcy C A, Kathirvel S, Killi Uma Maheswara Rao, Kiruthik Kanna M, Kurra Vishnu Sai, Madhumithaa G K, Navin Kumar, Ram Charan Golla, Revathi T, Rishikkanth R, Sanjay Krishna M, Surendra Vendra

BluTrain是一个用标准C++和CUDA实现的AI训练框架。在8-GPU 6000 Ada系统上训练124M参数GPT-2模型（FP32），其吞吐量达407K tokens/s，比PyTorch的395K tokens/s高约3%。同时内存占用减少22%，且严格保持数值精度。框架包含原生实现的张量模块、反向模式自动微分、线性代数库、缓存分配器、分布式执行和MLIR编译器。

AI模型 BluTrain C++/CUDA GPT-2 训练框架性能优化

推荐理由：这个新框架用C++从头写，训练GPT-2比PyTorch快3%且省内存22%，适合追求极致性能的开发者。

原文

11:52

arXiv cs.LG@Hariom Ingle, Ronit Ghode, Ishwari Gondkar, Jidnyasa Harad, Raviraj Joshi

L3Cube-MahaPOS是首个大型人工标注的马拉地语词性标注数据集，包含32,354句新闻文本，遵循16标签Universal Dependencies方案。研究在HMM、CRF、BiLSTM、BiLSTM+CharCNN、MuRIL和MahaBERT-v2六类模型上进行了基准测试。最佳模型MahaBERT-v2达到88.67%的token级准确率和81.67%的宏F1分数。该数据集和模型检查点已开源，可助力马拉地语NLP研究。

AI模型 L3Cube-MahaPOS MahaBERT-v2 Marathi 词性标注数据集

推荐理由：马拉地语有8300万使用者但标注数据稀缺，这个新数据集和MahaBERT模型基准很实用，适合做低资源语言NLP的朋友参考。

原文

11:48

11:48IT之家（博客/媒体）

76°

阿里巴巴千问发布Qwen-AgentWorld，这是首个原生语言世界模型。提供两种规模（35B-A3B与397B-A17B）。模型能同时模拟文本类和GUI类环境，覆盖七大领域。通过三阶段训练（CPT、SFT、RL）构建世界建模能力。在Tool Decathlon、MCPMark和WideSearch基准上验证了可控模拟效果。AgentWorldBench已在Hugging Face发布。

AI模型 Qwen-AgentWorld 阿里千问智能体环境模拟 Hugging Face

推荐理由：阿里千问发布的这个Qwen-AgentWorld模型，能模拟智能体在七个领域的交互环境，还能当环境模拟器或智能体基础模型，挺有意思的。

原文

11:44

arXiv cs.LG@Anurag Akula, Satheesh K. Perepu, Abhishek Sarkar, Kaushik Dey

ASALT是一种针对多智能体强化学习（MARL）的迁移学习方法，解决了源域和目标域观测空间与全局状态空间维度不匹配的问题。该方法引入观测层和状态层适配器，将目标域观测和全局状态映射到共享嵌入空间，支持跨异构域的策略迁移。在标准基准环境的多个配置上，ASALT在合作场景中相比现有基线提升了样本效率和全局回报，但效果依赖于源域与目标域的不匹配程度。实验还表明ASALT能缓解负迁移，这是跨不同观测和动作空间域迁移时的常见障碍。

AI模型 ASALT MARL 多智能体迁移学习强化学习

推荐理由：ASALT这个新方法解决了MARL中状态空间维度不同时知识迁移的难题，实验效果不错，值得做多智能体迁移学习的同学看看。

原文

11:38

arXiv cs.LG@Kamil Kwarciak, Marek Wodzinski

提出 PCFM 模型，基于 PTv3 和流匹配方法进行医学点云补全。在 SkullFix、SkullBreak 和 Mandibular Defect 三个数据集上评估。相对扩散模型（PCDiff），PCFM 采样步数大幅减少，在生成性能上达到最优。在最佳操作点，使用 PTv3 骨干比 PVCNN 快 7 倍。

AI模型 PCFM PTv3 flow matching 点云补全医学图像

推荐理由：这篇论文搞了个 MedPCFM，用流匹配做医学点云补全，比扩散模型快7倍，在好几个头骨和下颌骨数据集上效果最好。

原文

10:56

AI Will@FinanceYF5

Anthropic 在官方博客中发布了 Claude 3.5 Sonnet。该模型在 HumanEval 和 GSM8K 等基准上相比前代有提升。博客还提供了性能细节和定价信息。

AI模型 Anthropic Claude 推理模型编程助手

推荐理由：Anthropic 发了篇博客讲他们的新模型，基准测试成绩比前代好，开发者和研究者可以看看。

原文

09:46

arXiv: DeepSeek@Haichao Chen, Songchi Zhou, Zhengyun Zhao, Shikai Hu, Xianghong Jin, Hongwei Ji, Li He, Shuli Li, Yiming Qin, Xin Tan, Runfeng Shi, Yih Chung Tham, Jiaye Zhu, Ye Li, Ye Jin, Longhao Cao, Dawei Li, Honghan Wu, Hongqiu Gu, Guanqiao Li, Tudor Groza, Chunying Li, Dian Zeng, Weihong Yu, Gareth Baynam, Saumya Shekhar Jamuar, Min Shen, Shuyang Zhang, Bin Sheng, Sheng Yu, Tien Yin Wong

71°

RaDaR是一个32B参数的开源推理大模型，专为罕见病诊断设计。它在公开基准和四个外部验证中心中优于包括671B DeepSeek-R1在内的开源模型。在回顾性队列中，RaDaR在61.06%的病例中比临床怀疑更早给出最终诊断，提前时间1.87个月。在随机医生辅助试验中，RaDaR帮助医生诊断准确率提高21.44个百分点。合成数据消融实验表明表型锚定叙事对长尾罕见病提供有用训练信号。

AI模型 RaDaR DeepSeek-R1 开源模型罕见病诊断推理模型

推荐理由：RaDaR发布了一个32B开源推理模型，罕见病诊断比DeepSeek-R1还强，医生用它准确率提升21%。

原文

09:45

09:45IT之家（博客/媒体）

71°

火山引擎发布豆包音频生成模型1.0（Doubao-Seed-Audio 1.0），首次支持将文本、音频等多模态输入端到端生成目标音频。该模型能在长时生成中保持多角色音色一致性，减少后期修音工作。单条Prompt可编排角色对白、情绪语气、背景音乐等，直接产出完整音频作品。火山方舟已开启API邀测，个人用户可体验30分钟创作额度。