19:54Geek@geekbbDeepseek V4 Flash 是一款小型模型,能完成约 80% 原本需要 Claude 或 Codex 处理的任务。每任务成本仅为 Fable 的 1/137,性价比极高。该模型展示了小模型在特定场景下的实用价值,但需要更优的编排来发挥全部潜力。AI模型Deepseek V4 FlashClaudeCodex小模型成本推荐理由:小模型 Deepseek V4 Flash 能搞定八成任务,成本只有 Fable 的零头,超划算!原文
19:12orange.ai@oran_geCola上线了Seed 2.1 Pro模型,这是一款原生多模态模型,官方声称是目前多模态最强。相比Seed 2.0版本,该模型在Coding和Agent能力上有所增强。用户可通过colaos.ai进行体验。AI模型ColaSeed 2.1 Pro多模态智能体代码能力3 个信源在谈推荐理由:Cola刚发了Seed 2.1 Pro,说是多模态最强,coding和agent比2.0强不少,想试试去colaos.ai就行。原文
17:51Decoder@Maximilian SchreinerMistral AI推出OCR 4模型,专门用于从PDF、Word和PowerPoint等文档中读取文本。公司称在盲测中,OCR 4在72%的案例中表现优于竞品。该模型专注于文档文本提取,与现有OCR方案相比有显著提升。AI模型MistralOCR 4文档处理多模态基准测试推荐理由:Mistral新出的OCR 4在盲测里赢了七成多对手,专治PDF和PPT文字提取,文档党可以看看。原文
16:19Pandaily@contact@pandaily.com (Pandaily)精选Moonshot AI推出Kimi K2.7 Code模型,改变了AI编码的核心范式:不再从零生成代码,而是通过分析现有产品的行为来重建代码。K2.7 Code在内部测试中表现出对复杂逻辑的精准还原能力,与主流代码生成模型(如GitHub Copilot)的生成式思路形成根本区别。该模型尚未公开基准分数,但其思路为AI编程工具提供了新方向。AI模型KimiK2.7Moonshot AI编程助手AI编码推荐理由:Moonshot AI的Kimi K2.7 Code不走寻常路,不写新代码而专注复刻现有产品行为,和Copilot那套完全不一样,值得搞AI编码的人关注。原文
15:30marktechpost@Asif Razzaq76°UC San Diego推出DFlash,用轻量级块扩散模型替代自回归起草器,实现投机解码。该方法通过单次前向传播生成整块token,并利用KV注入条件于目标隐藏特征。在Qwen3-8B上达到6.08倍无损加速,NVIDIA报告在Blackwell上固定交互性下吞吐量提升15倍。DFlash已发布20个检查点,支持SGLang、vLLM和TensorRT-LLM。AI模型DFlashQwen3-8BNVIDIA Blackwell投机解码推理加速8 个信源在谈推荐理由:UC San Diego搞了个新方法DFlash,用扩散模型直接生成整段token,比自回归快几倍,Qwen3-8B上6倍加速,Blackwell上15倍,还开源了检查点,搞推理加速的可以看看。原文
15:24Stanford AI Lab@StanfordAILab精选斯坦福团队提出SPIRAL框架,通过强化学习让LLM在测试时自动协调顺序推理、并行采样和结果聚合。与传统只优化单链推理的训练方法不同,SPIRAL使用set RL训练模型生成对聚合器集体有用的多个候选答案,并用标准RL优化聚合器从这些候选合成改进答案。该方法使所有测试时计算维度(长链、并行样本、聚合)端到端可学习,缩小训练与部署的差距。AI模型SPIRALLLM强化学习推理模型测试时计算扩展推荐理由:斯坦福团队发了SPIRAL,让LLM训练时就学会并行采样和聚合答案,不是只会单链思考,更符合实际推理场景。原文
13:13vLLM@vllm_projectvLLM 项目宣布支持 DFlash 投机解码,用户只需将 EAGLE-3 检查点替换为 DFlash 检查点即可启用,无需修改代码。该功能通过开源 Speculators 库将 DFlash 草案模型与目标模型的隐藏状态连接。在单块 Blackwell Ultra GPU 上运行 Gemma-4 31B 模型,Math500 基准取得 5.8 倍吞吐量提升,GSM8K 提升 5.3 倍,HumanEval 提升 5.6 倍,MBPP 提升 4.4 倍。AI模型DFlashvLLMGemma-4NVIDIA推理优化10 个信源在谈推荐理由:vLLM 和 NVIDIA 合作推出 DFlash 投机解码,Gemma-4 31B 推理速度提升近 6 倍,配置只需改一行 checkpoint 路径。原文
13:09IT之家(博客/媒体)美国政府官员透露,Anthropic的Mythos模型在测试中仅用数小时就定位出高度机密政府计算机系统的多处漏洞。测试隶属于Anthropic的Project Glasswing项目,旨在保护关键软件系统并防范模型滥用风险。弗吉尼亚州参议员马克·沃纳在听证会上称该工具几乎攻破全部机密系统。不过官员强调,模型能发现漏洞不等于能同等时间利用这些漏洞发起攻击。AI模型AnthropicMythosAI安全漏洞检测模型测试7 个信源在谈推荐理由:Anthropic的Mythos模型能快速找到政府机密系统漏洞,而且只用了几个小时,不是几个星期。想了解最新AI安全测试成果的可以看看。原文
12:40小互@imxiaohu精选百度发布新 OCR 模型 UnlimitedOCR,支持单次推理解析数百页文档,同时保持高吞吐速度。在 OmniDocBench v1.5 基准上,其准确率达到 93%,比原始 DeepSeek-OCR 基线提升 6 个百分点。模型已开源,可在 Hugging Face 和 GitHub 下载。AI模型UnlimitedOCRBaiduOmniDocBenchDeepSeek-OCR文档解析8 个信源在谈推荐理由:百度新出的 UnlimitedOCR 能一次处理几百页,速度还很快,直接比 DeepSeek-OCR 高了 6 个点,真正好用。原文
12:40IT之家(博客/媒体)OpenAI 正在 ChatGPT 网页版和 App 中测试双向语音模型 Bidi 1。该模型位于设置中的模型选择器,与标准语音和高级语音并列。Bidi 1 支持双向并行对话:用户可在模型说话时继续说话或打断,模型会立即响应新指令。测试案例中,用户让模型从 1 数到 10,中途打断要求倒数,模型立即执行。AI模型OpenAIChatGPTBidi 1语音模型双向对话10 个信源在谈推荐理由:ChatGPT 新语音模型 Bidi 1 能边听边回应,你说话时可以随时打断它,反应超快,去试试吧。原文
12:39小互@imxiaohu精选百度开源的Unlimited OCR模型采用参考滑动窗口注意力(R-SWA)技术,能在32K上下文内一次前向推理处理数十页文档,无需分页。模型仅3B参数、500M激活,显存和算力不随页数增长。传统逐页OCR需要拼接结果,而R-SWA模拟人类连续抄写,始终记忆固定大小的文本。该模型据称基于DeepSeek OCR核心贡献者开发,已在标准长度文档上测试。AI模型Unlimited OCR百度R-SWAOCR开源模型8 个信源在谈推荐理由:百度开源了一款OCR模型,3B参数就能一次处理几十页PDF,不用切页,比传统逐页OCR强太多。原文
12:14arXiv cs.AI@Haorui Ji, Weizhe Liu, Hongdong Li, Hengkai GuoFLUX3D 提出了一种从单张图像生成高保真 3D 高斯泼溅(3DGS)的新方法。它通过设计 Diffusion-Aligned Structured Latents (DA-SLAT) 改进稀疏体素表示,并用 Sparse-structure Multimodal Diffusion Transformer (SMDiT) 和 Modal-Aware Rotary Positional Embedding (MARoPE) 解决二维图像令牌与三维体素潜在的对齐问题。在多个基准测试中,FLUX3D 在外观保真度上显著优于现有最先进方法,生成的 3DGS 资产质量更高。AI模型FLUX3D3D生成高斯泼溅扩散模型稀疏表示推荐理由:想从单张图生成高质量3D模型?FLUX3D用扩散对齐稀疏表示解决了细节丢失问题,效果比现有方法好一截,值得搞3D生成的看看。原文
12:00arXiv cs.AI@Adhitya Charan, Adwaid Suresh, Anuj Kumar, Aparna A, Dhanakumar K, Dharun M S, Dinesh G, Goutham Kumar Reddy K, Harshini V M, Jenifa D, Jona Delcy C A, Kathirvel S, Killi Uma Maheswara Rao, Kiruthik Kanna M, Kurra Vishnu Sai, Madhumithaa G K, Navin Kumar, Ram Charan Golla, Revathi T, Rishikkanth R, Sanjay Krishna M, Surendra VendraBluTrain是一个用标准C++和CUDA实现的AI训练框架。在8-GPU 6000 Ada系统上训练124M参数GPT-2模型(FP32),其吞吐量达407K tokens/s,比PyTorch的395K tokens/s高约3%。同时内存占用减少22%,且严格保持数值精度。框架包含原生实现的张量模块、反向模式自动微分、线性代数库、缓存分配器、分布式执行和MLIR编译器。AI模型BluTrainC++/CUDAGPT-2训练框架性能优化推荐理由:这个新框架用C++从头写,训练GPT-2比PyTorch快3%且省内存22%,适合追求极致性能的开发者。原文
11:52arXiv cs.LG@Hariom Ingle, Ronit Ghode, Ishwari Gondkar, Jidnyasa Harad, Raviraj JoshiL3Cube-MahaPOS是首个大型人工标注的马拉地语词性标注数据集,包含32,354句新闻文本,遵循16标签Universal Dependencies方案。研究在HMM、CRF、BiLSTM、BiLSTM+CharCNN、MuRIL和MahaBERT-v2六类模型上进行了基准测试。最佳模型MahaBERT-v2达到88.67%的token级准确率和81.67%的宏F1分数。该数据集和模型检查点已开源,可助力马拉地语NLP研究。AI模型L3Cube-MahaPOSMahaBERT-v2Marathi词性标注数据集推荐理由:马拉地语有8300万使用者但标注数据稀缺,这个新数据集和MahaBERT模型基准很实用,适合做低资源语言NLP的朋友参考。原文
11:48IT之家(博客/媒体)76°阿里巴巴千问发布Qwen-AgentWorld,这是首个原生语言世界模型。提供两种规模(35B-A3B与397B-A17B)。模型能同时模拟文本类和GUI类环境,覆盖七大领域。通过三阶段训练(CPT、SFT、RL)构建世界建模能力。在Tool Decathlon、MCPMark和WideSearch基准上验证了可控模拟效果。AgentWorldBench已在Hugging Face发布。AI模型Qwen-AgentWorld阿里千问智能体环境模拟Hugging Face推荐理由:阿里千问发布的这个Qwen-AgentWorld模型,能模拟智能体在七个领域的交互环境,还能当环境模拟器或智能体基础模型,挺有意思的。原文
11:44arXiv cs.LG@Anurag Akula, Satheesh K. Perepu, Abhishek Sarkar, Kaushik DeyASALT是一种针对多智能体强化学习(MARL)的迁移学习方法,解决了源域和目标域观测空间与全局状态空间维度不匹配的问题。该方法引入观测层和状态层适配器,将目标域观测和全局状态映射到共享嵌入空间,支持跨异构域的策略迁移。在标准基准环境的多个配置上,ASALT在合作场景中相比现有基线提升了样本效率和全局回报,但效果依赖于源域与目标域的不匹配程度。实验还表明ASALT能缓解负迁移,这是跨不同观测和动作空间域迁移时的常见障碍。AI模型ASALTMARL多智能体迁移学习强化学习推荐理由:ASALT这个新方法解决了MARL中状态空间维度不同时知识迁移的难题,实验效果不错,值得做多智能体迁移学习的同学看看。原文
11:38arXiv cs.LG@Kamil Kwarciak, Marek Wodzinski提出 PCFM 模型,基于 PTv3 和流匹配方法进行医学点云补全。在 SkullFix、SkullBreak 和 Mandibular Defect 三个数据集上评估。相对扩散模型(PCDiff),PCFM 采样步数大幅减少,在生成性能上达到最优。在最佳操作点,使用 PTv3 骨干比 PVCNN 快 7 倍。AI模型PCFMPTv3flow matching点云补全医学图像推荐理由:这篇论文搞了个 MedPCFM,用流匹配做医学点云补全,比扩散模型快7倍,在好几个头骨和下颌骨数据集上效果最好。原文
10:56AI Will@FinanceYF5Anthropic 在官方博客中发布了 Claude 3.5 Sonnet。该模型在 HumanEval 和 GSM8K 等基准上相比前代有提升。博客还提供了性能细节和定价信息。AI模型AnthropicClaude推理模型编程助手10 个信源在谈推荐理由:Anthropic 发了篇博客讲他们的新模型,基准测试成绩比前代好,开发者和研究者可以看看。原文
09:46arXiv: DeepSeek@Haichao Chen, Songchi Zhou, Zhengyun Zhao, Shikai Hu, Xianghong Jin, Hongwei Ji, Li He, Shuli Li, Yiming Qin, Xin Tan, Runfeng Shi, Yih Chung Tham, Jiaye Zhu, Ye Li, Ye Jin, Longhao Cao, Dawei Li, Honghan Wu, Hongqiu Gu, Guanqiao Li, Tudor Groza, Chunying Li, Dian Zeng, Weihong Yu, Gareth Baynam, Saumya Shekhar Jamuar, Min Shen, Shuyang Zhang, Bin Sheng, Sheng Yu, Tien Yin Wong71°RaDaR是一个32B参数的开源推理大模型,专为罕见病诊断设计。它在公开基准和四个外部验证中心中优于包括671B DeepSeek-R1在内的开源模型。在回顾性队列中,RaDaR在61.06%的病例中比临床怀疑更早给出最终诊断,提前时间1.87个月。在随机医生辅助试验中,RaDaR帮助医生诊断准确率提高21.44个百分点。合成数据消融实验表明表型锚定叙事对长尾罕见病提供有用训练信号。AI模型RaDaRDeepSeek-R1开源模型罕见病诊断推理模型推荐理由:RaDaR发布了一个32B开源推理模型,罕见病诊断比DeepSeek-R1还强,医生用它准确率提升21%。原文
09:45IT之家(博客/媒体)71°火山引擎发布豆包音频生成模型1.0(Doubao-Seed-Audio 1.0),首次支持将文本、音频等多模态输入端到端生成目标音频。该模型能在长时生成中保持多角色音色一致性,减少后期修音工作。单条Prompt可编排角色对白、情绪语气、背景音乐等,直接产出完整音频作品。火山方舟已开启API邀测,个人用户可体验30分钟创作额度。AI模型豆包音频生成模型1.0火山引擎音频生成多模态音色一致性5 个信源在谈推荐理由:火山引擎新模型能一次编排对白、音效、配乐,还能保持10分钟的角色音色一致,省掉后期对轨修音,音频创作者值得一试。原文
08:24SuperTechFans(博客/媒体)精选Mistral于2026年6月24日发布OCR 4模型,新增边界框、区块分类和置信度分数。该模型在内部盲评和公开基准测试中性能领先,支持170种语言,可自托管部署。AI模型MistralOCR 4多模态自托管模型发布推荐理由:Mistral新出的OCR 4能自己部署,支持170种语言,还带边界框和置信度分数,识别效果领先,做文档处理很合适。原文
07:48marktechpost@Asif Razzaq精选Mistral AI 于2026年6月23日发布 OCR 4,从纯文本提取升级为结构化文档输出。每个文本块返回边界框、类型分类以及每页和每词的置信度分数。该模型支持170种语言,可在单个自托管容器中运行,通过单一API端点向RAG、智能体和企业搜索管道提供可引用的输入。AI模型MistralOCR 4RAG智能体企业搜索推荐理由:Mistral 出了 OCR 4,能提取带边界框和置信度的结构化内容,方便直接用于 RAG 和搜索,支持170种语言还自托管,很实用。原文
07:34Mistral AI@MistralAIMistral 推出 OCR 4,独立标注员对600多份真实文档进行盲评,涵盖12种以上语言。在所有对比系统中,OCR 4 被优先选择,平均胜率达72%。该结果基于随机排序的双盲测试,标注员无法识别系统来源。AI模型MistralOCR 4OCR文档识别多语言推荐理由:Mistral 的 OCR 4 盲测赢了所有对手,处理多国语言文档很稳,平均胜率72%,值得试试。原文
06:03OpenRouter@OpenRouterAIOpenRouter 宣布提供 GLM 5.2 模型的所有服务商入口,共列出 20 个提供商。其中一条服务线路的推理速度超过 125 tokens/秒。用户可在单一页面比较并选择不同服务商。这标志着 GLM 5.2 的部署生态进一步开放。AI模型GLM 5.2OpenRouter开源模型推理模型高速推理推荐理由:想用 GLM 5.2 但不清楚哪家快?OpenRouter 把 20 个提供商列在一起了,还能直接选超 125 TPS 的那条线。原文
03:42marktechpost@Asif Razzaq精选Datalab发布了lift,一个9B参数的开源视觉模型。该模型能将PDF与图像转换为符合给定schema的JSON结构。它使用schema约束解码确保输出有效,并训练弃权机制避免幻觉,在225份文档的基准上达到90.2%的字段准确率。AI模型Datalablift视觉模型文档解析JSON提取推荐理由:Datalab的lift模型能自动把PDF转成你需要的JSON格式,准确率90.2%,还不会瞎编字段。原文
03:27AK@_akhaliqLing and Ring 2.6 技术报告发布,展示了在万亿参数规模下实现高效且即时的智能体智能。该模型专注于 agentic intelligence 领域,通过优化架构和推理机制降低延迟。报告详细介绍了其训练方法、性能基准以及与传统大模型的对比结果。具体数字和基准名称需查阅完整报告。AI模型Ling and Ring智能体万亿参数规模推理模型推荐理由:想了解万亿参数级别的智能体模型怎么做吗?Ling and Ring 2.6 报告给出了具体方案。原文
03:18NVIDIA AI@NVIDIAAI精选NVIDIA发布DFlash,一种开源轻量级块扩散模型,专为投机解码设计。在NVIDIA Blackwell硬件上,DFlash可实现高达15倍的推理吞吐量提升,同时保持相同的用户交互响应速度。与传统逐token解码不同,DFlash一次生成整个token块,由主模型并行验证。该方案即插即用,已集成到SGLang、TensorRT-LLM和vLLM等框架中。AI模型DFlashNVIDIABlackwell投机解码开源模型8 个信源在谈推荐理由:NVIDIA开源了DFlash,用块扩散投机解码让Blackwell推理提速15倍,还支持SGLang和vLLM,随手就能用。原文
01:10Milvus@milvusio精选Milvus 尝试跳过压缩步骤,直接在文档完整 embedding list 上建立 HNSW 图索引。该方法在 TREC-COVID 上 nDCG@10 达 0.98,远超 MUVERA、LEMUR 等方法的 0.87-0.89。端到端检索中 TREC-COVID 分数 0.516 与 BruteForce 完全持平,MS MARCO 上 0.957 接近精确上限的 0.966。但构建成本显著增大:MS MARCO 平均长度 87 时耗时 6 倍,TREC-COVID 长度 236 时达 18 倍。对于 ColQwen2 等每文档含 5143 个 patches 的长向量,该方法成本过高无法实用。实验揭示当前近似策略的质量损失主要源自向量压缩步骤而非 HNSW 索引本身。AI模型HNSWMilvus嵌入列表索引向量检索近似搜索推荐理由:Milvus 把 embedding 列表直接塞进 HNSW,质量几乎追上暴力搜索,比 MUVERA 高了一截,但成本也翻了 6-18 倍,长文档还不支持。适合对精度有极致需求的项目。原文
01:08OpenAI Blog(博客/媒体)GPT-5 Pro协助免疫学家Derya Unutmaz破解了持续3年的T细胞行为之谜,为癌症和自身免疫疾病研究提供新线索。该模型通过分析复杂免疫数据,识别出此前未知的T细胞激活模式。研究成果被OpenAI以案例形式发布,展示了大模型在基础科学中的应用潜力。AI模型GPT-5OpenAI免疫学T细胞科研应用9 个信源在谈推荐理由:OpenAI用GPT-5 Pro帮科学家搞定了3年没解的免疫难题,不是画饼是真能干活,科研党可以看看怎么用的。原文
01:02LMSYS Org (SGLang)@lmsysorg79°与NVIDIA合作,在GB300上使用SGLang服务DeepSeek-V4,实现5倍吞吐量提升(~2,200→~11,200 tok/s/GPU,交互性~50 tok/s/user)。借助MTP,在80 tok/s/user交互性下吞吐再提升2.6倍。Blackwell Ultra聚合模式下30 tok/s/user时吞吐提升2.91倍,峰值无MTP吞吐提升超6倍。采用W4A4 MegaMoE量化(MXFP4)且精度损失可忽略。单个FP8-einsum修复将MTP接受率从0.57提至0.70。AI模型DeepSeek-V4GB300SGLang推理优化NVIDIA8 个信源在谈推荐理由:想用SGLang在GB300上榨干DeepSeek-V4?NVIDIA合作实测,吞吐翻5倍,交互延迟不变,MTP和量化细节全公开。原文
01:01LMSYS Org (SGLang)@lmsysorg精选Krea 2 是由 Krea AI 推出的开源文本到图像模型,在独立评测机构 Artificial Analysis 上排名第一。它包含两个版本:RAW 为未蒸馏基座检查点,适合微调和 LoRA 训练;Turbo 为 8 步蒸馏检查点,实现快速高质量生成。用户可在 RAW 上训练 LoRA,在 Turbo 上进行推理,并已获得 SGLang 的 Day-0 支持。AI模型Krea 2SGLangRAWTurbo图像生成推荐理由:Krea 2 开源了双版本,RAW 用来训练 LoRA,Turbo 跑推理,直接用 SGLang 就能跑,比闭源模型更灵活。原文
00:57AK@_akhaliqPlanBench-XL是一个新基准,专门评估LLM工具使用智能体在包含数千个工具的大型生态系统中的长程规划能力。该基准通过构建复杂任务链,要求智能体在工具选择、参数传递和结果融合中做出多步决策。初步测试中,GPT-4和Claude 3.5等主流模型在PlanBench-XL上的平均成功率低于40%,暴露了当前模型在规划深度和工具协调上的局限。AI模型PlanBench-XLLLM智能体工具使用长程规划推荐理由:想看看你用的LLM在多工具长流程场景下到底多靠谱?PlanBench-XL用上千个工具设计了真实任务链,测出来主流模型成功率不到40%,值得一测。原文
23:26歸藏(guizang.ai)@op7418作者测试了 Seed 2.1 Pro,发现它在智能体和编程任务上的短板已被补上。该模型现在能更流畅地处理复杂代理场景。作者计划将 Seed 2.1 Pro 作为内容创作的主要模型。AI模型Seed 2.1 Pro豆包智能体编程助手内容创作3 个信源在谈推荐理由:豆包刚更新的 Seed 2.1 Pro,智能体和编程短板都补上了,做内容创作更顺手,可以试一下。原文
23:00量子位@十三73°字节跳动发布豆包2.1,其Agent可在18小时内自动完成芯片设计代码编写。在编程基准测试中,豆包2.1的表现比肩Opus 4.7。该版本强化了自主编程和长时任务执行能力,适用于复杂工程场景。AI模型豆包2.1字节跳动智能体芯片设计编程能力推荐理由:豆包2.1的Agent太能干了,独自跑18小时写出芯片代码,编程水平还追上了Opus 4.7,做硬件的可以关注下。原文
20:33Decoder@Maximilian Schreiner74°字节跳动在火山引擎FORCE大会上发布了五款新AI模型,其中Seedance 2.5视频模型计划于7月初上线。Seedance 2.5将AI视频生成时长从行业常见的十几秒提升至30秒,支持更高分辨率和一致性。该模型基于扩散架构,有望在短视频创作和广告领域应用。AI模型SeedanceByteDance视频生成30秒2 个信源在谈推荐理由:字节跳动新发布的Seedance 2.5视频模型能直接生成30秒视频,比之前模型长一倍,做短视频创作者可以试试。原文
20:25berryxia@berryxiaSeedance 的视频生成模型在发布后展现出显著的领先优势,短期内其他模型难以追赶。该模型在视频生成质量、连贯性和一致性等方面表现突出,但具体基准数据未披露。AI模型Seedance视频生成推荐理由:Seedance 刚出的视频生成模型,效果确实碾压同行,还没看到能打的。原文
20:18SiliconFlowAI@siliconflowaiSiliconFlow 对 GLM-5.2、GPT-5.5、Opus 4.8 和 GLM-5.1 进行了同提示词测试。结果显示 GLM-5.2 在性能上逼近 Opus 4.8,同时输入成本仅为 Opus 的约 1/3.6,输出成本为约 1/5.7。这意味着用户可以在 SiliconFlow 平台上以大幅降低的成本获得接近 Opus 级别的前端生成能力。AI模型GLM-5.2Opus 4.8SiliconFlow推理模型模型对比2 个信源在谈推荐理由:SiliconFlow 测了 GLM-5.2,性能跟 Opus 4.8 差不多,但输入输出成本都低了好几倍,想省钱的可以试试。原文
19:56The Rundown AI@therundownai日本AI实验室Sakana发布了编排模型,旨在提升多智能体协作效率。SpaceX将Colossus超级计算机租赁给Reflection AI用于训练。Google投资独立电影公司A24,联合开发AI电影制作工具。AI语音命令工具可实现打字时间减半。AI模型Sakana编排模型ColossusReflection AIAI电影制作4 个信源在谈推荐理由:Sakana的编排模型能协调多个AI任务,SpaceX租算力给Reflection AI,Google投A24造电影工具,每个都新鲜原文
19:06Decoder@Matthias Bastian精选OpenAI 通过其 Daybreak 网络安全计划推出了更新版 Codex Security 插件和完整的 GPT-5.5-Cyber 模型,同时宣布与超过 25 家安全公司及多个政府合作。新模型专注于从发现漏洞转向自动修补漏洞。在网络安全基准测试中,GPT-5.5-Cyber 的性能超过了 Anthropic 的 Mythos 模型。AI模型GPT-5.5-CyberAnthropicMythosOpenAI网络安全10 个信源在谈推荐理由:OpenAI 新出的 GPT-5.5-Cyber 专攻网络安全,能自动修补漏洞,基准测试里已经跑赢了 Anthropic 的 Mythos。原文
19:03IT之家(博客/媒体)网易有道发布Confucius4-TTS,这是业内首个支持14种语言跨语种无口音的开源TTS模型。用户仅需提供3秒音频素材,无需参考文本即可完成零样本语音克隆,克隆音色与原声相似度超85%,准确度达97%。模型采用GPT式语义大模型搭配Flow Matching流匹配生成框架,支持音频Prompt情感克隆迁移,可跨语种保留语调韵律。全量开源(Apache协议),提供54GB完整资源包,商用无限制,适用于多语种内容生成、数字人配音等场景。AI模型Confucius4-TTS网易有道语音克隆开源模型TTS推荐理由:网易新开源Confucius4-TTS,3秒克隆你的声音,还能用这个声音说14种外语没口音,全开源随便用,做配音超方便。原文