12:41AI Will@FinanceYF5ModelScope和Grok Imagine 1.5分别左右展示AI图像生成模型3年间的进步。左图来自ModelScope,右图来自Grok Imagine 1.5,生成质量有明显差异。Grok Imagine 1.5在细节、真实感和多样性上表现更优。这种对比直观反映了模型迭代的效果。AI模型ModelScopeGrok Imagine 1.5图像生成AI进步推荐理由:看看ModelScope和Grok Imagine 1.5的生成效果左右对比,感受AI图像模型3年间的进化。原文
12:35IT之家(博客/媒体)73°阿里与人大联合开源 LOGOS,这是一个基于统一“科学语法”的多领域科学生成基础模型。LOGOS-1B 仅用 1B 参数量,在多项科学任务上超越参数为 8×7B 的微软 NatureLM。模型预训练语料涵盖蛋白质(28.9B tokens)、抗体(3.0B tokens)、小分子(2.1B tokens)等 7 类模态共 44.87B tokens。它通过共享词表将异构对象编码为离散 token,无需 3D 坐标即可理解 3D 空间互作规律。LOGOS 已开源模型权重、推理代码与技术报告。AI模型LOGOSNatureLM开源模型科学大模型多模态推荐理由:阿里开源的 LOGOS 模型,用 1/56 参数就碾压了微软 NatureLM,还统一了蛋白质、小分子等科学对象的语言,搞科研的可以看看源码和论文,开箱即用。原文
11:41berryxia@berryxiaOpenAI 最新模型 GPT-5.6 延期发布,具体时间未公布。作为应对,Codex 5.6 开始频繁重置用户额度以提升留存。用户反馈这种策略比 Claude 的限额政策更友好。AI模型GPT-5.6Codex 5.6OpenAI模型发布10 个信源在谈推荐理由:GPT-5.6 跳票了,但 OpenAI 用 Codex 5.6 免费额度留人,比 Claude 大方多了。原文
11:23Justine Moore@venturetwins73°xAI推出Grok Imagine Video 1.5,这是其图像转视频模型的新版本。该模型在物理模拟、画面真实感和生成速度上均有改进,支持单次生成高质量视频。用户测试中,先用Grok生成图像,再通过该模型一次性转换为视频。xAI称其具备“更清晰的真实感、更好的物理和更快的生成速度”。AI模型Grok Imagine Video 1.5xAI视频生成图像转视频1 个信源在谈推荐理由:xAI出了新视频模型,图像转视频一次搞定,物理和真实感都更好,速度还快,值得试试。原文
11:09IT之家(博客/媒体)72°华为昇腾宣布0 Day支持智谱GLM-5.2,昇腾A3系列已实现单双机及大EP推理部署。优化技术包括MOE大融合算子、通信与计算融合、注意力前处理与多Token预测、高并发调度与预填充延迟机制等。GLM-5.2在Code Arena盲测中取得全球可用模型第一,拥有1M上下文能力,长程任务表现介于Claude Opus 4.7与4.8之间。该模型在主流编程基准上保持开源SOTA,并已适配华为昇腾等国产算力平台。AI模型GLM-5.2华为昇腾推理优化开源模型代码生成推荐理由:华为昇腾0 Day适配智谱GLM-5.2,推理优化让长上下文编程更高效,开源模型性能比肩Claude Opus。原文
10:58shao__meng@shao__meng精选实验让Kimi K2.7 Code和Claude Fable 5分别生成12个落地页进行并排对比,覆盖B2B SaaS、酒吧、开发者工具等类别。Kimi单页成本仅4美分,Claude Fable为1.09美元,差距约27倍,整体Kimi总成本降低94%。使用GPT-5.5按标准化评分表打分,Claude Fable部分案例略高但差距不大。Kimi通过MCP Server提供高质量视觉参考后,页面质量显著提升,成本效率优势突出。AI模型Kimi K2.7 CodeClaude Fable 5落地页生成MCP/工具对比评测10 个信源在谈推荐理由:想知道怎么用Kimi K2.7 Code花不到5分钱做出媲美Claude Fable 5的落地页?实验数据全给你算清楚了,迭代省大钱。原文
10:58arXiv cs.AI@Michael Finkelson, Daniel Segal, Eitan Richardson, Shahar Armon, Nani Goldring, Poriya Panet, Nir Zabari, Benjamin Brazowski, Or Patashnik, Yoav HaCohenScenA方法利用预训练的文本到音频流匹配基础模型,直接通过多个参考语音和自然语言提示生成整个音频场景。它继承了野外数据中自然的背景噪声、重叠对话等特性,无需逐句结构。但存在“参考捷径”问题:模型可仅凭声学相似性识别参考语音而忽略文本提示。通过高噪声偏差的时间步分布强制模型依赖文本提示。在CoVoMix2-Dialogue基准上,ScenA在说话人绑定指标上优于现有系统,并生成带重叠语音、情感发声和环境音的丰富对话音频。AI模型ScenACoVoMix2-Dialogue流匹配多说话人音频场景生成推荐理由:ScenA这个新方法能用参考语音和自然描述直接生成多人对话场景,比现有系统更自然,还带背景噪音和重叠说话。原文
10:57arXiv cs.AI@Siyi Gu, Jialin Chen, Sophia Zhou, Arman Cohan, Rex Ying提出Rubric-Conditioned Self-Distillation框架,用评分标准替代标量奖励,提供token级指导。方法分两步:先学习生成任务级评分标准,再训练评分标准引导的推理器。在多个科学推理基准上平均超越GRPO 1.0分、OPSD 0.9分。避免了单一参考推理链的噪声和标量奖励的模糊性。AI模型Rubric-Conditioned Self-Distillation推理模型自我蒸馏评分标准科学推理推荐理由:想提升推理模型训练效果?这篇用评分标准做细粒度自蒸馏,比GRPO和OPSD都强,实验扎实。原文
10:57Viking@vikingmuteGLM5.2在Artificial Analysis开源模型排名中登顶,多项benchmark评分领先。有用户反馈其实际体验接近Opus 4.6,作者考虑将Deepseek V4 Pro替换为GLM5.2。该帖子获得2条回复、505次浏览。AI模型GLM5.2Artificial AnalysisOpus 4.6Deepseek V4 Pro开源模型2 个信源在谈推荐理由:GLM5.2在开源模型排名拿了第一,而且有人说用起来感觉像Opus 4.6,你要是想换掉Deepseek V4 Pro可以试试。原文
10:56arXiv cs.LG@Sanghyeok Choi, Henry Gouk, Esmeralda S. WhitammerLarge Language Gibbs 是一种利用大型语言模型条件分布进行结构化概率推理的MCMC方案。该方法通过迭代重采样单个变量避免单次自回归生成的顺序偏差,产生的平稳分布反映所有局部条件之间的折中。在合成分布采样、一致性推理和贝叶斯结构学习任务上验证了有效性。结果表明LLM条件作为MCMC转移算子可替代单次生成进行结构化推理。AI模型Large Language GibbsLLMMCMC结构化推理概率推断推荐理由:这篇论文提出用LLM做MCMC采样,比直接生成更鲁棒,适合复杂推理场景,值得做概率建模的人看看。原文
10:55arXiv cs.LG@Hannah Le, Ramesh Ramasamy, Alex Urrutia, Mahsa Yazdani, Tim Proctor, Kenny WorkmanTxBench-PP是一个用于评估AI agent在小分子临床前药理学中决策能力的基准,包含100个涉及作用机制、药效学等任务的评估。在16个模型配置(涉及11个模型和4800条轨迹)中,最佳配置Claude Opus 4.8 / Pi仅通过59.3%(178/300)的端点尝试,GPT-5.5 / Pi通过55.3%。结果表明,当前AI系统无法可靠复现临床前药理学决策。AI模型TxBench-PPClaude Opus 4.8GPT-5.5AI agent药物发现1 个信源在谈推荐理由:想看看AI在药物发现中到底行不行?这个基准测试用4800条轨迹告诉你,Claude Opus 4.8和GPT-5.5都还差得远,最高才59.3%的通过率。原文
10:35marktechpost@Michal Sutter精选OpenAI推出LifeSciBench,包含750个专家撰写任务,覆盖7个工作流和7个生物学领域,由173位博士科学家构建,使用19,020条评分标准评估推理与决策。当前最佳模型GPT-Rosalind得分仅36.1%,在人工制品、精确输出和操作决策上仍有较大提升空间。该基准旨在测试AI的真实研究能力而非单纯记忆。AI模型LifeSciBenchOpenAIGPT-Rosalind基准测试生命科学10 个信源在谈推荐理由:想看看AI搞科研到底多强?OpenAI出了个750道专家题的LifeSciBench,GPT-Rosalind才36.1%,差距大到让你吃惊。原文
10:31arXiv cs.LG@Daochen Zha, Chun How Tan, Xin Liu, Bin Xu, Han Zhao, Xiaowei Liu, Tracy Yu, Hui Gao, Huiji Gao, Liwei He, Stephanie Moyerman, Sanjeev KatariyaJourneyFormer是Airbnb提出的序列建模解决方案,用于处理搜索排序中客人序列长、探索性强且标签稀疏的问题。模型设计涵盖事件选择、ID嵌入、模型架构和标签归因等关键环节,并采用专门策略加速训练和推理。JourneyFormer已部署到Airbnb生产环境,离线排名指标和线上A/B测试(覆盖2个生产表面)均显示关键业务指标显著提升。AI模型JourneyFormerAirbnb序列建模搜索排序推荐系统推荐理由:Airbnb搞了个JourneyFormer,专治搜索排序中又长又乱的用户序列,实测线上A/B测试效果很不错。原文
10:22arXiv: DeepSeek@Ruida Wang, Rui Pan, Pengcheng Wang, Shizhe Diao, Tong Zhang研究团队提出Diffusion-Proof,这是首个将扩散LLM(dLLM)应用于形式定理证明的框架。该框架包含两个7B模型:dLLM-Prover-7B负责整段证明生成,dLLM-Corrector-7B利用双向信息进行局部校正。相比同等数据集训练的自回归基线,Diffusion-Proof在ProofNet-Test上提升1.61%,在MiniF2F-Test上提升6.14%。此外,该框架成功解决了一个更先进的DeepSeek-Prover-V2-7B未能解答的IMO问题,展示了扩散模型在长程连贯性任务上的优势。AI模型Diffusion-ProofdLLM推理模型形式定理证明数学证明推荐理由:扩散模型也能做定理证明了,比自回归强,MiniF2F上高出6个百分点,还解了一道DeepSeek没解出的IMO题。原文
09:51berryxia@berryxia精选当前Physical AI的VLA模型仅在统计相关性上学习,桌子高2cm即失败。UCSD黄碧薇教授在CVPR 2026发布Causal World Models框架,让AI从模仿动作进化到理解因果。她创立的Aether AI获得2000万美元融资,成为全球首个因果世界模型公司。与杨立昆AMI(融10亿美元)和李飞飞World Labs(10亿美元)等不同,Aether AI不卷规模而卷因果结构。AI模型Causal World ModelsAether AIVLA因果模型具身智能推荐理由:黄碧薇教授不堆数据,教AI理解物理因果。Aether AI刚融资2000万美元,可能改变具身智能的游戏规则。原文
09:41arXiv cs.AI@Jinhao Song, Shan Liang, Yiqun Yue, Zhuhuayang Zhang, Tianqi GaoThinkDeception首次将多模态大语言模型(MLLM)引入欺骗检测领域,将其从二分类任务转变为显式认知推理过程。研究团队构建了首个逐步多模态思维链(CoT)数据集,并基于此开发基础模型ThinkDeception Base。核心创新是提出Visual-Audio Consistency Group Relative Policy Optimization(VAC-GRPO),采用渐进式训练将数据分为四个难度层级。在主流基准上,ThinkDeception在检测准确性和推理质量上达到新SOTA。AI模型ThinkDeceptionMLLM多模态思维链(CoT)推理模型推荐理由:这个框架用MLLM和思维链一步步拆解欺骗线索,比黑箱模型更能解释为什么判定说谎,准确率还最高。原文
08:21IT之家(博客/媒体)73°苹果在WWDC26特别讲座中演示了在4台Mac Studio上通过LM Studio本地运行1万亿参数的Kimi K2.6模型。工程师仅用单条提示词生成了WWDC badge tracker应用,该应用具备3D动画和全息视觉效果。演示使用了低延迟RDMA over Thunderbolt技术,苹果在macOS Tahoe 26.2中引入。Kimi K2.6由月之暗面于2026年4月20日发布,升级了代码编写和Agent集群能力。AI模型Kimi K2.6Mac StudioLM Studio月之暗面本地部署2 个信源在谈推荐理由:苹果用4台Mac Studio跑万亿参数Kimi K2.6,本地低延迟,一条提示词生成App,开发者必看。原文
08:15Simon Willison’s Weblog(博客/媒体)精选73°中国AI实验室Z.ai于6月16日开源GLM-5.2,采用MIT许可证。该模型753B参数、40激活参数(MoE),上下文窗口从GLM-5.1的20万提升至100万。在Artificial Analysis Intelligence Index v4.1上以51分领先MiniMax-M3(44)和DeepSeek V4 Pro(44)。在Code Arena WebDev前端编码排行榜上排名第二,仅次于Claude Fable 5。OpenRouter上输入价格$1.40/百万token,输出$4.40/百万token。AI模型GLM-5.2Z.aiOpenRouter开源模型编程助手4 个信源在谈推荐理由:Z.ai开源了GLM-5.2,纯文本模型在智能和编码基准上超过DeepSeek V4和Kimi K2.6,价格只有GPT-5.5的五分之一。原文
05:29ollama@ollama用户称 GLM 5.2 达到 SOTA 级别的智能,但成本仅为同类模型的一小部分。他认为 GLM 5.2 的输出和个性优于 GPT 5.5。他计划将 GLM 5.2 用于自己的工具 Hermes 以及客户项目中。该推文获得 170 点赞和超 7300 次浏览。AI模型GLM 5.2GPT 5.5Hermes开源模型推荐理由:有人实测后说 GLM 5.2 比 GPT 5.5 更强还便宜,准备放进自己产品用,有参考价值。原文
05:25OpenAI@OpenAIOpenAI推出LifeSciBench新基准,用于评估AI模型在生物科学中的实际推理能力。该基准包含七个工作流,测试模型从证据推理、处理科学制品、应对不确定性等技能。GPT-Rosalind在所有七个工作流上得分均超过GPT-5.5。结果显示在制品密集、设计密集和操作受限任务上仍有改进空间。AI模型LifeSciBenchGPT-RosalindGPT-5.5OpenAI推理模型10 个信源在谈推荐理由:OpenAI搞了个新基准LifeSciBench,专门测生物科学推理,GPT-Rosalind比GPT-5.5还强,值得看看。原文
05:24OpenAI@OpenAIOpenAI发布LifeSciBench,一个专门用于衡量AI在真实生命科学研究中表现的基准。该基准由173位生物技术和制药领域科学家参与开发,包含750个专家编写的任务,覆盖7个生物研究工作流。LifeSciBench旨在系统评估AI模型在文献分析、实验设计等科研环节的实用性,并指导后续改进。AI模型OpenAILifeSciBench基准生命科学科研辅助10 个信源在谈推荐理由:OpenAI联合173位科学家搞了个LifeSciBench,750个专家级任务覆盖7个生物研究流程,想测AI在生命科学里到底好不好用,科研人员可以用它来选模型。原文
05:23OpenAI@OpenAIOpenAI推出LifeSciBench,这是一个专门用于评估AI在生命科学领域表现的基础基准。该基准旨在通过更现实的测试场景,帮助研究者衡量进展、识别差距。LifeSciBench强调与生命科学社区的持续合作,以共同改进AI。具体评估指标和测试集细节尚待公开。AI模型LifeSciBenchOpenAI基准测试生命科学10 个信源在谈推荐理由:OpenAI搞了个LifeSciBench,专门测AI在生命科学上的表现,比以前的评估更贴近真实场景,想了解差距的可以看看。原文
05:17Greg Brockman@gdb精选OpenAI的GPT-5.4与Molecule.one的Maria AI合作,推动了一个药物化学项目从文献综述到实验验证的完整流程。模型提出了一种意想不到的方法,改进药物发现中广泛使用的反应。该结果在专用实验室中得到验证。相关推文获得180个点赞和超过2.3万次查看。AI模型GPT-5.4OpenAIMolecule.one推理模型药物研发10 个信源在谈推荐理由:OpenAI的GPT-5.4这次不是聊天,而是真帮化学家改进了药物反应,和Molecule.one的AI配合,从文献到实验跑通了原文
05:05lmarena.ai@lmarena_ai76°Agent Arena上线两周,新增10个模型。GLM-5.2 (Max)进入前十,以+9.4%确认成功率和+14.9%赞美vs抱怨率成为最强开源模型。Claude Fable 5在多项指标排名第一,但受美国政府指令暂停访问。评测基于超过30万任务、200万次工具调用和4000万行代码。AI模型Agent ArenaGLM-5.2Claude Fable 5智能体OpenAI10 个信源在谈推荐理由:想看看最新智能体模型谁最强?Agent Arena更新了,GLM-5.2开源冲进前十,Claude Fable 5暂时下线,榜单有了新格局。原文
04:56elvis@omarsar0GLM-5.2 在 Design Arena 设计基准上以 Elo 1360 分排名第一,超越此前第一的 Claude Fable 5。该模型擅长生成游戏、落地页、HTML 组件和 3D 世界等内容。Zai 组织发布了这个开源权重模型,其设计质量被认为接近 Opus 级别。评测显示它相比此前版本提升了 4 个名次和 27 个 Elo 点。AI模型GLM-5.2ZaiDesign Arena设计生成开源模型2 个信源在谈推荐理由:Zai 开源的 GLM-5.2 在 Design Arena 上干掉了 Claude Fable 5,能设计游戏、HTML 和 3D 世界,不看后悔。原文
04:41OpenAI Blog(博客/媒体)OpenAI 发布了 LifeSciBench,这是一个由 10 位生命科学专家编写并经过独立审查的基准测试。该基准包含 30 个任务,覆盖文献综述、实验设计、数据分析等真实研究场景。初步测试显示,GPT-4o 在多数任务上优于其他模型,但所有模型在需要跨领域推理的任务中表现仍有显著差距。LifeSciBench 旨在为 AI 在科学领域的可靠性和安全性提供更严格的评估工具。AI模型OpenAILifeSciBench基准测试AI安全科学推理10 个信源在谈推荐理由:OpenAI 出了个新基准 LifeSciBench,专门测 AI 做生命科学研究的能力,比一般问答难多了,能看出模型哪里不行。原文
04:27LMSYS Org (SGLang)@lmsysorg精选73°LMSYS 发表博客详解如何用 SGLang-JAX 在 TPU v7x 上优化 Ling-2.6-1T(1T 参数混合 MoE 模型)。通过 Fused MoE V2 内核将令牌和累加器留在 VMEM 中并双缓冲专家权重,MoE 预填充延迟降低 53%。混合内存池为 10 个全注意力层分配逐令牌 MLA KV,为 70 个 GLA 层分配逐请求循环状态。GLA 线性注意力采用分块并行预填充,单控制器 DP 保持分组 RMS Norm 芯片本地化,无需逐层跨芯片规约。AI模型Ling-2.6-1TTPUSGLang-JAXMoE推理优化推荐理由:LMSYS 和 InclusionAI 联手,用 SGLang-JAX 让 1T 参数 MoE 在 TPU 上跑得快 53%,技术细节都在博客里。原文
04:01lmarena.ai@lmarena_aiAgent Arena排行榜已上线,用于评估不同AI智能体的表现。该排行榜支持用户按开源模型或实验室筛选查看结果。用户可通过链接 arena.ai/leaderboard/ag… 直接访问。AI模型Agent Arena智能体开源模型实验室推荐理由:想对比开源智能体的表现?Agent Arena新排行榜支持按模型或实验室筛选,一目了然。原文
03:57Stanford AI Lab@StanfordAILab精选斯坦福AI实验室提出DeLM(Decentralized Language Models),这是一种无需中央协调器的多Agent协作框架。在SWE-bench Verified基准上,使用Gemini-3 Flash的DeLM实现了约10%的性能提升,同时推理成本降低超过一半。该方法在编程和多文档问答等Agent任务中表现出更高的准确性和经济性。AI模型DeLMGemini-3 FlashSWE-bench智能体斯坦福推荐理由:斯坦福搞了个新方法DeLM,不用中央协调器调度Agent,编程和多文档问答更准更便宜,SWE-bench提升10%成本减半,值得试试。原文
03:55LangChain@LangChainAILangChain测试显示,Alibaba Qwen基础模型配合良好提示在感知错误分类任务上性能接近前沿模型。使用LoRA SFT微调后,模型性能接近或超过前沿模型。实验表明微调能使开源模型与顶级闭源模型竞争。AI模型QwenAlibabaLoRA微调开源模型推荐理由:LangChain实测:Qwen基础版+好提示就能追平顶级模型,微调后甚至超越。开源模型潜力很大!原文
03:33lmarena.ai@lmarena_ai精选Kimi K2.7 Code 在 Agent Arena 排行榜上总体排名第19,在开源模型中排第6。该模型在 Kimi Code Bench v2 上比 K2.6 提升21.8%,在 Program Bench 上提升11.0%,在 MLS Bench Lite 上提升31.5%。推理 token 使用量降低30%,减少了过度思考。长程编码任务指令遵循和完成率均有提升。目前通过 Kimi API 和 Kimi Code 可用。AI模型Kimi-K2.7-CodeKimi_Moonshot开源模型编程助手推理模型6 个信源在谈推荐理由:Kimi 发了新编程模型 K2.7 Code,推理更省 token,基准提升明显,而且在 Agent Arena 上开源模型里排第6,值得一试。原文
03:06Jim Fan@DrJimFan精选76°Jim Fan揭秘了物理自动研究系统ENPIRE的设计内幕。安全采用两层硬编码:硬运动学限制立即触发任务失败并自动重置,以及扭矩限制柔性夹爪防止碰撞损坏。奖励函数通过收集成功/失败演示、用计算机视觉分类器编码并冻结在Gym环境中,防止智能体篡改。系统遥测定义了Mean Robot Utilization(MRU)、Mean Token Utilization(MTU)和GPU利用率三个实时指标,并基于Tokens-to-Success和Time-to-Success评估预算效率。AI模型ENPIRE物理自动研究安全机制机器人奖励函数2 个信源在谈推荐理由:Jim Fan讲了他们怎么让8个机器人通宵自动做实验,还防止奖励被篡改,资源利用率指标也很实用。原文
03:06xAI@xai精选xAI的Grok 4.3模型正式在Amazon Bedrock上可用,AWS开发者可通过Bedrock的安全推理引擎调用。Grok 4.3在幻觉率和工具调用两项基准上表现领先,能支持更可靠的生成与外部功能集成。该模型目前向所有AWS区域开放,按token计费。AI模型GrokxAIAmazon Bedrock推理模型1 个信源在谈推荐理由:xAI把Grok 4.3放到了AWS上,你用Bedrock就能直接调,幻觉率低、工具调用强,适合做可靠应用。原文
02:45Microsoft Research@MSFTResearch精选ResNet在CVPR 2026上获得Longuet-Higgins奖,表彰其持久影响力。该论文发表十年,残差连接已成为现代AI系统的基础组件。其引用量超过32万次,并在持续增长。残差连接解决了深层网络退化问题,推动了计算机视觉和整个深度学习领域的发展。AI模型ResNetCVPRLonguet-Higgins Prize残差连接计算机视觉推荐理由:ResNet的残差思想直到今天还在被所有大模型使用,32万引用不是白来的,这个奖实至名归。原文
02:14Jim Fan@jimfan76°Jim Fan团队推出ENPIRE系统,让8个Codex智能体操控机器人舰队自主进行物理实验。系统硬编码两层安全机制:硬运动学限制和扭矩限制夹爪,防止机器人超出安全范围。通过人类演示几分钟成功/失败样本,智能体编写计算机视觉代码生成分类器作为冻结奖励函数。定义Mean Robot Utilization(MRU)和Mean Token Utilization(MTU)监控资源,以Tokens-to-Success和Time-to-Success衡量效率。AI模型ENPIRECodex机器人智能体安全2 个信源在谈推荐理由:Jim Fan展示了ENPIRE,8个机器人靠Codex智能体自主做实验,安全机制和资源监控设计挺有意思。原文
01:55Decoder@Jonathan Kemper精选智谱AI推出开源模型GLM-5.2,采用MIT许可证,支持稳定100万token上下文。在FrontierSWE编码基准测试中,GLM-5.2以1个百分点之差落后于Anthropic的Claude Opus 4.8。该模型在推理能力上仍显著落后于闭源竞争对手。AI模型GLM-5.2智谱AIClaude Opus开源模型编码助手10 个信源在谈推荐理由:智谱AI的GLM-5.2在长时间编码任务上只比Claude Opus 4.8差1%,还是开源免费,码农可以试试。原文
01:34Milvus@milvusio精选Milvus在DocVQA上对比ColQwen(多向量)与Qwen3-VL-Embedding(稠密)的检索性能。精确搜索下,ColQwen3的nDCG@10为0.698,比稠密的0.521高17.7个百分点。近似搜索(LEMUR,ratio=5.0)中,ColQwen3得0.704,领先18.3点,且近似损失几乎为零。在MS MARCO等文本基准上,多向量优势被近似搜索抹平。多向量通过保留表格、图表等空间结构获得提升,适合发票、报告等视觉文档。AI模型ColQwenQwen3-VL-EmbeddingMilvus多模态检索视觉文档检索推荐理由:Milvus用ColQwen和Qwen3-VL-Embedding做了对比,发现多向量在检索带图表的文档时比稠密向量强近18个点,近似搜索不掉分。处理PDF或扫描件可以关注这个结果。原文
01:30marktechpost@Asif RazzaqVercel 开源了 Eve,这是一个 Apache-2.0 许可的 AI Agent 框架,目前处于公开预览阶段。每个 Agent 被定义为一个包含配置和能力的文件目录,内置了持久化执行、沙箱、审批、连接、通道和评估功能。开发者可使用 npx eve@latest init 快速搭建项目,并通过 vercel deploy 直接部署无需修改。AI模型EveVercel智能体开源模型编程助手推荐理由:Vercel 出了个开源 Agent 框架 Eve,把 Agent 做成文件目录,自带沙箱和评估,用 npx init 就能部署,挺省事的。原文
01:24OpenAI@OpenAIOpenAI发布案例,GPT-5.4与Molecule.one的Maria AI及专业实验室协作,为药物发现中一个广泛使用的反应提出了意想不到的改进方案。项目从文献综述启动,最终得到验证的实验结果。该成果展示了大型语言模型在具体科研场景中的实用价值。AI模型GPT-5.4Molecule.oneMaria AI药物发现AI辅助科研10 个信源在谈推荐理由:OpenAI展示了GPT-5.4跟专业工具配合,在药物化学里找到了更高效的反应路线,成果很实在。原文
01:10Clement Delangue@ClementDelangueJohn Sarihan 创立的 Crosby Intelligence 发布了一个新的法律 AI 基准数据集。该基准托管在 Hugging Face 平台上。旨在推动法律领域 AI 的评测与发展。AI模型Crosby IntelligenceHugging Face法律基准法律AI推荐理由:想看看法律 AI 谁更强?Crosby Intelligence 搞了个新基准,已经在 Hugging Face 上线了。原文