全部 AI 动态 · AI 热点

AITOP

6月18日

03:55

LangChain@LangChainAI

LangChain测试显示，Alibaba Qwen基础模型配合良好提示在感知错误分类任务上性能接近前沿模型。使用LoRA SFT微调后，模型性能接近或超过前沿模型。实验表明微调能使开源模型与顶级闭源模型竞争。

推荐理由：LangChain实测：Qwen基础版+好提示就能追平顶级模型，微调后甚至超越。开源模型潜力很大！

原文

03:54

LangChain@LangChainAI

LangChain实验室与Alibaba Qwen及FireworksAI合作发布一项研究，探讨如何从每条trace中高效提取重要信号，同时保持前沿性能。研究对比了不同方法在成本与效果上的权衡。报告指出，通过优化模型选择和推理策略，可在保持95%以上准确率的情况下将成本降低80%。该研究为大规模trace分析提供了实用方案。

论文 LangChain Alibaba Qwen FireworksAI trace分析成本优化

推荐理由：LangChain联合Qwen和FireworksAI出了个办法：从每条trace里低成本挖出关键信号，性能还不打折，适合做可观测性的团队看。

原文

03:53

LangChain@LangChainAI

LangChain 发布 Deep Agents 深度解析第三部分，聚焦 Delegation 委派功能。该工具让模型能自动规划复杂任务，并内置子智能体支持。来自 @SydneyRunkle 的 90 秒讲解视频详细演示了如何通过委派分工提升任务执行效率。

技巧 Deep Agents LangChain 智能体任务规划教程

推荐理由：LangChain 出了个 Deep Agents 新视频，讲怎么用委派功能规划复杂任务，还自带子智能体支持，90 秒就讲明白。

原文

03:50

Google DeepMind@GoogleDeepMind

Google DeepMind与英国科学、创新与技术部（DSIT）、住房与社区部（MHCLG）以及i.AI合作，开发一款AI住房规划申请原型。该原型通过自动化重复性任务，有望将处理时间缩短最多50%，帮助规划官员专注于复杂项目。

行业 DeepMind 英国政府住房规划 AI应用效率提升

推荐理由：DeepMind和英国政府联手，用AI把住房规划审批时间砍半，不是画饼，是已有原型了。

原文

03:33

lmarena.ai@lmarena_ai

精选

Kimi K2.7 Code 在 Agent Arena 排行榜上总体排名第19，在开源模型中排第6。该模型在 Kimi Code Bench v2 上比 K2.6 提升21.8%，在 Program Bench 上提升11.0%，在 MLS Bench Lite 上提升31.5%。推理 token 使用量降低30%，减少了过度思考。长程编码任务指令遵循和完成率均有提升。目前通过 Kimi API 和 Kimi Code 可用。

AI模型 Kimi-K2.7-Code Kimi_Moonshot 开源模型编程助手推理模型

推荐理由：Kimi 发了新编程模型 K2.7 Code，推理更省 token，基准提升明显，而且在 Agent Arena 上开源模型里排第6，值得一试。

原文

03:32

LangChain@LangChainAI

LangChain 宣布未来一个月内将在三座城市举办线下 meetup。芝加哥场定于6月22日，合作方为 focused_dot_io 和 united。旧金山场于6月24日举行，合作方为 usehercules。柏林场在7月16日，合作方为 Zalando。注册入口为 luma.com/langchain。

行业 LangChain meetup 开发者社区线下活动

推荐理由：LangChain 要在三个城市办聚会了，去现场和同行聊聊，能学到不少搭建 AI 应用的经验。

原文

03:31

歸藏(guizang.ai)@op7418

G7 组织了一场 AI 领域午餐会，OpenAI、Anthropic、Google DeepMind 等头部 AI 公司负责人出席。现场焦点集中在 Anthropic CEO Dario Amodei 身上，他在交流中显得不太自在。视频片段显示其他 CEO 轻松交谈，而 Dario 表情僵硬，引发网友讨论。

行业 G7 Anthropic Dario AI高管行业会议

推荐理由：G7 攒局，AI 大佬们吃饭，Dario 被围观到尴尬，想看名场面可以点开。

原文

03:30

ollama@ollama

精选

Ollama 宣布用户可以在 Codex App、CLI 和 SDK 中使用 GLM-5.2 和 Kimi-K2.7-Code 模型。此前 Codex 仅支持 OpenAI 模型，现在扩展至开源模型。使用命令 ollama launch codex 即可启用。这一集成让开发者能用更多模型进行代码生成。

AI产品 Ollama Codex GLM-5.2 Kimi-K2.7-Code 开源模型

推荐理由：Ollama 把 GLM-5.2 和 Kimi-K2.7-Code 也带进 Codex 了，以前只能用 OpenAI 模型，现在敲一行命令就能切换试试。

原文

03:29

Genspark@genspark_ai

Genspark 发布了 AgentBase 预览版，该工具能将数据转化为自定义数据库、仪表盘和内部系统。它兼容 Salesforce、HubSpot 等现有数据库，并能从收件箱、文件、应用和会议笔记中拉取数据。用户可通过一句话提示词构建 CRM、招聘系统、项目追踪器等，声称可替代 30 多个 SaaS 工具。

AI产品 Genspark AgentBase Salesforce HubSpot 智能体

推荐理由：Genspark 出了个 AgentBase，能把你的 Salesforce 和 HubSpot 数据接进来，一句话就搭出 CRM 或项目系统，不用再买一堆 SaaS 了。

原文

03:12

LangChain@LangChainAI

Benchling AI负责人@nlarusstone在LangChain发布的视频中提出，理解LLMs应借鉴生物学思维而非传统软件工程。他认为LLM的错误模式和调试过程与实验生物学类似，需要迭代测试和大规模观察。该观点引发业界对LLM可解释性本质的重新讨论。

行业 Benchling LangChain nlarusstone LLM 可解释性

推荐理由：Benchling的AI负责人用生物视角解释LLM的奇怪行为，比技术文档好懂，推荐看看他的原话。

原文

03:08

@koltregaskes@koltregaskes

Robinhood近日裁员，但未将裁员归因于AI。实际是公司压缩团队规模，预期剩余员工用AI工具维持原有产出。分析认为，这种模式（减少人手、保持产出，依靠AI填补效率缺口）将成为未来几年企业常态。作者担心此举过早，导致员工失业，而AI工具尚未完全成熟。

行业 Robinhood AI裁员劳动力优化企业效率

推荐理由：Robinhood裁员不说AI，实际是让你用AI干更多活儿。公司瘦身靠工具填坑，这事值得盯着看。

原文

03:06

Jim Fan@DrJimFan

精选76°

Jim Fan揭秘了物理自动研究系统ENPIRE的设计内幕。安全采用两层硬编码：硬运动学限制立即触发任务失败并自动重置，以及扭矩限制柔性夹爪防止碰撞损坏。奖励函数通过收集成功/失败演示、用计算机视觉分类器编码并冻结在Gym环境中，防止智能体篡改。系统遥测定义了Mean Robot Utilization（MRU）、Mean Token Utilization（MTU）和GPU利用率三个实时指标，并基于Tokens-to-Success和Time-to-Success评估预算效率。

AI模型 ENPIRE 物理自动研究安全机制机器人奖励函数

推荐理由：Jim Fan讲了他们怎么让8个机器人通宵自动做实验，还防止奖励被篡改，资源利用率指标也很实用。

原文

03:06

xAI@xai

精选

xAI的Grok 4.3模型正式在Amazon Bedrock上可用，AWS开发者可通过Bedrock的安全推理引擎调用。Grok 4.3在幻觉率和工具调用两项基准上表现领先，能支持更可靠的生成与外部功能集成。该模型目前向所有AWS区域开放，按token计费。

AI模型 Grok xAI Amazon Bedrock 推理模型

推荐理由：xAI把Grok 4.3放到了AWS上，你用Bedrock就能直接调，幻觉率低、工具调用强，适合做可靠应用。

原文

03:05

@koltregaskes@koltregaskes

原本预测本周发布的 GPT-5.6 模型，过去几天内被调整为预测下周发布。这一变化来自社交媒体上的传闻，OpenAI 尚未官方确认。目前具体延期原因不明。

行业 GPT-5.6 OpenAI 发布延期传闻

推荐理由：GPT-5.6 的发布时间从本周延到下周了，关注 OpenAI 动态的可以看看这个变化。

原文

03:04

Gary Marcus@GaryMarcus

Gary Marcus重申LLM不可靠的观点，称无法被驳斥。特朗普政府要求Anthropic确保Fable 5的护栏不能被绕过，但安全专家表示不可能完全阻止规避。Marcus认为这是生成式AI的普遍问题，而非Anthropic一家的问题。WIRED报道引述了相关官员和专家的意见。

行业 GaryMarcus LLM Anthropic Fable5 AI安全

推荐理由：权威AI批评家Gary Marcus再次发声，直指LLM根本不可靠，加上特朗普政府与Anthropic的对峙，这场AI安全争议你必须了解。

原文

03:02

Weaviate@weaviate_io

Weaviate 宣布其云服务推出永久免费计划，无需试用期或信用卡。免费版包含 Weaviate 的向量数据库、查询代理和记忆能力。用户可用于个人项目、概念验证或初创公司。该计划旨在降低开发者使用向量数据库的门槛。

AI产品 Weaviate 向量数据库免费计划云服务

推荐理由：Weaviate 给了永久免费的向量数据库云服务，不绑信用卡，做原型或小项目直接上手，不用操心试用到期。

原文

03:01

LlamaIndex@llama_index

LlamaIndex CEO Jerry Liu在Databricks #DataAISummit上，与LangChain、CrewAI等公司创始人同台讨论Agentic Stack。该小组于上午11:30开始，聚焦智能体堆栈的构成、发展路径以及当智能体（而非人类）成为基础设施主要消费者时的变化。

行业 LlamaIndex Jerry Liu LangChain CrewAI Databricks 智能体

推荐理由：想了解AI智能体基础设施的未来方向？听LlamaIndex、LangChain、CrewAI创始人面对面聊聊他们的最新看法。

原文

02:45

Microsoft Research@MSFTResearch

精选

ResNet在CVPR 2026上获得Longuet-Higgins奖，表彰其持久影响力。该论文发表十年，残差连接已成为现代AI系统的基础组件。其引用量超过32万次，并在持续增长。残差连接解决了深层网络退化问题，推动了计算机视觉和整个深度学习领域的发展。

AI模型 ResNet CVPR Longuet-Higgins Prize 残差连接计算机视觉

推荐理由：ResNet的残差思想直到今天还在被所有大模型使用，32万引用不是白来的，这个奖实至名归。

原文

02:44

Lenny Rachitsky@lennysan

本期播客嘉宾包括谷歌DeepMind首席科学家Jeff Dean、OpenAI的ChatGPT生产力负责人Tara Seshan、Anthropic研究产品负责人Dianne Penn、Claude Code/Cowork工程负责人Fiona Fung、Codex PM与工程负责人Andrew Ambrosino，以及Netflix CPTO Elizabeth Stone。多位AI公司高管将分享前沿视角。

行业播客 Jeff Dean Google DeepMind OpenAI Anthropic Claude Code ChatGPT

推荐理由：想听谷歌DeepMind、OpenAI、Anthropic等公司高管聊内部视角？这场播客阵容超强，值得蹲。

原文

02:40

DeepLearning.AI@DeepLearningAI

DeepLearning.AI 与 VocalBridge 合作推出免费短课程 Voice for AI Agents and Applications，由 CEO Ashwyn 讲授。课程教你用最少代码为现有 AI 代理添加语音功能，无需修改 prompts、RAG pipeline 或工具。你将实现三种集成模式：应用内嵌入语音、将语音层叠到现有代理、以及将语音作为可调用工具用于外拨电话。课程现已开放免费报名。

技巧 DeepLearning.AI VocalBridge 智能体语音教程

推荐理由：想给你的 AI 代理加上语音但怕改代码？这门课讲三种集成方式，不用动原提示词和 RAG，几分钟就能上手。

原文

02:39

Firecrawl@firecrawl_dev

Firecrawl 的 AI 研发工程师通过索引查询论文、代码和技术讨论。在内部研究基准中，其召回率比 Exa 高 30%，比 Parallel 高 250%。目前已被多个领先研究团队采用。

AI产品 Firecrawl Exa Parallel 搜索召回基准测试

推荐理由：Firecrawl 搜索召回比 Exa 强 30%，比 Parallel 猛 250%，做研究查资料可以试试它。

原文

02:38

Firecrawl@firecrawl_dev

Firecrawl 推出 Research Index 功能，可通过 /search/research API 端点、CLI 命令行、MCP 协议及多种 SDK 调用。该功能兼容 Codex、Claude Code、Grok Build 等开发工具。用户可据此实现结构化的网站检索与数据提取。

AI产品 Firecrawl Research Index MCP Claude Code Codex

推荐理由：Firecrawl 新出的 Research Index 能用 API、CLI、MCP 调，还支持 Codex 和 Claude Code，适合做深度网站检索。

原文

02:36

Aadit Sheth@aaditsh

Aadit Shanbhag（@aaditsh）分享了他对vibecoding的态度转变，从怀疑到相信。他展示了Circle AI这款AI伙伴，能帮你描述梦想业务并自动构建、运行和增长数字业务。该推文获得6次点赞、1次转发和1320次查看。

AI产品 Circle AI vibecoding Aadit Sh 智能体编程助手

推荐理由：Aadit说自己原来不信vibecoding能搞企业级生意，现在被Circle AI打动了，你可以看看它怎么用自然语言帮你搭业务。

原文

02:30

Dify@dify_ai

Dify 在 AWS 香港峰会 2026 上展示了其平台构建生产级代理式 AI 应用的能力。LangGenius K.K. 团队在现场演示了工作流和 AI Agent 的实时构建。Dify 作为银牌赞助商，与参会者交流实际 AI 用例。活动于香港会议展览中心举行。

行业 Dify AWS AI智能体工作流行业活动

推荐理由：Dify 在AWS峰会上现场演示了怎么做代理式AI应用，想玩AI工作流的可以去看看他们展台的演示。

原文

02:29

a16z@a16z

72°

Telepatia 是一家面向拉丁美洲的 AI 原生临床平台，提供 AI 抄写、临床决策支持和 AI 审计功能，连接医院所有数据源。自 2025 年 7 月上线以来，已在巴西、哥伦比亚和墨西哥超过 25 家医院系统部署，覆盖 1400 万患者。本轮 3300 万美元 A 轮由 a16z 领投，总融资额达 4200 万美元。创始人 Nicolás Abad 的父亲因药物相互作用去世，推动他开发这款产品。

行业 Telepatia a16z AI医疗临床AI

推荐理由：a16z 领投了拉美医疗 AI 平台 Telepatia 的 3300 万美元 A 轮，覆盖 1400 万患者，创始人因家庭悲剧而创业。

原文

02:14

Jim Fan@jimfan

76°

Jim Fan团队推出ENPIRE系统，让8个Codex智能体操控机器人舰队自主进行物理实验。系统硬编码两层安全机制：硬运动学限制和扭矩限制夹爪，防止机器人超出安全范围。通过人类演示几分钟成功/失败样本，智能体编写计算机视觉代码生成分类器作为冻结奖励函数。定义Mean Robot Utilization（MRU）和Mean Token Utilization（MTU）监控资源，以Tokens-to-Success和Time-to-Success衡量效率。

AI模型 ENPIRE Codex 机器人智能体安全

推荐理由：Jim Fan展示了ENPIRE，8个机器人靠Codex智能体自主做实验，安全机制和资源监控设计挺有意思。

原文

01:49

LangChain@LangChainAI

LangChain 推出 On-Call Copilot，这是 LangSmith Fleet 中的一个新代理模板。该模板可对每条告警进行分类，并自动调查代码和追踪数据中的根因。它还能管理工单、将事件路由到正确渠道，并从 runbook、升级规则和噪声模式中持续学习。这一模板旨在提升运维团队的事件响应效率。

AI产品 LangChain On-Call Copilot LangSmith Fleet 智能体自动化运维

推荐理由：LangChain 新出的 On-Call Copilot 模板，能自动处理告警、查根因、管工单，运维团队可以省不少事。

原文

01:44

Firecrawl@firecrawl_dev

精选

Firecrawl 推出 Research Index，一个针对 AI/ML 研究代理的专用索引。该索引在 arXivQA 基准上实现最先进召回率，比次优提供商高出 18%，成本相近。目前正在为 YC 研究实验室 Aemon_ai 提供自动研发支持。该索引旨在提升研究代理的信息检索效率。

AI产品 Firecrawl Research Index arXivQA AI研究检索

推荐理由：Firecrawl 搞了个研究专用索引，召回率比同行高 18%，还已经用在 YC 实验室 Aemon_ai 了，做研究检索的朋友可以看看。

原文

01:41

@hebbia@hebbia

Hebbia 将出席2026年伦敦私募市场科技峰会，聚焦AI原生工作流程。讨论旨在重新构想私募市场流程，利用AI提升效率。活动日期为2026年。

行业 Hebbia 私募市场 AI原生工作流伦敦

推荐理由：Hebbia 要参加2026年伦敦的私募市场峰会，聊怎么用AI改造工作流，感兴趣的可以关注。

原文

01:34

Milvus@milvusio

精选

Milvus在DocVQA上对比ColQwen（多向量）与Qwen3-VL-Embedding（稠密）的检索性能。精确搜索下，ColQwen3的nDCG@10为0.698，比稠密的0.521高17.7个百分点。近似搜索（LEMUR，ratio=5.0）中，ColQwen3得0.704，领先18.3点，且近似损失几乎为零。在MS MARCO等文本基准上，多向量优势被近似搜索抹平。多向量通过保留表格、图表等空间结构获得提升，适合发票、报告等视觉文档。

AI模型 ColQwen Qwen3-VL-Embedding Milvus 多模态检索视觉文档检索

推荐理由：Milvus用ColQwen和Qwen3-VL-Embedding做了对比，发现多向量在检索带图表的文档时比稠密向量强近18个点，近似搜索不掉分。处理PDF或扫描件可以关注这个结果。

原文

01:30

@OpenAIDevs@OpenAIDevs

OpenAI 宣布向 Rust 基金会提供 60 万美元资金支持，其中包含白金会员费用及额外维护者资助。这笔捐赠旨在强化 Rust 生态系统的基础设施与维护工作。Charlie Marsh 代表 OpenAI 公布了这一承诺，体现其将 Rust 作为系统编程未来方向的押注。

行业 OpenAI Rust Rust基金会开源生态

推荐理由：OpenAI 砸 60 万美元支持 Rust 基金会，不光当白金会员还掏钱养维护者，系统编程圈的大动作。

原文

01:24

OpenAI@OpenAI

OpenAI发布案例，GPT-5.4与Molecule.one的Maria AI及专业实验室协作，为药物发现中一个广泛使用的反应提出了意想不到的改进方案。项目从文献综述启动，最终得到验证的实验结果。该成果展示了大型语言模型在具体科研场景中的实用价值。

AI模型 GPT-5.4 Molecule.one Maria AI 药物发现 AI辅助科研

推荐理由：OpenAI展示了GPT-5.4跟专业工具配合，在药物化学里找到了更高效的反应路线，成果很实在。

原文

01:13

elvis@omarsar0

精选

作者在使用/loops和/goal后强调，验证器和鲁棒护栏对编程智能体至关重要，不能依赖盲目的自主循环。rahul在长线程中提出7点经验：将fable+类模型视为English-to-code解释器；按风险大小管理diff，高风险区域用小diff；代码审查成为瓶颈，需优化linter、测试等；理解全栈和风险管理比理解每行代码更重要；维护多50%代码以换取5%性能提升可能值得。

技巧 coding agents loops goal 编程助手智能体

推荐理由：推主分享了用loops和goal的经验，强调别盲目自动化，验证和护栏是关键，还引用了rahul的7条实用总结，对用智能体写代码的人很有参考价值。

原文

01:12

elvis@omarsar0

Boris Cherny指出，AI代码生成正迈入新阶段，模型能对越来越多任务生成正确代码。关键在于设置合适的护栏，并使用Claude Code配合高级模型和验证器（verifier）构成循环。开发者需持续喂入任务数据，识别并消除瓶颈。这种工作流能显著提升代码生成的准确率。

技巧 Claude Code 验证器代码生成编程助手工作流

推荐理由：Cherny分享了用Claude Code和验证器循环生成正确代码的实战方法，不是空谈趋势，值得想提升代码质量的开发者一试。

原文

01:11

GitHub@github

72°

GitHub Copilot app 现已正式可用（GA），作为新的工作中心。用户可在此直接启动下一步任务、并行指挥多个智能体，并完成PR合并。该应用整合了编码协作与项目管理流程，支持在单一界面内完成从构思到部署的完整工作流。

AI产品 GitHub Copilot GitHub 编程助手智能体

推荐理由：GitHub把Copilot做成了独立App，能边写代码边指挥智能体干不同任务，最后直接在App里合PR，不用切窗口了。

原文

01:10

Clement Delangue@ClementDelangue

John Sarihan 创立的 Crosby Intelligence 发布了一个新的法律 AI 基准数据集。该基准托管在 Hugging Face 平台上。旨在推动法律领域 AI 的评测与发展。

AI模型 Crosby Intelligence Hugging Face 法律基准法律AI

推荐理由：想看看法律 AI 谁更强？Crosby Intelligence 搞了个新基准，已经在 Hugging Face 上线了。

原文

01:09

LangChain@LangChainAI

LangChain 推出 RemoteGraph 功能，实现部署间的直接交互。该功能内置 A2A 协议支持，无需额外配置即可跨部署通信。同时支持通过 MCP 协议与智能体交互。此更新由 LangChain 工程师 Victor Moreira 在 Managed Deep Agents 中演示。

AI产品 LangChain RemoteGraph A2A协议 MCP协议智能体

推荐理由：LangChain 出了个 RemoteGraph，能让你在不同部署之间互相调用，还自带 A2A 和 MCP 协议，玩智能体互操作更方便了。

原文

00:42

小互@imxiaohu

Vibe Coding 概念流行两年多，朋友圈屡见用AI做作品的分享。现有专门面向小白的Vibe Coding赛事出现，门槛低于传统黑客马拉松，无需深厚编程经验即可参与。赛事鼓励用AI工具辅助开发，让非程序员也能快速实现创意。

行业 Vibe Coding AI编程编程比赛小白友好

推荐理由：想用AI做点东西但编程基础差？这个Vibe Coding赛专门为你设计，门槛超低，赶紧去看看。

原文

00:41

Paul Couvert@itsPaulAi

MaineCoon 是一个支持无限时长实时交互的音视频 AI 模型，用户可即时与虚拟角色对话、接收回复。与多数仅支持文本或单次视频生成的 AI 不同，MaineCoon 实现了持续不间断的音视频在场感。该模型基于 Catnips AI 团队开发，目前已在官网 mainecoon.tech 开放体验。

AI模型 MaineCoon 实时交互音视频模型智能体

推荐理由：Catnips AI 新发布的 MaineCoon 模型能实时跟你对话、做表情，不像以前只能生成一段视频完事。

原文

00:40

orange.ai@oran_ge

用户实测显示，智谱的 glm 5.2 模型在 COLA 基准上表现优于 deepseek 和 mimo，在智商和情商方面都有提升。该模型被评价为国产模型的新高度，但当前版本存在稳定性差和响应缓慢的问题。测试结果基于真实用户反馈，尚未有官方基准数据佐证。

AI模型 glm 5.2 deepseek mimo 推理模型国产模型

推荐理由：如果你在找国产模型，glm 5.2 在 COLA 上比 deepseek 和 mimo 强，但别着急用，现在慢还不稳定。

原文

仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档（侧边栏 → AI 日报 → 顶部「往期日报」）。