全部 AI 动态 · AI 热点

AITOP

6月30日

08:30

coderabbitai@coderabbitai

精选

两年前业界普遍认为AI将加速代码审查，实现同等工作更短时间。实际数据反驳了这一假设：AI审查发现的问题数量增加约1.7倍，逻辑错误增加75%，安全漏洞增加约2倍。代码审查的瓶颈从编写转移到了审查环节。

行业代码审查 AI效率安全漏洞逻辑错误

推荐理由：别以为AI真能帮你省时间——数据说反而多了1.7倍的问题和两倍的漏洞，搞代码的要警惕这个新瓶颈。

原文

08:24

berryxia@berryxia

前Meta产品经理Qu Xiaoyin预测，2026年上半年中国开源模型（DeepSeek V4、Qwen3.5、GLM-5.2）能力追平部分闭源模型。她指出欧企业可把中国模型部署在自己的GPU上，满足数据合规（数据不出境）并获完全控制权。开源模型允许企业用内部数据微调成专属模型，而OpenAI和Anthropic的闭源API做不到。成本方面，闭源API按token收费，开源模型一次性部署后边际成本趋近零。但部署运维需专业团队，AWS、Azure、阿里云已提供托管服务降低门槛。

行业 OpenAI Anthropic DeepSeek Qwen GLM 开源模型企业部署

推荐理由：前Meta产品经理说欧美企业会抛弃OpenAI和Anthropic转向中国开源模型，因为能本地部署、定制微调，成本还低。想省钱的老板可以听听。

原文

07:48

berryxia@berryxia

Cursor iOS 版本正式上线，用户可以在移动端使用 Vibe Coding 功能。该版本提供 Composer 2.5 模型的 75 折优惠。这一更新扩展了 Cursor 的编程助手应用场景。

AI产品 Cursor iOS Composer 2.5 编程助手折扣优惠

推荐理由：Cursor 出了 iOS 版，能边走路边写代码了，还打折用 Composer 2.5，真不错。

原文

06:35

vLLM@vllm_project

vLLM 社区正在将 DeepSeek 的 DSpark 推测解码算法集成到 vLLM 推理引擎中。DSpark 是一种推测解码算法，能显著提升大语言模型的推理速度。该集成旨在为所有 vLLM 用户带来更快的推理性能，无需额外配置。目前社区正在积极开发中，预计将提升 vLLM 的吞吐量并降低延迟。

AI模型 vLLM DeepSeek DSpark 推理加速开源模型

推荐理由：vLLM 社区正在把 DeepSeek 的 DSpark 算法加进来，推理速度能再上一个台阶，用 vLLM 的朋友可以期待了。

原文

05:49

@koltregaskes@koltregaskes

72°

据x平台用户确认，Grok 2T运行已开始训练，计划七月完成，八月正式发布。此前有传言称下一代训练规模为3T，但该消息被指为猜测。马斯克作为xAI及特斯拉CEO，其公开预测需更加谨慎，以免影响投资者信心。

AI模型 Grok xAI 模型训练发布时间

推荐理由：x平台爆料Grok 2T开始训练，预计8月上线，比之前传的3T规模小一点。想蹲新模型的话可以关注这个时间点。

原文

03:08

@koltregaskes@koltregaskes

78°

GPT-5.6 Sol Preview 出现在 Cursor 的内部测试中，据称支持 100 万 token 上下文窗口。该发现来自 X 用户 koltregaskes 的截图，暗示 OpenAI 正在推进超长上下文能力。若属实，这将远超 GPT-4 的 128K 上下文上限。目前 OpenAI 尚未官方确认此模型的存在。

AI模型 GPT-5.6 Sol Preview Cursor 上下文窗口 1M上下文

推荐理由：OpenAI 的 GPT-5.6 Sol Preview 悄悄在 Cursor 里测试，上下文直接拉到 1M，能一口气吞整本小说了。

原文

03:07

@koltregaskes@koltregaskes

Ethan Mollick根据Artificial Analysis的AA-Briefcase分数，绘制了AI模型在复杂多周咨询任务上的表现趋势。AA-Briefcase测试模型处理电子表格和策略规划等可交付成果。GLM-5.2等开源模型目前达到的水平，与闭源模型三个月前的分数一致。高端闭源模型仍保持明显领先，但差距在缩小。

AI模型 GLM-5.2 AA-Briefcase 开源模型智能体基准测试

推荐理由：开源模型GLM-5.2在AA-Briefcase智能体基准上只差闭源三个月了，做复杂任务时值得试试看。

原文

03:06

@koltregaskes@koltregaskes

79°

DeepSeek v4 将于 7 月中旬进入通用可用（GA）阶段，部分用户已收到相关邮件通知。该版本带来更多功能优化和性能改进。具体改进细节尚未完全公开，但用户可期待更优的模型能力。

AI模型 DeepSeek v4 DeepSeek 开源模型推理模型

推荐理由：DeepSeek v4 马上 GA 了，7 月中旬上线，性能有优化，想尝鲜的可以关注。

原文

03:05

@koltregaskes@koltregaskes

精选

前沿模型成本上升、令牌使用量攀升以及近期禁令，使企业自建AI变得更加必要。通过下载Llama或Qwen等开源模型，使用LoRA在自有数据上微调，部署在自有基础设施，可一次性计算成本取代按席收费。Hugging Face和LoRA已降低技术门槛，关键在于管理层是否将其视为基础设施投资而非普通软件开支。

行业 Llama Qwen LoRA Hugging Face 微调

推荐理由：前沿模型越来越贵还被禁，自己微调Llama或Qwen更可控，一次性投入省月费，数据也安全。

原文

01:01

Vercel AI@vercel

Vercel 宣布其 AI Gateway 新增实时语音和转录能力，开发者可使用 useRealtime、generateSpeech 和 transcribe 三个工具。该功能基于 AI SDK 7 构建，支持实时语音交互、语音合成和语音识别。无需从零搭建基础设施，即可快速为应用加入语音代理功能。

AI产品 Vercel AI Gateway voice agents 语音识别实时交互

推荐理由：Vercel 把语音代理直接做到 AI Gateway 里了，用 useRealtime 就能接入实时对话，省掉搭服务器。

原文

00:17

Hunyuan@TXhunyuan

12款中国AI模型对世界杯32强比赛结果进行了预测。首轮榜单显示，腾讯混元（Tencent Hy）成功预测29场，以29/32的准确率排名第一。其他11款模型的具体准确率未在文中列出。现在比赛进入淘汰赛阶段，后续预测将更具挑战性。

AI模型腾讯混元世界杯预测 AI模型

推荐理由：腾讯混元29/32比其他AI猜得准，看看淘汰赛还能不能撑住。

原文

6月29日

23:49

阶跃星辰 Stepfun@Stepfun_AI

精选

StepFun 的 Step 3.7 Flash 模型在 Claw-Eval General 基准测试中取得第二名的成绩，该基准用于评估自主智能体。模型在多步执行和长程任务鲁棒性上表现强劲，排名仅次于 Claude Opus 4.6。这一结果显示其在真实世界智能体工作负载中的潜力。

AI模型 Step 3.7 Flash Claw-Eval General 智能体推理模型

推荐理由：StepFun 的 Step 3.7 Flash 在智能体基准 Claw-Eval General 排第二，仅次于 Claude Opus 4.6，多步执行和长程任务都强，感兴趣可以看看。

原文

23:12

berryxia@berryxia

Margot Van Laar在Code with Claude大会上分享提示词工程实战，核心观点是生产提示词调试维护比从零写更重要。她展示客服机器人场景：团队发现旧模型遗留的'禁止列表'指令导致新模型过度拟合，以及'请仔细计算'无效需提供计算器工具。在零售排班Agent场景中，她将复杂提示词拆成三个简单提示词（生成、评估、修复）组成循环，比单一大提示词更稳定。她强调可用Opus等更强推理模型加自适应思考来简化提示词，并务必建立量化评估基准验证改动效果。

技巧 Anthropic Claude 提示词工程评估提示词维护

推荐理由：Anthropic工程师手把手教你维护生产提示词，从客服机器人到排班Agent，拆成小提示词更靠谱，还有评估妙招。

原文

23:10

berryxia@berryxia

精选

Anthropic工程师Margot Van Laar在Code with Claude分享提示词工程最佳实践，强调通过评估（Eval）而非直接修改提示词来优化。她用客服机器人和零售排班两个案例演示：使用XML标签结构化提示词、移除旧模型遗留的禁止列表（如Claude 3 Opus）、用工具替代指令处理计算任务。拆解复杂任务为生成-评估-修复循环，并建议用更强推理模型（如Opus）加自适应思考替代小模型复杂提示词。

技巧提示词工程 Claude 评估 Claude Opus 工作流

推荐理由：Anthropic工程师手把手教你怎么调客服提示词和搭Agent，用Opus加循环拆解比堆复杂指令更管用，核心就一句话：先搞评估

原文

20:17

@elonmusk@elonmusk

特斯拉AI团队在AI3计算机上取得了良好成果。AI3的有效内存带宽仅为AI4的约15%，这使得任务极具挑战性。马斯克在X平台上发帖称赞团队工作。

AI产品 Tesla AI3 AI4 特斯拉芯片

推荐理由：看看特斯拉怎么用只有AI4 15%带宽的AI3完成高难度任务，挺有参考价值。

原文

20:16

@elonmusk@elonmusk

特斯拉FSD v14 Lite版本开始向搭载AI3硬件的车主推送，Elon Musk在X上确认了这一更新。该版本是FSD系统的轻量化版本，专注于优化性能和响应速度。目前暂无详细功能变更列表，但用户可期待更流畅的自动驾驶体验。

AI产品 Tesla FSD v14 Lite AI3 智能驾驶

推荐理由：特斯拉FSD v14 Lite来了，AI3老车主快检查更新，看看自动驾驶有什么改进。

原文

20:05

@zarazhangrui@zarazhangrui

一位创业者分享经验：每花1小时构建产品，应投入2小时用于解释、演示、销售和教学。这一比例强调产品需要持续向外界传达并基于用户反馈迭代。指出将时间优先花在传播和沟通上，是产品成功的关键。该观点源自与现实的接触和不断打磨。

技巧产品开发推广技巧创业经验时间管理

推荐理由：别只顾码代码，花两倍时间去推销和教学，这才是让产品落地的硬道理。

原文

19:47

eric zakariasson@ericzakariasson

73°

Elon Musk在推文中透露，Cursor团队为v9模型的SFT和RL训练做出了重要的工程贡献。当前1.5T参数量的模型已通过补充训练加入Cursor数据。而两周前开始的2T参数量训练在数据范围和规模上大幅改进，训练配方也获得多项升级，预计7月底完成，8月发布。

AI模型 Elon Musk Cursor v9 SFT RL

推荐理由：Elon Musk说他们和Cursor团队合作训练v9模型，2T参数量的版本数据更全，8月就能见到，值得关注。

原文

18:57

vLLM@vllm_project

精选

NVIDIA 与 vLLM 合作发布 step-by-step 指南，教你用四台 DGX Spark 盒子组建私有集群，自托管 550B 参数的 Nemotron-3-Ultra 模型。指南基于 vLLM 官方容器，可提供兼容 OpenAI 的端点。无需数据中心，适合构建私有 agent 工作流。

技巧 Nemotron-3-Ultra NVIDIA DGX Spark vLLM 自托管

推荐理由：想不依赖数据中心自己跑 550B 模型？NVIDIA 出了详细教程，四台 DGX Spark 就能拼出 OpenAI 兼容的端点。

原文

18:22

阿里云 Alibaba Cloud@alibaba_cloud

阿里云举办Qwen全球AI黑客马拉松，总奖金池超过70,000美元。参赛者需在Devpost平台注册，选择5条赛道之一，利用Qwen API构建Agent并提交作品。赛事面向全球开发者，旨在推动基于Qwen模型的创新应用开发。

行业 Qwen 阿里云黑客马拉松 Agent

推荐理由：阿里云拿出7万美元办黑客马拉松，五条赛道任选，用Qwen API搭Agent就能参赛。动手能力强的话值得一试。

原文

18:21

阿里云 Alibaba Cloud@alibaba_cloud

行业 Alibaba Cloud ApsaraDB PolarDB 关系型数据库 IDC报告

推荐理由：阿里云数据库连续7年拿第一，份额26.1%，公有云更是38.1%，本地收入暴涨25.4%。还搞了AI-Native数据库，以后数据+AI一条龙。做云数据库的值得看看。

原文

17:55

Yangyi@Yangyixxxx

用户认为FunASR模型在大部分场景下可用，精度偶尔不足。建议套用LLM进行修复，可解决绝大多数问题。其被评价为中国版Whisper中性价比最高的方案。

AI模型 FunASR ASR 语音识别 LLM 开源模型

推荐理由：有实测用户说FunASR比Whisper更值，精度不够时加个LLM就能补上，做中文语音识别可以试试。

原文

17:52

AI Will@FinanceYF5

这条推文仅提及“最终确定 OpenAI”，未包含任何具体模型名、版本号、数字或基准名称。内容来自社交媒体用户，缺乏可验证的细节。无法确认涉及具体的产品或事件。

行业 OpenAI

推荐理由：内容太少了，就几个字，没法给你推荐具体的点。等官方消息吧。

原文

17:47

阿里云 Alibaba Cloud@alibaba_cloud

阿里云推出新的AI零售解决方案，基于Qwen模型，可跨所有触点理解客户，将碎片化洞察转化为个性化沉浸式体验，驱动可量化的零售增长。该方案已在大规模场景验证。

AI产品 Qwen Alibaba Cloud AI零售零售解决方案

推荐理由：阿里云出了个新零售AI方案，基于Qwen模型，能跨各触点理解顾客，把零散数据变成个性化体验，还能量化增长效果。

原文

17:45

Browser Use@browser_use

Browser Use 团队使用 v4 版本构建 QA 基准测试，将 GLM 5.2、Opus 4.7、GPT 5.5 和 Minimax M3 四个模型在 LLM Arena 数据集上的任务进行对比。每个模型生成网站后由人工评估打分，测试涵盖多个任务类型。结果揭示了开源权重模型在特定场景下的表现差异。

AI模型 GLM 5.2 Opus 4.7 GPT 5.5 Minimax M3 基准测试

推荐理由：他们用 Browser Use v4 搞了个新基准，测了 GLM 5.2、Opus 4.7、GPT 5.5 和 Minimax M3，人工打分告诉你谁在 QA 任务上更强。

原文

17:44

AI Will@FinanceYF5

阿里巴巴推出 Wan Streamer，这是一个支持实时视频交互的 AI 智能体，能够通过摄像头看见用户、听取语音并实时回应。该功能突破了传统语音模式，实现了更自然的面对面交互。目前该产品已通过 Twitter 视频演示，获得 446 次浏览。

AI产品阿里巴巴 Wan Streamer 视频交互智能体

推荐理由：阿里这个 Wan Streamer 能实时看脸听声音回话，不再是纯语音，交互感拉满。

原文

17:42

AI Will@FinanceYF5

Anthropic 的顶级网络安全模型 Mythos 5 于6月12日被美国政府以出口管制为由强制下线。15天后，该模型部分恢复使用，但仅限美国关键基础设施机构。另一模型 Fable 5 面向普通用户仍未解禁，相关谈判仍在进行。此次解禁涉及美国网络安全和出口管制政策，直接影响模型可用范围。

行业 Anthropic Mythos 5 Fable 5 出口管制 AI安全

推荐理由：Anthropic 的 Mythos 5 是最强的网络安全模型，但被美国政府管制，现在只给关键机构用，普通人还用不了Fable 5，这事挺有意思。

原文

17:13

阿里云 Alibaba Cloud@alibaba_cloud

阿里云CTO李飞飞在推文中表示，向Agentic Cloud的转型已经开始。他认为未来三年将由Agentic Cloud的崛起定义。智能体将利用阿里云的产品和基础设施执行复杂任务。

行业 Alibaba Cloud Agentic Cloud 智能体云基础设施

推荐理由：阿里云CTO李飞飞说未来三年是Agentic Cloud的天下，智能体会用云产品干更复杂的事。

原文

16:54

AI Will@FinanceYF5

AGI Summit SF 2026 将于2026年7月18-19日在旧金山举行，预计吸引15,000人、200+演讲嘉宾、500+风投和30+国家参与者。OpenAI、Anthropic、Google DeepMind、BlackRock等公司确认出席。第二天恰逢世界杯决赛日，增加活动热度。

行业 AGI Summit SF 2026 OpenAI Anthropic Google DeepMind AI峰会

推荐理由：硅谷最密集的AI现场！OpenAI、Anthropic、DeepMind全到场，15000人大会议还撞上世界杯决赛，想凑热闹的快关注。

原文

16:53

AI Will@FinanceYF5

AGI Summit SF 2026 公布第二波嘉宾，包括 Vishal Vasishth、Fan-Yun Sun、Daksh Gupta、Alberto Taiuti、Gavin Zheng、Raymond Chen、Joshua McKibben。他们将围绕世界模型、AI信任、代码安全、基础设施扩展、影响力投资等7个议题展开讨论。峰会旨在促进AGI领域的深度交流与合作。

行业 AGI Summit SF 2026 AI信任代码安全基础设施扩展世界模型

推荐理由：AGI Summit SF 2026 第二波嘉宾名单来了，7位专家聊AI信任、代码安全和基础设施，看点十足。

原文

16:32

coderabbitai@coderabbitai

CodeRabbit发布了其AI代码审查Agent的Discord集成。原本用于审查GitHub PR的代码审查工具现在可以直接在Discord社区内部使用。这一更新让团队无需切换平台即可获得自动代码审查反馈。CodeRabbit Agent能够分析代码变更、提供建议并在Discord中实时讨论。

AI产品 CodeRabbit Discord 代码审查编程助手 AI Agent

推荐理由：CodeRabbit把PR审查机器人搬进Discord了，你们社区可以直接在聊天里审代码，不用来回切窗口。

原文

16:23

Geek@geekbb

该项目用 SwiftUI 开发原生 macOS 应用，为 Apple silicon 上的容器 CLI 提供图形界面。支持容器生命周期管理、七个详情标签页、镜像拉取构建推送、卷和网络管理、注册表登录、Compose 导入、模板库等功能。对标 Docker Desktop 交互体验，目标平替 OrbStack。开源地址 github.com/tdeverx/contai…

AI产品 SwiftUI macOS Apple silicon 容器管理 OrbStack

推荐理由：如果你用 Apple silicon Mac 平时要管容器，这个原生图形界面比命令行方便多了，直接对标 Docker Desktop 和 OrbStack，开源自已能改。

原文

16:17

小互@imxiaohu

据社交平台爆料，OpenAI 可能在今晚发布 GPT 5.6 模型。该推文已有 10 条评论、7 个点赞和 886 次查看。目前尚无官方确认或具体参数信息。

AI模型 GPT 5.6 OpenAI 模型发布

推荐理由：OpenAI 可能要发 GPT 5.6 了，虽然没有细节，但可以蹲一下今晚的更新。

原文

16:12

ElevenLabs@elevenlabsio

Employment Hero是一个服务超过35万家企业的AI驱动HR、薪资和招聘平台。该公司使用ElevenLabs的ElevenAgents在几天内成功部署了AI招聘外呼语音代理。首次营销活动实现了33%的接听率和超过3%的激活率。这证明了ElevenAgents能够快速落地并带来可衡量的转化效果。

AI产品 ElevenLabs ElevenAgents Employment Hero 智能体 AI招聘

推荐理由：嘿，ElevenLabs的新工具真牛，Employment Hero几天就搭好了AI招聘电话代理，接通率33%，激活率3%+，搞自动化招聘的可以看看。

原文

15:52

@koltregaskes@koltregaskes

评论指出，自GPT-2以来，模型安全审查不可避免，当前GPT-5.6和Fable 5等前沿模型需通过美国政府的逐客户审批，导致付费用户被延迟访问数天至数月。作者支持审查但反对永久封锁和基于公民身份的准入限制，认为政府应建立白名单机制加速预览阶段。已有用户因延迟起诉政府，国际用户可能被限制使用低规格模型。

行业 GPT-5.6 Fable 5 AI监管模型审查

推荐理由：聊聊GPT-5.6和Fable 5的审查闹剧：政府逐单审批不合理，付费用户可能白花钱，国际用户可能被抛弃。

原文

15:44

@koltregaskes@koltregaskes

有观点认为，某些前沿模型（如GPT-6 vs GPT-5.8）可能只在美国首发，欧洲和英国已等待数周至数月。若版本差距拉大到多个月，中国模型（如DeepSeek、Qwen等）在欧洲市场将更具竞争力。这一趋势源于美国政策或公司策略导致的地区延迟发布。

行业 GPT模型欧洲中国模型模型发布延迟版本差距

推荐理由：担心在美国以外拿不到最新模型？这篇讨论GPT版本差距和中国模型的机会，尤其是欧洲用户的备选方案。

原文

15:42

@koltregaskes@koltregaskes

精选

Nature Medicine论文对GPT-5、Gemini 2.5 Pro等前沿模型进行了医学视觉推理压力测试，通过移除图像、替换图像、调整问题格式来检验模型是否真正理解。结果显示，在标准基准上表现优异的模型在条件变化时出现推理不稳、幻觉视觉细节等问题。作者将测试框架开源，随后有人用GPT-5.5 Pro重新运行，得分从之前最好的67-70%提升至79%，约10个百分点的进步。这解决了论文发表时模型已过时的问题，使评估能随模型更新而保持时效性。

论文 GPT-5 Gemini 2.5 Pro 医学视觉推理压力测试开源

推荐理由：Nature Medicine那篇论文把模型考倒了，但作者直接把考卷开源了。后来GPT-5.5 Pro重新考，分数涨了10%！

原文

15:41

@koltregaskes@koltregaskes

商汤推出了U1 Pro图像思考模型，该模型在图像生成能力上与GPT Image 2持平甚至更优。U1 Pro支持高达8K分辨率输出，专为设计场景优化。内部测试将于7月启动，之后计划公开发布。

AI模型 U1 Pro SenseTime GPT Image 2 图像生成推理模型

推荐理由：商汤新模型U1 Pro据说能和GPT Image 2比一比，还支持8K图，设计师7月就能内测了。

原文

15:38

@koltregaskes@koltregaskes

91°

OpenAI 开放了 GPT-5.6 模型家族的有限预览，包括旗舰版 Sol、性价比版 Terra 和快速版 Luna。Sol 引入最大推理努力和超模式，使用子代理加速复杂任务，在 Terminal-Bench 2.1 上领先，并在网络安全基准上匹配 Mythos Preview 性能，仅用三分之一输出令牌。系统卡将网络和生物能力评为高，但低于自主全链利用的关键阈值。更广泛可用性计划在未来几周内推出。

AI模型 OpenAI GPT-5.6 Sol 推理模型智能体

推荐理由：OpenAI 终于放出 GPT-5.6 预览，Sol 在编程和网络安全测试上效率高，Terra 半价达 GPT-5.5 水平，想尝鲜可以关注。

原文

15:19

Geek@geekbb

推文作者分享了使用 Qwen3-8B 模型与 DSpark 工具进行本地部署的体验。该推文获得 737 次查看，反映了用户对消费级显卡运行大模型的渴望。当前消费级显卡显存普遍不足，难以直接运行 8B 参数模型。

AI模型 Qwen3-8B DSpark 本地部署消费级显卡

推荐理由：有人实测了 Qwen3-8B 配合 DSpark 本地跑，说能流畅运行但显存不够，感觉消费级显卡该升级了。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档（侧边栏 → AI 日报 → 顶部「往期日报」）。