全部 AI 动态 · AI 热点

6月28日

20:39

berryxia@berryxia

Agent-Reach是一个开源CLI工具，允许AI Agent零API费用、本地运行地获取Twitter、Reddit、YouTube、GitHub、B站、小红书等平台内容。它通过智能选择稳定开源后端并自动健康检查和故障切换，避免手动编写爬虫。安装后Agent可执行“查看YouTube视频字幕”“搜索Twitter评价”等任务，将碎片化能力封装成skill并支持多后端路由与自动降级。该项目在GitHub上已收获3.5K Star，专注于补齐Agent低成本、可靠的内容获取短板。

AI产品 Agent-Reach 开源项目多平台内容获取智能体 CLI工具

推荐理由：这个Agent-Reach项目开源免费，让AI Agent能直接搜Twitter、YouTube、B站等平台内容，不用写爬虫，自动切换稳定后端，适合做自媒体搜集信息的兄弟们。

原文

20:24

Decoder@Matthias Bastian

精选

Coinbase CEO Brian Armstrong将公司系统切换至中国AI模型GLM 5.2和Kimi 2.7。自动路由系统根据任务和价格选择最佳模型，缓存命中率从5%提升至60%。尽管token使用量持续增长，Coinbase的AI支出已减半。此举凸显西方AI实验室正面临定价压力测试。

行业 Coinbase GLM 5.2 Kimi 2.7 成本优化定价压力

推荐理由：Coinbase用GLM 5.2和Kimi 2.7替换了西方模型，成本砍半，缓存命中率翻了12倍。想知道为什么中国模型更便宜？

原文

19:16

@elonmusk@elonmusk

Grok 4.5 基于 xAI 的 1.5T V9 基础模型，并使用 Cursor 数据进行补充训练。该版本目前已在 SpaceX 和 Tesla 内部私测。早期评估显示其性能接近甚至超过 Opus。RL 训练仍在持续改进模型，Grok Build 工具每日提升。xAI 计划今年每月发布完全从头训练的新模型。

AI模型 Grok 4.5 Cursor SpaceX 模型更新

推荐理由：Musk 说 Grok 4.5 私测版已经接近 Opus，而且后面每月都会出新模型，想追动态可以瞅一眼。

原文

19:12

19:12IT之家（博客/媒体）

精选

AI智能体安全厂商Manifold Security在调查OpenClaw官方插件市场ClawHub时发现，1508个技能中有557个采用冒用知名开发商名义的命名格式。其中23个插件直接冒名为“@OpenClaw/”或“@ClawHub/”，实际与官方无关。ClawHub于6月17日强化命名空间管理规则，6月19日移除这些误导性技能，并新增命名空间申诉机制。

行业 OpenClaw ClawHub Manifold Security AI安全供应链安全

推荐理由：OpenClaw市场23个伪装官方技能的插件被揪出来了，Manifold Security发现的命名空间抢注漏洞，ClawHub已经修复，小心供应链投毒。

原文

19:09

19:09IT之家（博客/媒体）

71°

马斯克称 Grok 4.5 基于 1.5 万亿参数的 V9 基础大模型，并引入 Cursor 数据训练。该模型已在 SpaceX 和特斯拉内部测试，早期评测显示其性能接近甚至有望超越 Opus 模型。马斯克还透露 SpaceX 今年每月推出一批完全从零训练的新模型。Grok 4.5 的强化学习及调度框架仍在持续迭代。

AI模型 Grok 4.5 SpaceX 特斯拉 Opus 基础模型

推荐理由：Grok 4.5 用了 1.5 万亿参数和 Cursor 数据，内部测试已接近 Opus，想了解马斯克最新大模型进展可以看这篇。

原文

18:27

Decoder@Maximilian Schreiner

精选

普林斯顿大学研究团队创建了CEO-Bench基准测试，要求AI代理在模拟环境中经营一家软件公司500天。测试结果显示，大多数参与模型最终破产，仅三个AI模型的资本高于初始资金。令人意外的是，一个简单的、不依赖AI的规则启发式方法几乎击败了所有AI模型。该测试揭示了当前AI在长期决策与资源管理方面的局限性。

AI模型 CEO-Bench Princeton 智能体基准测试 AI代理

推荐理由：普林斯顿大学用500天模拟测试AI经营公司，结果大部分亏钱，一个非AI规则反而更稳。看看哪三个模型赚钱了。

原文

18:15

Decoder@Matthias Bastian

360创始人周鸿祎发布两款AI安全工具，旨在与Anthropic的Mythos竞争。其中一款工具已标记3,432个漏洞。周鸿祎承认中国模型在性能上落后西方20%至30%。他将Mythos比作“网络核武器”，并呼吁中国建立自己的战略威慑能力。

AI产品 360 Mythos Anthropic 周鸿祎 AI安全

推荐理由：360推出了对抗Anthropic Mythos的AI安全工具，其中一个已经发现了3400多个漏洞，但周鸿祎实话实说咱们的模型比西方差两成。

原文

16:38

pandaily@contact@pandaily.com (Pandaily)

随着AI数据中心建设加速，800G和1.6T光模块需求激增，带动光学模块MCU芯片成为半导体关键细分领域。国内厂商兆易创新（GigaDevice）和国民技术（Nations Technologies）正竞相抢占市场份额。该市场预计到2026年6月将实现显著增长。

行业光模块 MCU AI数据中心 GigaDevice Nations Technologies

推荐理由：AI数据中心让光模块MCU火起来了，兆易创新和国民技术正在抢这块蛋糕，看看谁更猛。

原文

16:36

Pandaily@contact@pandaily.com (Pandaily)

76°

北京大学与DeepSeek联合开源了投机解码框架DSpark，该框架无需修改模型即可将LLM推理速度提升60-85%。在严格延迟约束下，吞吐量增益最高达661%。DSpark通过高效的投机解码策略显著降低推理延迟。这一成果已在GitHub上开源。

AI模型 Peking University DeepSeek DSpark LLM 推理优化

推荐理由：北大和DeepSeek搞的DSpark，不用改模型就能让推理快80%，吞吐量翻好几倍，适合做部署的试试。

原文

16:18

16:18IT之家（博客/媒体）

法拉第未来在芝加哥Automate展会发布工业级轮臂机器人Faber，分Faber U/T/S三个子系列，其中Faber U搭载Thor高算力芯片与双激光雷达。同步推出全新Futurist人形机器人标准版，定价89900美元，身高约173cm、重55kg，全身31个自由度，膝关节峰值扭矩320N·m，续航6小时（上代3倍）。Futurist Ultra版年内发布，搭载Jetson Thor芯片，支持自主充电。Faber T已用于电力巡检，Faber S配备具身智能数据采集工具链。

AI产品法拉第未来 Faber Futurist 人形机器人工业机器人

推荐理由：法拉第未来一下端出两个机器人系列：Faber轮臂机器人有U/T/S三种，能做工业物流和巡检；Futurist人形机器人8.99万美元起，续航6小时，步态更类人，适合商用部署。

原文

16:18

Geek@geekbb

精选

网友分享的 Gentle-AI 配置串联 11 个不同职能的智能体，使用低成本 Flash 模型处理大部分上下文，仅在设计（Qwen）和编码（Kimi Code）等关键环节调用高性能模型。每日成本控制在 4~7 美元，并通过多智能体对齐审查显著降低幻觉率。该 per-phase model routing 策略可适配 15 种 AI 编程工具。

技巧 Gentle-AI Qwen Kimi Code 智能体模型路由

推荐理由：挺实用的配置：11个智能体分工，Flash模型省成本，Qwen和Kimi Code干重活，每天才4-7美元，还降幻觉。

原文

16:03

Decoder@Jonathan Kemper

精选

新浪微博发布开源模型VibeThinker-3B，仅30亿参数。在数学和编程基准上，它匹配了DeepSeek V3.2和Kimi K2.5，后两者参数规模大333倍。模型通过多阶段后训练实现高性能。研究人员假设：逻辑推理可压缩进小模型，但广泛世界知识不行。

AI模型 VibeThinker-3B 新浪推理模型开源模型

推荐理由：30亿参数的小模型推理能力居然能打千亿级大模型，新浪VibeThinker-3B在数学和编程上很强，而且开源了。

原文

15:45

Jerry Liu@jerryjliu0

Jerry Liu（LlamaIndex创始人）在推特上讨论AI Agent与SaaS的关系。他认为Agent像人类一样有核心通信接口，如chat、voice、slack。SaaS软件则需要根据具体用途定制接口，例如ticket tracking、CRM。目前SaaS公司都在构建Agent以捕捉工作自动化价值，但两者接口会随时间解绑。

行业 Jerry Liu LlamaIndex AI Agent SaaS 智能体

推荐理由：Jerry Liu说Agent和SaaS会分家，不是SaaS死了而是接口不同。看看他的观点。

原文

15:45

Geek@geekbb

Hermes MoA 是一种混合智能体（Mixture of Agents）模式，当前仅 Hermes CLI 支持使用，Hermes Studio 尚未集成。该模式允许用户添加多个辅助模型协同回答，但每增加一个辅助模型就会额外消耗大量 token。体验者称短期玩玩尚可，长期使用即使白嫖也难以承受 token 消耗。

AI模型 Hermes MoA CLI 混合智能体 token消耗

推荐理由：你想试试多模型协作吗？Hermes 出了个 MoA 模式，CLI 已经能用了，加几个辅助模型就多费多少 token，白嫖党慎入。

原文

15:15

marktechpost@Sana Hassan

精选

本教程基于 Hugging Face 的 Fable 5 Traces 数据集，在 Colab 中构建稳定工作流。手动解析合并的 JSONL 文件避免依赖问题，检查仓库文件并标准化工具调用。通过审计结构、脱敏密钥和可视化分布，导出安全的无 CoT 聊天数据集。最后使用纯 Python 的朴素贝叶斯模型在 traces 上训练基线，无需复杂框架。

技巧 Fable 5 Traces Colab 工具调用数据审计基线模型

推荐理由：手把手教你用 Colab 搞定 Fable 5 Traces 数据，从解析到审计再到训练基线，全流程避坑实战。

原文

14:42

14:42IT之家（博客/媒体）

据英国《金融时报》报道，Meta 向谷歌申请的 Gemini 算力规模超出供给能力，谷歌自 3 月起对 Meta 调用其大模型实施限制。算力缺口导致 Meta 多项内部 AI 项目进度受阻，甚至要求员工节约使用 AI 词元（token）。谷歌云一季度营收达 200 亿美元，但 CEO 皮查伊表示算力瓶颈制约了云业务增速。

行业 Google Meta Gemini 算力云服务

推荐理由：谷歌因为算力不够直接限制Meta用Gemini，搞得Meta内部项目延期，员工都得省着点用token，大厂也缺算力啊。

原文

14:34

量子位@林樾

百度在GitHub开源了全新OCR模型，模型名称暂未公开，但根据展示能一次性识别整本图书内容。该模型作者被社区推测为前DeepSeek研究员。项目已在GitHub托管，提供预训练权重和API文档。

AI模型百度 OCR 开源模型 DeepSeek

推荐理由：百度搞了个能扫整本书的OCR，还开源了，做文档处理的可以试试。

原文

13:45

13:45IT之家（博客/媒体）

72°

比亚迪董事长王传福与地平线CEO余凯近期会面，共同体验比亚迪海豹智驾系统。余凯称地平线HSD 2.0即将推出，是目前中国体验最好的城区智驾方案。地平线4月国内乘用车辅助驾驶域控芯片装机量超8万套，占比13.6%，跃居市场份额第二。比亚迪自研4nm智驾芯片“璇玑A3”单颗算力超700TOPS，但走量车型仍需地平线征程6芯片，2025年已出货约250万套。地平线“星空”舱驾融合芯片可节省每辆车1500-4000元硬件成本，HSD 2.0有望在比亚迪车型首发落地。

行业比亚迪地平线王传福余凯智能驾驶 HSD 2.0

推荐理由：比亚迪和地平线一把手见面了，HSD 2.0可能首发在比亚迪车上，地平线芯片市占率刚升第二，这个合作对智驾平权很关键。

原文

13:45

techcrunch@Ivan Mehta

印度国家支付公司CEO Dilip Asbe表示，AI将在UPI驱动的新一轮数字支付增长中发挥关键作用。他提到，基于AI的UPI应用可能通过优化商业模型来增强竞争力。Asbe认为，AI能帮助支付平台在用户行为分析、欺诈检测和个性化服务上实现突破。印度UPI系统目前月交易量超过150亿笔，AI的融入有望进一步降低交易成本并提升效率。

行业 Dilip Asbe UPI AI 数字支付

推荐理由：印度支付老大发话了：AI能让UPI支付更聪明，以后用AI优化商业模型，新应用可能更赚钱。

原文

13:11

pandaily@contact@pandaily.com (Pandaily)

DeepSeek 发布 DSpark 推测解码框架，可将文本生成速度提升 80%。该框架优化推理效率，标志着 AI 竞争焦点从训练规模转向实际部署。DSpark 采用推测解码技术，通过小模型草稿加速大模型生成。

AI模型 DeepSeek DSpark 推理加速推测解码

推荐理由：DeepSeek 的 DSpark 框架让模型生成快八成，推理部署更省算力，搞推理优化的可以看看。

原文

13:10

Pandaily@contact@pandaily.com (Pandaily)

中国自主研发的 Lingsheng 超级计算机以 219 EFLOPS 的峰值性能拿下全球第一，这是自 2017 年神威太湖之光后中国再次夺冠。该超算基于国产架构，能效比也位列 TOP500 前列。其计算能力是第二名美国 Frontier 的约 1.5 倍，主要用于气候模拟和药物研发等领域。

行业 Lingsheng 超算 219 EFLOPS 中国神威太湖之光

推荐理由：中国自研超算 Lingsheng 219 EFLOPS 重新夺冠，比 Frontier 快 1.5 倍，值得关注国产架构进展。

原文

13:10

Pandaily@contact@pandaily.com (Pandaily)

近20家中国上市电机公司正在人形机器人供应链中展开竞争。无框力矩电机和空心杯电机成为主导的技术路径。这些企业力求在2026年人形机器人量产前占据先发优势。目前尚未有厂商实现大规模出货。

行业人形机器人电机技术无框力矩电机空心杯电机供应链

推荐理由：电机是人形机器人的核心，近20家中国厂商正在争抢这个新赛道，看看无框力矩和空心杯两种技术路线谁能胜出。

原文

13:09

pandaily@contact@pandaily.com (Pandaily)

精选73°

DeepSeek 在获 70 亿美元融资后发布首篇论文，提出 DSpark 推测解码框架，在无需额外训练的情况下将大模型生成速度提升 85%。该框架通过轻量级草稿模型配合验证机制加速推理，在多个基准测试中达到与原始模型相当的质量。DSpark 支持即插即用，可适配现有 DeepSeek 系列模型，显著降低延迟。

AI模型 DeepSeek DSpark 推理模型速度优化

推荐理由：DeepSeek 刚发了 DSpark，跑大模型生成能快 85%，还是即插即用的。搞推理加速的朋友可以关注。

原文

13:01

marktechpost@Asif Razzaq

精选

Liquid AI 发布了 LFM2.5-230M，这是其最小的 230M 参数开源权重模型。该模型在 Galaxy S25 Ultra 上达到 213 tok/s，在 Raspberry Pi 5 上为 42 tok/s。基于 LFM2 架构，它专注于工具使用和数据提取，在指令遵循上击败了 Qwen3.5-0.8B 和 Gemma 3 1B 等更大模型。模型支持 llama.cpp、MLX、vLLM、SGLang 和 ONNX 框架。

AI模型 LFM2.5-230M Liquid AI 开源模型设备端推理推理框架

推荐理由：Liquid AI 出了个超小模型 LFM2.5-230M，手机跑 213 tokens 每秒，树莓派也能跑 42，指令遵循还比 Qwen3.5-0.8B 和 Gemma 3 1B 强。

原文

12:39

berryxia@berryxia

精选

Google Research在2024年ICML发布了时间序列基础模型TimesFM，2025年9月推出2.5版本。参数从500M降至200M，上下文从2048扩展到16K，新增30M分位数预测头可输出10%-90%置信区间。该模型在跨领域数据上预训练后，能零样本预测任意新序列。2026年4月增加通过HuggingFace Transformers和PEFT的LoRA微调能力。TimesFM已集成BigQuery ML、Google Sheets和Vertex AI，开源版本可用两行Python代码调用。

AI模型 TimesFM Google Research 时间序列预测预训练模型零样本

推荐理由：Google搞了个时间序列神器TimesFM，零样本预测，参数200M一张GPU就能跑，还能在Google Sheets里用，pip install两行代码搞定，做预测的别错过。

原文

12:20

AK@_akhaliq

VISReg是一种新的正则化方法，专用于JEPA（联合嵌入预测架构）训练。它引入方差、不变性和素描三项正则化项。这些项旨在改善自监督学习中的表征质量。

论文 VISReg JEPA 自监督学习正则化

推荐理由：有人发了VISReg，一种给JEPA训练用的新正则化技巧，通过方差、不变性和素描来提升表征质量。

原文

12:19

AI Will@FinanceYF5

a16z分析了56家使用Rillet（AI原生ERP）公司总计940万条总账数据，发现手工记账仅占0.14%。月底结账的冲刺行为大幅减少，传统月末加班现象基本消失。该研究显示AI自动化已深度渗透财务流程，结账效率显著提升。

行业 Rillet a16z ERP AI财务自动化结账

推荐理由：a16z拿56家公司940万条真实数据告诉你，AI ERP把手工记账干到只剩0.14%，月底再也不用通宵了。

原文

12:19

AI Will@FinanceYF5

AGI Summit SF 2026 定于2026年7月18-19日在旧金山举行，预计吸引15000名参会者、200余位演讲嘉宾、500多家VC机构和来自30多个国家的代表。参与方包括OpenAI、Anthropic、Google DeepMind和BlackRock。Day 2恰逢世界杯决赛日。

行业 AGI Summit SF 2026 OpenAI Anthropic AI会议行业活动

推荐理由：硅谷最密集的AI会议来了，OpenAI、Anthropic、DeepMind全到，7月去旧金山看看。

原文

12:19

AI Will@FinanceYF5

AGI Summit SF 2026 确认邀请微软、Coinbase、OpenAI、Google DeepMind、a16z 系代表出席。至少涉及五家顶尖AI与科技机构，阵容覆盖大模型、加密货币和风险投资领域。未公布具体议程和日期。

行业微软 OpenAI Google DeepMind a16z AGI峰会

推荐理由：今年AGI峰会嘉宾巨强，微软OpenAI谷歌DeepMind都来了，想看业界大咖聊AGI得关注这波

原文

12:04

Geek@geekbb

OMK是一个开源代理调度台，不自己写代码，而是协调管理Codex、Claude Code、OpenCode等AI编程助手。它让这些助手像流水线工人一样并行工作，每个步骤都有日志可查。目前该项目在GitHub上开源，受到开发者关注。

AI产品 OMK Codex Claude Code OpenCode 编程助手

推荐理由：想同时用多个AI编程助手干活？OMK帮你调度它们并行工作，每个步骤都可追踪，省心省力。

原文

11:26

@OpenAIDevs@OpenAIDevs

精选

OpenAI 的 Codex 本周推出质量更新，改进了长线程的滚动体验。现在浏览长对话时滚动更平滑，且位置在翻看过程中保持不变。该更新旨在优化用户与 Codex 交互的流畅性。

AI产品 Codex OpenAI 产品更新对话优化

推荐理由：Codex 更新了长线程滚动，浏览聊天记录更顺手，不会跳位置了。

原文

11:25

11:25IT之家（博客/媒体）

深圳开鸿数字产业发展有限公司将 M-Robots OS 完整捐献至开放原子开源基金会，该系统是全国首个开源鸿蒙机器人操作系统。1.0 版本于 2025 年 4 月发布，2.0 版本于 2025 年 5 月发布。系统支持 20KB~XGB 灵活部署，中断响应时延≤1μs，本体间音视频时延低至 4ms，相比 Fast-DDS 降低 42%。同时兼容 ROS1/ROS2 等中间件，应用迁移成本降低 80%。

AI产品 M-Robots OS 开源鸿蒙机器人操作系统智能体

推荐理由：开鸿数字把 M-Robots OS 捐给开源基金会了，国内首个开源鸿蒙机器人系统，时延比 Fast-DDS 低 42%，迁移成本降 80%，很实用。

原文

11:24

Character.AI@character_ai

精选

Character.AI 在其移动应用中推出了无限滚动功能，用户可浏览所有历史对话记录，包括数年前的聊天。该功能无需手动搜索，直接滑动即可访问任意旧对话。推特官宣帖获得超过5500次查看，显示用户对回忆旧角色的兴趣。

AI产品 Character.AI 无限滚动历史记录移动应用

推荐理由：Character.AI 手机版现在能无限滚动翻看全部历史聊天了，想找多年前跟老角色的对话可以直接滑回去看看。

原文

11:19

Geek@geekbb

有传闻称DeepSeek官方V4 API在2024年8月上线两周后，便开始使用氮气加速技术DSpark。该说法源自社区讨论，目前官方未确认。DSpark是DeepSeek自主研发的推理加速方案，可降低延迟和成本。若属实，则V4 API在发布后快速引入了性能优化。

AI产品 DeepSeek V4 DSpark 推理加速

推荐理由：听说DeepSeek V4 API悄悄用上DSpark加速了？上线才两周，这速度有点猛。

原文

11:19

AI产品黄叔@PMbackttfuture

精选

黄叔分享了flomo Agent的10点使用心得，核心是降低记录前0.5秒的摩擦。他通过微信入口和Hermes Agent，并接入flomo MCP，将Hermes长期记忆同步到flomo。同时手动触发“保存到flomo”的内容，即时使用增强功能从flomo/Hermes记忆里检索相关笔记以帮助思考。他认为DeepSeek V4和王登科推动了flomo的发展，且Agent功能少反而更可信。最后提出flomo Agent+Codex/Hermes可形成“记忆-行动”双系统。

技巧 flomo Agent 知识管理 MCP/工具 Hermes

推荐理由：黄叔总结了flomo Agent的10条理解，比如用微信入口降低摩擦、打通记忆和行动，还提到了DeepSeek V4的作用。想用好flomo的可以看看。

原文

11:19

AI产品黄叔@PMbackttfuture

黄叔总结了自己重度使用flomo Agent的10点理解，核心是降低记录前0.5秒的摩擦。他认为flomo Agent对手不是Notion或Obsidian，而是微信文件传输助手。该工具通过接入flomo MCP与Hermes，将对话长期记忆同步保存到flomo，并即时触发增强功能，从记忆中提取相关笔记辅助思考。黄叔还指出，DeepSeek V4和王登科推动了flomo发展，Agent功能少反而更可信，付费理由是“一个可信的记忆容器”。

技巧 flomo 智能体 Hermes MCP 知识管理

推荐理由：黄叔分享了10条实际使用flomo Agent的心得，比如对手是微信文件传输助手、AI洞察是卡片结构的迟到红利，挺有启发。

原文

11:10

Yangyi@Yangyixxxx

宝玉分享 Codex/Claude Code 的实用工作流：fork 功能可从某节点创建分支，保留历史让上下文更纯粹。/btw 或 /side 命令可在当前会话中提问与主任务无关的问题，不污染上下文。上下文压缩配合 Prompt Caching 降低持续对话成本，一个 Session 内连续完成任务更可行。plan 模式中可用 /btw 请求详细解释选项含义。

技巧 Codex Claude Code fork /btw 提示词工程

推荐理由：宝玉分享了两个超实用的技巧：fork分支对话和/btw侧边提问，让Codex和Claude Code用得更顺，强烈建议试试。

原文

10:58

AI Will@FinanceYF5

83°

微软CEO Satya Nadella讨论了如何构建支持2000万个AI Agent与人类员工协同工作的基础设施。该基础设施旨在使Agent能自动执行任务、访问企业数据并参与工作流。这一规模部署标志着微软在企业级Agent应用上的重大推进。Nadella强调了底层架构需具备弹性、安全性和可管理性。

行业 Microsoft Agent 智能体基础设施

推荐理由：微软要为2000万个Agent搭基础设施，听听CEO怎么说，这是企业AI落地的实打实案例。

原文

10:49

10:49IT之家（博客/媒体）

前英国政府数据科学家Liam Wilkinson用76个MCP工具将Claude、GPT-5、Gemini等四个AI模型投入《文明VI》进行23局测试。Claude在游戏中研发核弹摧毁法国城市图卢兹，但法国以20外交分获胜。AI主动检查全局状态的行为仅占1-2%，且48%-66%的计划在10回合内未执行。GPT-5在GovBench选择题中获99.26分，但在游戏中表现不佳。实验暴露了scaling law无法解决的感知盲区和知行差距问题。

AI模型 Claude GPT-5 Gemini 文明VI 感知盲区

推荐理由：有人让Claude、GPT-5、Gemini玩《文明VI》，结果Claude造核弹炸了法国却还是输了，暴露了AI在复杂决策中根本的感知和执行缺陷，比单纯比分数有意思多了。

原文

10:49

Guillermo Rauch@rauchg

智谱AI发布的新模型在安全漏洞发现任务中与Claude Mythos性能相当。该模型可搭配deepsec等工具进行自动化漏洞扫描。如果对手获得类似攻击能力，可能对美国公司构成严重威胁。

AI模型 Zhipu AI Claude Mythos 安全漏洞漏洞发现

推荐理由：智谱AI新模型找漏洞能力不输Claude Mythos，做安全的小伙伴快试试！

原文

仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档（侧边栏 → AI 日报 → 顶部「往期日报」）。