16:51Hugging Face: Blog(博客/媒体)精选Hugging Face将huggingface_hub库的发布频率从每两个月一次提升至每周一次。流程中利用GPT-4自动生成发布说明,通过GitHub Actions运行超过2000项测试,并由人类维护者进行最终审核。该方案使版本迭代速度提升8倍,同时保持稳定性。技巧huggingface_hubHugging FaceGPT-4GitHub Actions自动发布推荐理由:Hugging Face分享了他们如何用GPT-4和GitHub Actions把库发布从两个月一次提速到每周一次,还保留了人工把关,挺实用的经验。原文
03:01Anthropic: Research(资讯)精选Anthropic前沿红队发布研究,量化了GPT-4和Claude 3.5等大模型对N-day漏洞利用的效率影响。测试涉及多个已知漏洞样本,发现模型能显著缩短利用代码的编写时间。研究报告同时强调了当前安全对齐的不足,并给出了缓解建议。论文AnthropicClaudeGPT-4漏洞利用AI安全10 个信源在谈推荐理由:Anthropic自家红队实测,发现Claude和GPT-4都能帮人更快写出漏洞利用代码。想知道风险多大?看这篇。原文
16:21宝玉@doteyPhoenix Yin指出,过去在GPT-3.5提示词中让其冒充GPT-4只能获得性能提升的错觉。Fable 5的真正实力来自Mythos-class底层权重、海量新训练数据和复杂agent架构,而非简单提示词复制。泄露prompt与老模型最多cosplay出味道像的lite版,性能差距巨大。Fable 5在长时程复杂分析、工具链、自验证等硬核任务上直接甩老模型几条街。AI模型GPT-3.5GPT-4Fable 5提示词工程推理模型10 个信源在谈推荐理由:别信提示词能偷实力,Fable 5靠的是真功夫原文
13:07Browser Use@browser_useBrowser Use 推出 0.13.0 测试版,专为 SOTA 模型设计,支持长时间运行任务。新版本包含自定义 LLM 和浏览器 harness,基于 Rust 构建。新增 Browser Use Terminal 功能,一条命令即可启动。旧版基于 GPT-4,新版面向更先进的模型。AI产品Browser UseGPT-4SOTA模型Rust浏览器自动化推荐理由:让 AI 替你跑长任务,一条命令搞定原文
12:13Gary Marcus@GaryMarcus据《华尔街日报》独家报道,OpenAI 正在考虑对其 AI 模型服务进行大幅降价。这一举措可能旨在应对日益激烈的市场竞争,尤其是来自 Google、Anthropic 等对手的压力。降价可能涉及 GPT-4 等核心产品的 API 调用费用,以吸引更多开发者和企业客户。如果实施,这将显著降低使用先进 AI 能力的门槛,推动更多应用落地。目前 OpenAI 尚未正式公布具体降价幅度和时间表。行业OpenAI降价API行业动态GPT-410 个信源在谈推荐理由:OpenAI 降价将直接降低 AI 应用开发成本,做 API 集成或依赖 GPT 模型的团队值得关注,建议提前规划预算调整。原文
18:44宝玉@dotey一篇对 Gemini 前核心科学家 Andrew Dai 的专访揭示,Google 在技术储备上其实早于 OpenAI:2021 年就做出了比 GPT-3 更强的 MoE 大模型 GLaM,PaLM 2 也在 2023 年初训练完成。但组织问题拖累了发布节奏——为了等 Google I/O,PaLM 2 被刻意延迟,而 OpenAI 抢先发布 GPT-4,改写了市场叙事。这解释了为什么 Gemini 2.5 Pro 之前,Google 模型从未超越 GPT-4。行业GeminiGPT-4GoogleOpenAI模型竞争10 个信源在谈推荐理由:做 AI 产品战略或关注模型竞争的读者,这篇专访点出了技术领先不等于市场领先的残酷现实——Google 的组织惯性如何让先发优势变成后发劣势,值得所有技术团队反思。原文
21:38Simon Willison@simonw精选Simon Willison 在 X 上指出,此前广为流传的“每生成一封邮件消耗一瓶水”的 GPT-4 水耗估算,很大程度上基于对 GPT-4 架构的猜测。他认为 OpenAI 有责任公布这个已退役的三年老模型的架构细节,以澄清事实。该言论引发了对 AI 模型环境影响估算准确性的讨论。行业GPT-4环境影响水耗OpenAI架构公开10 个信源在谈推荐理由:AI 环境影响是开发者绕不开的话题,Simon Willison 戳破了 GPT-4 水耗估算的泡沫,做 AI 可持续性研究的团队值得关注。原文
23:46lmarena.ai@lmarena_ai76°Text Arena 分析了自 2023 年以来大模型价格-性能帕累托前沿的 5 个模式。GPT-4 级别质量的成本从 2023 年的约 50 美元/百万 tokens 降至如今的约 0.10 美元,降幅达 500 倍。高端模型性能提升约 170 分(从 1330 到 1500),同时价格从约 50 美元降至约 20 美元。低价端(低于 0.20 美元)的模型性能从约 1000 分提升至约 1440 分,与顶级模型的差距从 350 分缩小到约 60 分。主要玩家轮换:OpenAI 奠定基准,Meta 加强低价端,Google DeepMind 推动 2025 年跃升,Anthropic 在 2026 年保持领先,xAI 和中国实验室(DeepSeek、零一万物、Kimi、小米、阿里通义)持续推动中端前沿。行业大模型价格-性能帕累托前沿GPT-4成本下降10 个信源在谈推荐理由:大模型价格-性能曲线正在急剧右移,做模型选型和成本优化的团队可以直观看到哪些价位段性价比最高,建议点开看具体数据。原文
06:44Ethan Mollick@emollick精选Ethan Mollick在推文中透露,他们的实验使用了GPT-4和GPT-4o的混合模型,因为发表论文需要时间。他指出,如果使用更新的模型,尤其是最新的智能体工具,实验结果可能会更加显著。这表明AI技术的快速迭代对研究结果有重要影响,最新模型和工具能带来更大提升。论文GPT-4GPT-4o实验模型迭代智能体推荐理由:AI研究者或实验设计者注意了:模型版本差异可能显著影响结论,使用最新智能体工具能放大效果,建议在论文中明确标注模型版本。原文