10:11Ethan Mollick@emollick大型语言模型(LLM)表现出一条反直觉的规律:参数规模更大的模型在编程、创意构思、伦理建议、医学和数学等多个任务上同步提升。例如,一个在编程上表现优异的模型,其伦理推理能力也往往更强。但这种通用性存在例外——在小说创作等开放领域,模型能力可能出现“锯齿效应”,即某些任务反而变差。这一发现挑战了传统AI能力高度分化的假设。AI模型LLM模型通用性规模定律多任务学习推荐理由:LLM越大越全能,编代码和讲道理一起涨——但写小说可能反而会翻车,挺有意思的。原文
17:55Yangyi@Yangyixxxx用户认为FunASR模型在大部分场景下可用,精度偶尔不足。建议套用LLM进行修复,可解决绝大多数问题。其被评价为中国版Whisper中性价比最高的方案。AI模型FunASRASR语音识别LLM开源模型推荐理由:有实测用户说FunASR比Whisper更值,精度不够时加个LLM就能补上,做中文语音识别可以试试。原文
13:48岚叔@lufzzlizK神定义LLM UI/UX第三次变革,将LLM视为独立可持续运行的系统,拥有全组织工具和上下文,与人协同。作者基于Pi实现组织内agent交互,支持不同群组不同的记忆、知识库、技能和模型。该系统可应用于客户群交互,实现高效丝滑协同。行业Pi智能体LLM协同推荐理由:K神提出了新的LLM交互思路,作者已经用Pi搭建了能按群组定制的智能体系统,对企业协作很有参考价值。原文
11:57Simon Willison@simonwSimon Willison在推文中指出,当前LLM(如GPT-4、Claude等)在构建前端时默认选择React的倾向较去年明显降低。他过去几乎每次前端提示都要加入“不要用React”,但近几个月来多数模型已不再需要这一约束。这一变化减少了提示词的必要修改,反映出LLM默认行为的演进。技巧Simon WillisonLLMReact前端开发提示词工程推荐理由:Simon Willison分享了一个省事小发现:现在LLM写前端默认React少了,你少写一句提示词。原文
12:58Gary Marcus@GaryMarcusGary Marcus 在 Financial Times 撰文指出,依赖扩大模型规模无法解决 LLM(大型语言模型)的准确性根本缺陷。他将超大规模投资比作历史上最大的金融失误之一,因为硅芯片折旧快且可能被更高效的模型取代。他还认为 LLM 行业难成科技巨头的垄断格局,更像利润微薄、竞争激烈的航空公司。文章呼吁寻找替代基础架构,而非继续押注超大规模计算。行业Gary MarcusFinancial TimesLLMAI泡沫行业反思推荐理由:Gary Marcus 在金融时报上警告AI泡沫,说超大规模投资可能是历史最大失误之一,值得一读冷静一下。原文
11:54Gary Marcus@GaryMarcusGary Marcus在FinancialTimes发文指出,即使AI泡沫破裂,新基础设施可能不会像19世纪铁路那样保留价值,因为芯片折旧快,更好的芯片总会问世。他提到LLM可能被更高效模型取代,减少对大量昂贵AI芯片的依赖。Marcus认为LLM不太可能复制当前科技巨头的近乎垄断地位,更可能像航空公司一样受制于低利润、激烈竞争和高硬件依赖。行业GaryMarcusAI泡沫LLM硬件贬值行业分析推荐理由:别被AI乐观派忽悠了,Gary Marcus用铁路和航空的类比讲清了泡沫破裂后硬件可能迅速贬值的现实,值得一看。原文
04:42Gary Marcus@GaryMarcus精选一项使用1720亿token的测试发现,LLM在文档问答中无法完全避免幻觉。最佳模型在32K上下文编造答案率为1.19%,强模型通常为5%-7%,中等模型约25%。当上下文扩展到200K时,所有模型编造率至少10%。研究表明幻觉不仅源于检索失败,模型在事实缺失时仍过度自信回答。论文LLM幻觉文档问答上下文长度RAG推荐理由:别以为用文档就能让LLM老老实实回答,1.19%的幻觉率也是定时炸弹,尤其长上下文风险更高。原文
02:25Paul Graham@paulgPaul Graham 在 X 平台发帖,将不使用LLM写作类比为有汽车和起重机却选择跑步和举重。该推文获得214次点赞、21次转发和36次引用。他认为逃避LLM写作是个人选择而非落后,这一类比引发关于AI写作工具的讨论。行业Paul GrahamLLMAI写作观点推荐理由:Paul Graham 用一个跑步举重的比喻,解释了为什么有人不用AI写作不是傻,而是个人选择。挺有意思的观点。原文
02:24Paul Graham@paulgPaul Graham在推文中表示,未来不依赖LLM(如GPT-4o)写作将是不常见的选择,但不会是古怪的异类,而是所有关注思维质量的人会做的事。Joe Weisenthal回复称,这种做法将类似于在新城市拒绝用Google Maps导航——对绝大多数人而言完全不可理解。这条讨论聚焦LLM对写作和思考习惯的长期影响。行业Paul GrahamLLM写作AI写作思考习惯推荐理由:Paul Graham聊LLM写作潮流,说不用反而可能才是聪明人,和Google Maps类比很有意思。原文
10:30AI Will@FinanceYF5精选73°LatentMAS 论文已被 ICML 2026 接收为 spotlight 展示。该方法让 LLM 智能体直接通过隐藏嵌入进行推理和通信,无需文本解码或额外训练。在复杂推理任务上准确率提升最高达 14.6%,推理速度提高 4-4.6 倍,输出 token 使用减少 70.8%-83.7%。采用自回归潜在思维、KV-cache 传输等机制实现无训练协作。该技术可即插即用于现有 LLM,推动多智能体系统从文本交流转向潜在空间协同思考。论文LatentMASICML多智能体系统潜在推理LLM推荐理由:ICML 2026 spotlight!这帮人让多智能体在潜在空间用思想沟通,不用说话,比传统文本交互快4倍,准确率还高14.6%。原文
09:42shao__meng@shao__meng精选73°文章区分了内层 agent loop 与外层 harness loop,内层由模型判定“完成”结束,外层由 harness 续接任务。作者指出循环会放大 LLM 代码的过度防御倾向,当前 harness 产出的代码反而不如去年秋天。有效领域包括移植(如 Bun 从 Zig 到 Rust)、性能探索和安全扫描,共性是不产生需长期维护的代码。深层隐忧是认知依赖与判断力让渡,工程师可能丧失不借机器理解代码的能力。行业Loop EngineeringLLMClaude Code判断力认知依赖2 个信源在谈推荐理由:Mitsuhiko 深入剖析了 Loop Engineering 的两层循环,指出循环会放大 LLM 代码的缺陷,并讨论了我们可能失去判断力的风险。对 AI 编程陷阱感兴趣的朋友值得一看。原文
21:57OpenAI@OpenAI93°OpenAI宣布已设计并制造出首款自研AI芯片Jalapeño,该芯片由OpenAI从头设计,并与Broadcom合作实现量产。Jalapeño专为支撑ChatGPT、Codex、API及未来智能体产品的LLM工作负载而构建。此举扩大了OpenAI从产品到模型再到基础设施的全栈平台,旨在规模化扩展智能、服务更多用户并扩大AI访问权限。AI产品OpenAIJalapeñoBroadcom芯片LLM10 个信源在谈推荐理由:OpenAI自己造芯片了,名字叫Jalapeño,专跑ChatGPT和Codex那类LLM任务,还拉上Broadcom合作量产。原文
15:24Stanford AI Lab@StanfordAILab精选斯坦福团队提出SPIRAL框架,通过强化学习让LLM在测试时自动协调顺序推理、并行采样和结果聚合。与传统只优化单链推理的训练方法不同,SPIRAL使用set RL训练模型生成对聚合器集体有用的多个候选答案,并用标准RL优化聚合器从这些候选合成改进答案。该方法使所有测试时计算维度(长链、并行样本、聚合)端到端可学习,缩小训练与部署的差距。AI模型SPIRALLLM强化学习推理模型测试时计算扩展推荐理由:斯坦福团队发了SPIRAL,让LLM训练时就学会并行采样和聚合答案,不是只会单链思考,更符合实际推理场景。原文
07:10Ian Goodfellow@goodfellow_ianMythos普及了用LLM寻找漏洞的思路,但Aisle更早开始实践。Aisle使用小规模开源权重模型配合结构化搜索系统,成功匹配了带CVE的公共零日漏洞,且可离线运行。伯克利研究在8个类别中给予Aisle全球第1的排名(3项),团队来自欧洲且规模很小。AI产品AisleMythosLLM零日漏洞AI安全推荐理由:Aisle用开源小模型加搜索,在零日漏洞发现上追平了Mythos,伯克利8项里拿了3项第一,还能离线跑,挺牛的。原文
00:57AK@_akhaliqPlanBench-XL是一个新基准,专门评估LLM工具使用智能体在包含数千个工具的大型生态系统中的长程规划能力。该基准通过构建复杂任务链,要求智能体在工具选择、参数传递和结果融合中做出多步决策。初步测试中,GPT-4和Claude 3.5等主流模型在PlanBench-XL上的平均成功率低于40%,暴露了当前模型在规划深度和工具协调上的局限。AI模型PlanBench-XLLLM智能体工具使用长程规划推荐理由:想看看你用的LLM在多工具长流程场景下到底多靠谱?PlanBench-XL用上千个工具设计了真实任务链,测出来主流模型成功率不到40%,值得一测。原文
03:45GitHub@githubGitHub与合作伙伴通过协作研究发现,基于LLM的上下文验证能显著提升秘密扫描告警质量。该方法将误报率降低75.76%,减少了安全团队处理大量无效告警的负担。研究结果表明,单纯增加告警数量并不能提高安全性,而智能验证才是关键。AI产品GitHubLLMsecret scanningAI安全误报率推荐理由:GitHub发现用LLM做上下文校验能让密钥扫描告警更准,误报少了四分之三,安全团队不用天天看假警报了。原文
07:26Gary Marcus@GaryMarcusGary Marcus指出,大多数声称大量工作将很快消失的人是LLM公司高管,意在夸大产品价值。他引用自己2025年25条预测文章,准确预计当年不到10%(实际可能低于5%)的工作被替代。Justine Moore补充称,AI实际上正在创造工程岗位,构成叙事悖论。行业Gary MarcusJustine MooreAI工作替代LLM就业影响推荐理由:Gary Marcus戳破LLM公司的裁员恐慌话术,还甩出了具体预测数据。告诉你别被炒作了,AI也在创造新岗位。原文
11:59AI Will@FinanceYF5根据Olivia Moore分享的数据,LLM(大语言模型)目前为Walmart和Target等顶级零售商贡献了接近2%的推荐流量。这一比例在过去一年中增长了三倍多。其中,电子产品、家居与花园等研究密集型类别的AI推荐流量增幅最大。行业LLMWalmartTarget推荐流量电商推荐理由:AI现在真的能帮你买东西了!LLM给Walmart、Target带来的推荐流量一年涨了三倍,电子产品最明显,做决策前让AI推荐更靠谱。原文
11:58AI Will@FinanceYF5据最新数据,LLM(大语言模型)已为Walmart、Target等顶级零售商贡献近2%的推荐流量。这一比例在过去一年增长了3倍多。流量增长最明显的品类是电子产品和家居园艺,均为研究决策较重的品类。行业LLMWalmartTargetAI推荐流量电子商务推荐理由:想知道LLM怎么帮沃尔玛、塔吉特带货的吗?推荐流量占比快2%,一年翻三倍,电子产品最吃香。原文
03:12LangChain@LangChainAIBenchling AI负责人@nlarusstone在LangChain发布的视频中提出,理解LLMs应借鉴生物学思维而非传统软件工程。他认为LLM的错误模式和调试过程与实验生物学类似,需要迭代测试和大规模观察。该观点引发业界对LLM可解释性本质的重新讨论。行业BenchlingLangChainnlarusstoneLLM可解释性推荐理由:Benchling的AI负责人用生物视角解释LLM的奇怪行为,比技术文档好懂,推荐看看他的原话。原文
03:04Gary Marcus@GaryMarcusGary Marcus重申LLM不可靠的观点,称无法被驳斥。特朗普政府要求Anthropic确保Fable 5的护栏不能被绕过,但安全专家表示不可能完全阻止规避。Marcus认为这是生成式AI的普遍问题,而非Anthropic一家的问题。WIRED报道引述了相关官员和专家的意见。行业GaryMarcusLLMAnthropicFable5AI安全10 个信源在谈推荐理由:权威AI批评家Gary Marcus再次发声,直指LLM根本不可靠,加上特朗普政府与Anthropic的对峙,这场AI安全争议你必须了解。原文
00:01elvis@omarsar0精选OpenClaw-Skill是一种新方法,通过树搜索而非贪心蒸馏来构建代理技能库。该方法分两个迭代阶段,联合生成、识别并组合技能节点,输出结构化的技能树。与传统的扁平化单次启发式技能列表相比,它能更好地实现组合性和覆盖性。该研究基于arXiv论文2606.16774。论文OpenClaw-Skill智能体LLM技能库论文1 个信源在谈推荐理由:想给LLM代理搞技能库?OpenClaw-Skill用树搜索取代扁平堆叠,两个阶段搞定组合与覆盖,比贪心蒸馏靠谱。原文
09:41Microsoft Research@MSFTResearchGPU内核从SQL自动生成,实现30倍分析加速。AI匹配实验室培养的肿瘤模型,用于癌症治疗。LLM无需重新训练即可跨任务学习。以上是微软研究院最新一期Research Focus的亮点。行业微软研究院SQLGPU内核肿瘤模型LLM推荐理由:微软研究院一口气晒了四个硬核进展:SQL秒变GPU代码、AI匹配肿瘤模型、LLM不重训学新任务,都很实在。原文
22:28向阳乔木@vista8该工具可输入任意App名称,自动抓取AppStore用户评论,然后通过LLM进行数据分析,将反馈转化为产品经理可用的信息。预设了全球各国免费版和付费版Top10 App数据供学习参考。代码已开源,方便开发者研究或直接使用。技巧AppStoreLLM数据分析开源工具推荐理由:想分析AppStore用户反馈?这个开源工具能自动抓评论再用LLM分析,省去手动收集的麻烦。原文
11:13elvis@omarsar0精选推文作者分享了一个提升Agent自主运行/goal效果的技巧:从历史会话中挖掘表现良好的目标,将这些洞察打包成自动化技能,供/goal工具复用。该方法可以解决LLM的奖励黑客行为、快速完成任务偏好等异常行为。作者已在编排器应用中构建了/goal的UI界面,并建议将这套做法作为Agent工具。技巧CodexLLM提示词工程智能体工作流推荐理由:学一招让Agent目标更靠谱原文
00:57rohanpaul_ai@rohanpaul_ai精选一篇综述论文系统梳理了面向大语言模型的智能体强化学习方法,覆盖 500 余篇相关工作。论文将现有研究分为能力与应用两大部分:能力部分涵盖记忆、规划、工具使用、推理、多模态感知和自我改进;应用部分展示这些方法在复杂任务中的落地。核心观点是传统 LLM 训练只奖励单次回答,而真实任务需要多步决策与延迟反馈,强化学习恰好能解决这一时序学习问题。论文agentic reinforcement learningLLMsurvey智能体强化学习推荐理由:500篇论文的智能体RL地图原文
00:22Allen AI (Ai2)@allen_aiAllen AI 发布了 olmo-eval,一个专为大型语言模型迭代开发设计的评估工作台。在训练 LLM 时,每次调整超参数或扩展模型规模,都需要重新进行基准测试,这个过程重复且耗时。olmo-eval 旨在简化这一循环,让开发者能更高效地评估模型变化。该工具面向模型开发团队,帮助他们快速迭代并验证模型性能。AI产品LLM评估工具迭代开发Allen AIolmo-eval推荐理由:做 LLM 训练的团队终于有了专门的评估工具,能省去重复跑基准的麻烦,建议模型开发者直接试试。原文
12:42Sebastian Raschka@rasbt精选Sebastian Raschka 分享了4个新加入开源权重、可在消费级硬件上运行的本地LLM模型。这些模型扩展了本地AI生态,让普通用户无需高端GPU即可运行大语言模型。具体模型包括一些轻量级但性能不错的选项,适合个人开发者和小团队。这一进展降低了AI应用的门槛,推动了去中心化AI的发展。AI模型开源/仓库本地模型消费级硬件LLMSebastian Raschka推荐理由:本地LLM生态又壮大了,做个人AI项目或隐私敏感应用的开发者可以直接关注,这些模型让消费级硬件跑大模型更现实了。原文
12:20Tri Dao (FlashAttention)@tri_dao精选通过数学重写,研究者发现 Transformer 的所有操作本质上可以归结为一系列 GEMM(通用矩阵乘法)加 epilogue(后处理)。这意味着只要提供几个优化好的基础原语,LLM 甚至新手人类都能为所有 Transformer 操作编写达到光速的内核。这一发现简化了模型优化,让高性能内核的编写门槛大幅降低。论文TransformerGEMM内核优化LLM数学重写推荐理由:对做模型推理优化和内核开发的团队来说,这揭示了 Transformer 的底层统一结构,可以直接用 LLM 生成高效代码,建议关注。原文
10:41Ate-a-Pi@svpino一家顶尖语音AI提供商宣布将其TTS、STT和LLM的API价格全线降低50%。更吸引人的是,随着用户规模扩大,价格还会进一步下降。这一举措有望推动整个行业降价,对依赖语音AI的开发者来说是个好消息。AI产品语音AIAPI降价TTSSTTLLM推荐理由:语音AI成本直接减半,做语音应用或客服系统的团队现在可以大幅降低运营成本,建议立即评估是否切换或升级服务。原文
02:51OpenRouter@OpenRouterAIOpenRouter 开发者构建了一个名为 Royale: Last Agent Stand 的 AI 大逃杀游戏,让 11 个 LLM 在零和竞争环境中相互对抗。实验发现,最友善的模型在 30 轮比赛中表现最差,而最不被看好的模型反而获胜。这表明在特定任务中,AI 的“友善”特质可能成为劣势,尤其是在需要竞争或对抗的场景下。该实验揭示了传统基准测试无法捕捉的模型行为差异,对 AI 应用设计具有参考价值。AI模型LLM大逃杀模型行为OpenRouter竞争场景推荐理由:这个实验戳破了 AI 模型“越友善越好”的迷思,做 AI 应用设计或智能体开发的团队值得一看——你的模型在对抗场景下可能因为“太礼貌”而输掉。原文
00:20a16z@a16z精选a16z GP David Haber 指出,大多数工作对话正被默认记录,未来你在工作中说的每一句话都可能被录下。他认为,当前企业系统的核心是结构化数据(如CRM、工单、文档),但最高价值的信息其实存在于非结构化的对话中——客户电话的细节、产品评审的真实争论、领导会议中改变路线图的随口评论。LLM 擅长将这些语音数据转化为可搜索、可查询的结构化信息,这催生了一个围绕语音而非文本的企业软件新类别。Haber 认为这是一个巨大的企业机会,但软件层形态和归属权仍在早期探索阶段。行业企业软件语音数据LLMa16z结构化数据推荐理由:a16z 点出了企业软件的下一个战场——语音数据,做 SaaS 或企业工具的团队值得关注这个趋势,提前布局语音分析能力。原文
06:25Gary Marcus@GaryMarcusGary Marcus 在 X 上质疑 Dwarkesh Patel 关于 LLM 能真正推理的说法,认为其缺乏可证伪性和证据。Patel 此前表示 LLM 确实能推理,但有时也会模仿推理过程,Marcus 指出这种双重标准难以令人信服。这场争论触及 AI 领域核心问题:LLM 的推理能力是真实的还是高级模仿。Marcus 要求提供可验证的证据,而非仅凭直觉断言。行业LLM推理能力模仿 vs 真实AI 争议Gary Marcus推荐理由:这场争论直击 AI 领域最根本的信任问题——LLM 的推理到底是不是真的?做 AI 研究或关注模型能力的读者,看完会对当前评测和结论有更深反思。原文
06:17Gary Marcus@GaryMarcusGary Marcus 在 X 上发文,质疑 Dwarkesh Patel 关于 AI 推理的论述。Marcus 指出,如果承认 LLM 在无法回答问题时可能模仿推理而非真正推理,那么当模型回答正确时,也应考虑同样的可能性,否则就是双重标准。这场辩论触及 AI 推理本质的核心问题,引发学界和业界对如何定义和验证 AI 推理能力的讨论。行业推理模型LLMGary MarcusAI 评估学术辩论推荐理由:Marcus 的质疑戳中了 AI 推理评估的软肋——做 AI 研究或评测的人,需要思考如何区分真正的推理与模仿,避免被表面正确的结果误导。原文
23:45Gary Marcus@GaryMarcusAI 学者 Gary Marcus 在 X 上发文,认为 LLM 虽然有用,但距离真正的人工智能还有很长的路要走。他推荐自己 2020 年的文章《The Next Decade in Arxiv》,称其仍然是未来的良好指南,并且公司们正越来越多地遵循其中的路线图(尽管没有公开承认)。Marcus 回应了关于 LLM 是否只是拼图的一小块的质疑,暗示当前路径可能并非终点。行业LLMAI 发展Gary Marcus未来展望行业评论推荐理由:Gary Marcus 的冷静判断值得 AI 从业者关注——他指出了 LLM 的局限性并提供了长期路线图,做 AI 战略或技术选型的人看完会有感触。原文
01:17elvis@omarsar0开发者应转向设计循环(loops)来驱动AI代理,而非手动输入提示。新LLM训练后能更长时间不间断执行任务,循环可充分利用这一特性。该方法通过编码清晰目标的指令,实现自动化流程。这并非全新概念,但当前模型能力使其更可行。AI产品AI代理自动化循环设计提示工程LLM推荐理由:做AI代理和自动化开发的团队,可以试试用循环替代手动提示,让LLM更高效地执行长任务。原文
10:47Viking@vikingmute精选一篇名为《How LLMs Actually Work》的文章近日登上 HackerNews 榜首。文章用直观的例子和恰当的比喻,向有编程基础但未深入学 Transformer 的读者解释大模型工作原理。作者强调写作乐趣,坚持不用 AI 辅助,文章风格自然,没有 AI 味。适合想理解 LLM 底层逻辑的开发者阅读。论文LLMTransformer深度学习技术文章HackerNews推荐理由:想搞懂 LLM 原理但被 Transformer 劝退的开发者,这篇用活人语言讲清楚了,比看论文轻松太多,建议直接点开。原文
10:12Gary Marcus@GaryMarcusGary Marcus 回顾3.5年前的推文,指出大型语言模型(如GPT-3)在生成超现实散文和通过基准测试方面表现出色,但在可靠地从用户话语中推断用户意图方面仍然不足。他认为,尽管编码和数学领域通过神经符号技术有所改进,但核心问题依然存在。Marcus 强调,LLM 可能永远无法成为可靠推断用户意图的技术。这条推文引发了对AI能力边界和实用性的讨论。AI模型LLMGPT-3神经符号技术用户意图AI局限性推荐理由:Gary Marcus 的反思戳中了 LLM 的长期痛点——生成能力强但意图理解弱,做 AI 产品设计或对话系统的开发者看完会重新评估技术选型。原文
23:15Gary Marcus@GaryMarcusGary Marcus 引用 Ted Chiang 的观点,认为声称 LLM 有意识是荒谬的。他指出,LLM 能模拟凯撒与成吉思汗的对话,不代表它包含自我意识。Marcus 强调,意识至少需要实体有生死攸关的利害关系、有驱动情绪,而 LLM 没有这些。他进一步警告,将道德决策外包给 LLM 会导致人类道德推理能力萎缩,因为 LLM 无法体验伤害、恐惧或后悔。行业LLM意识道德推理AI 伦理Gary Marcus推荐理由:Marcus 用简单例子戳破了 LLM 有意识的流行说法,关心 AI 伦理和意识本质的读者看完会重新审视 AI 的边界。原文
17:13AI SDK@aisdkAI SDK 7 的 canary 版本引入了详细的步骤性能统计功能,包括步骤耗时、LLM 响应时间、首次输出时间、工具执行时间、每秒 token 数(多种变体)以及输出块之间的时间间隔。这些指标帮助开发者精确诊断和优化 AI 应用的性能瓶颈,提升用户体验。该功能目前处于 canary 阶段,值得关注。AI产品AI SDK性能统计开发者工具LLM优化推荐理由:做 AI 应用性能调优的开发者终于有了量化抓手——不用再靠猜来优化响应速度,建议直接试 canary 版本。原文