06:40Stanford AI Lab@StanfordAILab精选斯坦福AI实验室发布M*运行时,用于统一服务多模态模型。相比专业系统,M*在omni TTS任务上提速2.7倍,在world-model rollouts任务上提速12.5倍。它匹配或超越所有专门系统的性能。AI产品M*斯坦福多模态运行时推荐理由:斯坦福新发的M*运行时,一个系统就能搞定各种多模态模型,速度比专业方案快2到12倍,值得做部署的看看。原文
14:16AI Will@FinanceYF5斯坦福STORM方法引导用户将复杂问题拆解为多个子角度,而不是一次性提问。Claude通过多轮对话从不同视角逐步深入,例如技术、经济、政策维度。这种方法能提升回答的全面性,避免单点答案。技巧ClaudeSTORM斯坦福提示词工程多角度分析推荐理由:斯坦福的这个STORM提示技巧,让你把Claude用出研究员深度,拆解问题比直接问强多了。原文
03:57Stanford AI Lab@StanfordAILab精选斯坦福AI实验室提出DeLM(Decentralized Language Models),这是一种无需中央协调器的多Agent协作框架。在SWE-bench Verified基准上,使用Gemini-3 Flash的DeLM实现了约10%的性能提升,同时推理成本降低超过一半。该方法在编程和多文档问答等Agent任务中表现出更高的准确性和经济性。AI模型DeLMGemini-3 FlashSWE-bench智能体斯坦福推荐理由:斯坦福搞了个新方法DeLM,不用中央协调器调度Agent,编程和多文档问答更准更便宜,SWE-bench提升10%成本减半,值得试试。原文
02:45李开复 Kai-Fu Lee@kaifulee斯坦福大学DigEconLab主持了一场对话,李开复与机器学习先驱Tom Mitchell分享了他进入AI领域并坚持45年的经历。对话中提到了AI从早期符号主义到现代深度学习的多个发展阶段。李开复回顾了他在卡内基梅隆大学、苹果、微软、谷歌等机构的AI工作经历。Tom Mitchell讨论了机器学习领域的几个关键里程碑,包括决策树、神经网络和强化学习。行业Tom Mitchell李开复AI历史机器学习斯坦福推荐理由:想看AI老炮聊45年从业经历?李开复和Tom Mitchell的对话,斯坦福出品,讲真话有干货。原文
12:37Black Forest Labs (FLUX)@bfl_ml精选Black Forest Labs 创始人 Andi Blatt 在斯坦福 CS153 课程中,与 Anjney Midha 对谈视觉生成模型的演进路径。他回顾了从 GANs 到扩散模型再到 FLUX 的技术跃迁,强调从不可控到一致、可控视觉输出的关键突破。Blatt 还指出“具备行动能力的视觉系统”是下一代 AI 的重要方向,意味着视觉模型不再只是生成图像,而是能理解并驱动交互。这场分享为理解当前视觉 AI 前沿提供了技术脉络和产业视角。AI模型视觉生成FLUX扩散模型GANs斯坦福推荐理由:Blatt 把视觉生成从 GANs 到 FLUX 的演进脉络讲透了,做图像生成或视觉 AI 的开发者能从中看到技术拐点,值得花 10 分钟听一下。原文
11:54向阳乔木@vista8精选72°斯坦福大学研究团队发现,当模型规模足够大时,使用未过滤的Common Crawl数据训练效果反而优于经过清洗的数据。在15M小模型上,过滤数据全面领先;但在330M和1B模型上,未过滤数据在充分训练后超越了所有过滤版本。这表明大模型有足够参数空间将噪声与有用信息分离,颠覆了数据清洗越干净越好的传统认知。论文大模型数据清洗Common Crawl斯坦福训练策略推荐理由:这项研究挑战了数据清洗的行业惯例,做大模型训练的团队值得关注——或许可以省下大量清洗成本,直接喂原始数据。原文
04:58ollama@ollamaOpenJarvis 是一个由斯坦福大学 HazyResearch 和 Scaling Intelligence 实验室开发的本地优先个人AI,现已支持通过 Ollama 运行。该项目属于“Intelligence Per Watt”研究的一部分,旨在探索高效的本地AI方案。OpenJarvis 强调在本地设备上运行,无需依赖云端,从而保护用户隐私并降低延迟。对于关注本地AI部署和隐私保护的开发者来说,这是一个值得尝试的新工具。AI产品本地AIOllama个人助手开源/仓库斯坦福推荐理由:斯坦福团队把本地AI的能效研究落地成了可用的个人助手,做边缘计算或隐私敏感应用的开发者可以直接用Ollama跑起来试试。原文
06:20DeepLearning.AI@DeepLearningAI卡内基梅隆大学和斯坦福大学的研究人员发现,当前AI智能体基准测试主要聚焦于软件开发任务,而美国劳动力市场的工作种类更为多样。研究将智能体测试中的任务映射到美国劳工统计局的职业数据,结果显示测试内容与大多数人的实际工作存在显著不匹配。这意味着现有基准可能高估了AI在某些领域的表现,同时低估了其在其他经济价值任务中的潜力。该研究呼吁开发更全面的评估方法,以真实反映AI智能体的经济影响。论文智能体基准测试劳动力市场CMU斯坦福推荐理由:这项研究戳破了AI基准测试的盲区——如果你在评估智能体工具或做AI产品,会发现现有测试可能误导了你的判断,建议点开看看如何修正评估标准。原文
04:52rohanpaul_ai@rohanpaul_ai72°Meta、斯坦福和伊利诺伊大学联合发表了一篇综述论文,核心观点是:当代码成为AI智能体的主要工作层时,智能体表现更优。论文指出,仅靠LLM做文本预测,长任务容易丢失状态、隐藏错误,将计划转化为行动的方式也很脆弱。真正的进步不是“AI写代码”,而是“AI把代码当作它思考的环境”。作者将围绕模型构建的工具、记忆、沙箱、检查和反馈循环称为“智能体马具”,而代码应处于这个马具的中心,因为代码可以被运行、检查、保存、编辑和共享。论文总结了一个跨领域的模式:代码帮助智能体通过可执行步骤推理、通过工具调用或控制程序行动、通过测试、追踪、日志、仓库和模拟器建模环境。论文智能体代码即环境Meta斯坦福论文推荐理由:这篇论文为AI智能体架构提供了一个清晰的设计原则——用代码作为核心工作层,做智能体系统或工具链的开发者值得一读,能帮你理解为什么代码比纯文本更适合作为智能体的“思考环境”。原文
14:52AI Will@FinanceYF5斯坦福大学CS 153课程系列在YouTube上发布,邀请了Sam Altman、Jensen Huang、Satya Nadella、Andrej Karpathy、Ben Horowitz等AI领域顶级领袖演讲。该系列被认为是当前最佳的AI课程内容,覆盖从技术到产业的多元视角。对于关注AI前沿动态的开发者、研究者和创业者,这是不可错过的学习资源。AI产品斯坦福CS 153AI课程Sam AltmanJensen Huang1 个信源在谈推荐理由:斯坦福CS 153请来了AI界半壁江山做演讲,想听Sam Altman、黄仁勋、Karpathy等人亲自讲AI趋势的,直接去YouTube看就行。原文
23:41rohanpaul_ai@rohanpaul_ai精选76°斯坦福大学最新论文指出,在相同的推理预算下,单个大语言模型(LLM)在多跳推理任务中通常优于多个协调的智能体系统。核心原因在于,单智能体将整个问题保留在内部思维链中,而多智能体系统需要将推理链分割成消息、摘要和交接,每次交接都是一次压缩步骤,容易丢失信息。实验在Qwen、DeepSeek和Gemini模型上验证了这一点,当思考令牌预算匹配时,单智能体系统在FRAMES和MuSiQue数据集上通常匹配或超越顺序、辩论、角色扮演和集成等设置。论文还发现,许多多智能体的优势并非来自架构本身,而是来自更多的测试时计算、更可见的推理或评估偏差。当单智能体的上下文被干扰时,多智能体管道才更具竞争力,因此建议将多智能体作为修复策略而非升级方案。论文多智能体推理模型斯坦福多跳推理LLM推荐理由:这篇论文戳破了多智能体系统“越多越好”的迷思,做AI推理和智能体架构的开发者看完会重新思考设计方向——先试一个强模型,别急着堆智能体。原文
13:37Fei-Fei Li@drfeifei斯坦福大学李飞飞教授在推特上分享,她主讲的计算机视觉课程 CS231n 已进入第 11 年。每年春季学期的第一堂课,她都会询问学生来自哪个学院。今年,越来越多的学生举手表示来自斯坦福全部七个学院,包括工程学院、医学院、人文科学学院、商学院、法学院、教育学院和多尔可持续发展学院。李飞飞认为,AI 真正成为了一项横向技术,能够激发不同背景和学科学生的热情。行业AI 教育跨学科斯坦福CS231n李飞飞推荐理由:李飞飞用 11 年的课堂数据证明了 AI 的跨学科渗透力,做 AI 教育或关注技术普及的读者会从中看到趋势——AI 不再是计算机系的专属,值得一读。原文