04:13OpenAI@OpenAI精选OpenAI提出一种新研究方法,通过模拟部署使用近期去标识化用户请求(涉及23,341次浏览)来预测模型行为。该方法在发布前评估候选模型响应,相关推文获得44条评论、27次转发和375个赞。研究旨在减少模型在实际使用中的意外行为。论文OpenAI模拟部署模型安全行为预测2 个信源在谈推荐理由:OpenAI搞了个新方法,用真实用户请求模拟部署,提前预测模型行为,比直接上线更稳妥。原文
00:01elvis@omarsar0精选OpenClaw-Skill是一种新方法,通过树搜索而非贪心蒸馏来构建代理技能库。该方法分两个迭代阶段,联合生成、识别并组合技能节点,输出结构化的技能树。与传统的扁平化单次启发式技能列表相比,它能更好地实现组合性和覆盖性。该研究基于arXiv论文2606.16774。论文OpenClaw-Skill智能体LLM技能库论文1 个信源在谈推荐理由:想给LLM代理搞技能库?OpenClaw-Skill用树搜索取代扁平堆叠,两个阶段搞定组合与覆盖,比贪心蒸馏靠谱。原文
20:29AlphaSignal@AlphaSignalAI精选MPMWorlds是一个包含95,000个2D仿真视频的基准,覆盖液体、雪、沙子和弹性体。模型观看2.5秒场景后预测后续运动。代码生成方法能保持长期物理稳定性,但无法从帧中读取位置,隐藏坐标后精度骤降。扩散模型可捕获短期几何,但物体随时间消失、运动不真实。混合两种方法的简单门控机制超越单一模型。论文MPMWorlds物理模拟代码生成扩散模型视频理解推荐理由:这篇论文用MPMWorlds测试了AI看视频写物理代码的能力,发现代码生成稳但缺位置感知,扩散模型短时准但长期漂移,混合模型效果最好。原文
14:20AlphaSignal@AlphaSignalAI73°研究人员证明某些任务需要模型缩放而非数据缩放,小模型即使拥有无限数据也无法学会这些任务。原因在于神经元竞争:频繁任务优先抢占容量,稀有任务的梯度在下次更新前被覆盖,导致模型陷入学习后遗忘的循环。团队预训练了参数从4M到4B的OLMo模型,在训练中注入可控频率的新任务。只有最大的4B参数模型成功学会了稀有任务,干扰梯度几乎消失。论文OLMo模型缩放梯度神经元竞争稀有任务学习推荐理由:这项研究用OLMo模型从4M到4B参数实验,直观解释了为什么小模型学不会稀有任务——不是数据不够,是神经元竞争导致梯度被覆盖。原文
14:18Jeff Dean@JeffDeanParth Asawa和Joey G发表了一篇论文,批评AI社区在安全与权力集中问题上日益走向极化。他们认为当前讨论存在虚假二分法,并提出需要改变对话方式。文章呼吁更细致地看待AI进步,避免非此即彼的立场。两位作者在X平台上分享了该论文,获得15个点赞和2152次浏览。论文Parth AsawaJoey GAI安全AI治理AI进步推荐理由:两位研究者写文章戳破了AI安全讨论里的非黑即白。如果你也看腻了极端吵架,这篇值得翻一翻。原文
14:15AlphaSignal@AlphaSignalAI74°斯坦福大学和卡内基梅隆大学团队提出了一种名为Agent-Native Research Artifact的新研究格式。该格式替代传统论文,同时包含声明推理、可执行代码、失败实验日志和原始结果。对比测试中,AI的理解评分从72.4%提升到93.7%,复现评分从57.4%提升到64.4%。研究团队认为,这可能是人类撰写最后一篇论文的转折点。论文Agent-Native Research ArtifactStanfordCMU学术论文AI可执行推荐理由:斯坦福和CMU搞了个新格式叫Agent-Native Research Artifact,它把代码、失败记录都塞进去后,AI理解能力从72%跃升到93%,复现也涨了7个百分点,比读传统论文好用多了。原文
14:07AlphaSignal@AlphaSignalAILeCun的新论文提出了LeJEPA方法,通过预测相关视图来恢复真实隐变量。该方法要求隐变量服从高斯动力学,否则会失效。在2D到1024维空间测试中,利用LeJEPA学习到的空间进行规划与真实世界规划匹配。论文为AI内部世界模型的正确性提供了数学证明。论文Yann LeCunLeJEPA表征学习高斯动力学规划推荐理由:LeCun用数学证明了AI学到世界内部表征的条件,方法简单但约束明确,对理解智能系统本质很有启发。原文
13:48AlphaSignal@AlphaSignalAI精选SIA论文提出将智能体视为可编辑系统,更新目标包括工具、解析器、验证器和权重。在LawBench基准上达到70.1%准确率。其CUDA内核运行仅1,017微秒,去噪任务mse_norm为0.289。论文提供公开仓库,支持选择聚焦于工具链或权重。核心结论是自改进智能体的性能取决于验证器质量。论文SIALawBench智能体自改进验证器推荐理由:这篇SIA讲一个让智能体自己改进的方法,不只调提示,还能改工具和权重,在LawBench上做到了70.1%,代码也开源了。原文
03:15AlphaSignal@AlphaSignalAI精选传统Agent系统依赖检索获取信息,但LCLMs(Latent Compression Language Models)提出先压缩所有信息。该方法将数据全局压缩一次,再基于压缩进行全局推理,仅当需要时才局部扩展。这与检索式记忆的本质区别在于:压缩使模型能理解整体结构而非片段匹配。LCLMs在多个知识密集型任务中展现出更高效的记忆利用。论文LCLMs智能体Agent记忆压缩检索推荐理由:做Agent系统的话可以看看这个思路:不先检索,而是先全局压缩再按需展开,和传统做法完全不一样。原文
02:20LangChain@LangChainAILangChain Labs与Fireworks AI合作发布了一项新研究。该研究由Viv Vtrivedy等人参与。此次合作可能聚焦于提升大语言模型在实际应用中的效率。具体细节可参考原文链接。论文LangChainFireworks AIViv VtrivedyLLM研究推荐理由:LangChain和Fireworks联手搞研究,看看他们发现了什么新东西。原文
17:57阿里云 Alibaba Cloud@alibaba_cloud精选阿里云等机构在论文中提出NLAH框架,用可执行自然语言替换刚性代码工具集(Agent Harness)。在相同任务上,NLAH性能与代码方案持平,但Token消耗从60k降至2.9k,降幅达95%。其模块化设计可精准归因每一步的值,并识别出多候选搜索等“负资产”环节。该工作将智能体构建从“胶水代码”转向科学策略。论文NLAHAgentHarness智能体自然语言效率优化推荐理由:看这篇论文,阿里云用自然语言写智能体工具,token省了95%,还能揪出拖后腿的环节。原文
17:55阿里云 Alibaba Cloud@alibaba_cloud精选阿里云ApsaraDB的10篇论文被SIGMOD 2026录用,研究方向覆盖DB×AI、云原生存储及智能工具。其中Beluga的CXL内存池已完成工程验证,CloudJump III已用于PolarDB的分层存储。这些成果展示了阿里云在数据库前沿技术的学术与产品化能力。论文ApsaraDBSIGMODPolarDB云原生存储数据库推荐理由:阿里云ApsaraDB一下中了10篇SIGMOD论文,还把Beluga的CXL内存池和CloudJump III用到了PolarDB上,学术和落地两手抓,值得看看。原文
10:22Gary Marcus@GaryMarcus精选一篇arXiv论文(2601.22436)发现,当前LLM智能体系统存储过去任务时包含原始步骤历史或总结规则。研究者通过将正确提示替换为随机垃圾文本来测试记忆使用情况:当步骤历史被破坏时,AI表现显著下降;但当总结规则被破坏时,AI性能无变化。这表明AI并未真正应用抽象规则,而是依赖复制精确历史动作。论文LLM智能体推理模型记忆机制抽象推理推荐理由:论文实锤AI只会照搬历史原文
06:09rohanpaul_ai@rohanpaul_ai精选一项新研究提出了HLL基准测试,要求AI智能体完成10种CAPTCHA任务,包括识别页面元素、正确点击或拖动、跟踪状态变化并提交答案。测试发现,即使强大的智能体在静态任务中表现良好,但在页面杂乱、任务复杂或系统验证操作有效性时仍会失败。该基准旨在评估智能体在真实人机验证场景中的能力,结果显示当前AI智能体难以通过此类验证。论文HLLCAPTCHA智能体基准测试AI安全推荐理由:看看AI怎么被CAPTCHA难倒的原文
05:52elvis@omarsar0Omar Sanseviero 提出 LLM Council 概念,认为其与 LLM 路由相关但更强调集成多个智能体的智能与知识。该想法尚未被充分探索,但在当前 AI 发展状态下有巨大应用潜力。帖子获得 18 个点赞和 1360 次浏览,引发对多智能体协作的讨论。论文LLM Council智能体多智能体Omar Sanseviero推荐理由:探索多智能体协作新思路原文
00:57rohanpaul_ai@rohanpaul_ai精选一篇综述论文系统梳理了面向大语言模型的智能体强化学习方法,覆盖 500 余篇相关工作。论文将现有研究分为能力与应用两大部分:能力部分涵盖记忆、规划、工具使用、推理、多模态感知和自我改进;应用部分展示这些方法在复杂任务中的落地。核心观点是传统 LLM 训练只奖励单次回答,而真实任务需要多步决策与延迟反馈,强化学习恰好能解决这一时序学习问题。论文agentic reinforcement learningLLMsurvey智能体强化学习推荐理由:500篇论文的智能体RL地图原文
22:23rohanpaul_ai@rohanpaul_aiSony AI开发的Ace机器人在国际乒联官方规则下击败了职业选手Miyuu Kihara。相关研究发表在《自然》杂志,论文标题为“Outplaying elite table tennis players with an autonomous robot”。该机器人展示了在动态对抗运动中超越人类精英的能力。论文Sony AIAceMiyuu Kihara机器人乒乓球推荐理由:机器人赢了职业选手原文
22:23rohanpaul_ai@rohanpaul_ai精选73°Nvidia 推出 Cosmos 3,一个能够理解、模拟和行动于多种物理 AI 任务的统一模型。它将动作视为世界的一等语言,把语言、图像、视频、音频和动作整合到一个共享系统中。该模型通过动作标记设计,让机器人能连接所见与可能发生的事,并决定下一步行动。论文显示,Cosmos 3 可基于视频推断动作,或与未来场景一同生成动作,从而解决机器人抓取、滑动等物理交互问题。论文Cosmos 3Nvidia物理AI多模态动作标记3 个信源在谈推荐理由:Nvidia 让机器人学会动作语言原文
15:22AI Will@FinanceYF5研究人员通过模拟实验探索构建诚实AI模型,即使说谎能带来利益也保持真实。实验使用kradle.ai平台进行测试,涉及多个场景评估AI的诚实性。该研究旨在解决AI在利益驱动下可能产生欺骗行为的问题,为AI安全提供新方向。论文AI安全诚实AI模拟实验kradle.ai推荐理由:看看AI如何抵抗说谎诱惑原文
13:28Together AI@togethercompute精选Dan Fu在斯坦福CS336课程中讲解了推理时的KV缓存、prefill/decode分离技术,以及大规模推理的架构。他介绍了Megakernels,通过融合GPU操作实现接近光速的LLM解码。还讨论了Parcae,解释了循环Transformer的扩展问题及其修复方法,并提出了新的缩放定律,暗示现有方法可能未充分利用智能潜力。论文KV缓存MegakernelsParcae缩放定律推理优化推荐理由:Dan Fu讲KV缓存和Parcae新缩放定律原文
13:18Y Combinator@ycombinatorYC Paper Club 最新一期中,研究者介绍了自博弈方法 Scaling Self-Play with Self-Guidance,以及蛋白质生物学世界模型 A World Model of Protein Biology。还讨论了 Stream RAG 实现流式工具使用的口语对话系统,以及 Lean 形式验证在智能验证新时代的应用。此外,展示了 AI 辅助编程在生产中的实践。论文自博弈AI生物学形式验证Stream RAGLean推荐理由:YC 研究者分享自博弈和AI生物学新进展原文
13:10rohanpaul_ai@rohanpaul_ai精选AGENTCL 提出一个评估语言智能体持续学习能力的新基准,通过构建任务流来测试智能体是否真正从经验中学习。该基准对比了“组合式”任务流(后续任务可复用前序任务的代码函数、研究证据或工作流)与“朴素”任务流(任务同领域但无明确复用关系)。研究发现,当前记忆方法在任务连接明显时能复用过往经验,但在任务差异较大时仍难以避免混淆。AGENTCL 旨在解决现有基准中任务关系不清晰导致的评估偏差问题。论文AGENTCL智能体持续学习记忆基准推荐理由:看智能体记忆到底行不行原文
13:04AK@_akhaliqSpenseGPT提出一种实用的一次性剪枝方法,在LLM推理中同时支持稀疏和密集通用矩阵乘法(GEMM)。该方法无需重新训练,仅通过一次剪枝即可大幅减少模型参数。实验表明,在保持模型精度的前提下,剪枝后模型推理速度提升可达2倍。该技术适用于多种主流LLM架构。论文SpenseGPT剪枝LLM推理GEMM模型压缩推荐理由:一次剪枝,推理快两倍原文
10:56lmarena.ai@lmarena_aiAgent Arena 团队发布博客,详细介绍了其用于评估智能体性能的因果追踪方法论。该方法通过分析模型内部因果链,量化不同组件对最终输出的贡献。博客中展示了在多个基准测试上的实验结果,并提供了开源代码供研究者复现。论文Agent Arena因果追踪智能体评估方法推荐理由:搞懂Agent评估新方法原文
10:52rohanpaul_ai@rohanpaul_ai精选Google DeepMind 发布论文《From AGI to ASI》,探讨从通用人工智能(AGI)到超级人工智能(ASI)的四种可能路径:持续扩展计算与模型规模、算法范式突破(超越 Transformer)、递归自我改进(AI 加速 AI 研发)、多智能体集体智能。论文指出,扩展路径可能受限于数据、计算和能源瓶颈;递归改进最不确定,因需真实世界测试和稀缺硬件;多智能体集体智能最被低估,通过专业化与协调可超越单一模型。ASI 可能不是单一事件,而是 AI 辅助创造更好 AI 的加速链。论文Google DeepMindAGIASI多智能体递归自我改进推荐理由:DeepMind 分析 AGI 到 ASI 的四种路线原文
10:41AI Will@FinanceYF5精选《Memory》方法让模型在多个 session 间积累知识,路径分为失败、调查、验证、提炼规则、查用规则五步。Sonnet 4.6 仅完成第1步(记录失败但不查询);Opus 4.7 可到第3步,但校验覆盖率仅7–33%;Fable 5 能走完全程,验证覆盖率最高达73%。该方法旨在提升模型跨会话知识复用能力。论文Sonnet 4.6Opus 4.7Fable 5记忆机制推理模型10 个信源在谈推荐理由:Fable 5 跨 session 记忆覆盖率73%原文
09:50rohanpaul_ai@rohanpaul_ai《自然医学》一项研究对比了OpenEvidence、UpToDate Expert AI与GPT-5.2、Gemini 3.1 Pro、Claude Opus 4.6在医学考试题、临床风格回答及医生真实提问上的表现。在100个脱敏临床问题中,盲审医生更偏好前沿通用模型,尤其在完整性和清晰度上胜出。结果显示通用LLM在医生评审的临床任务中已超越专用医疗AI产品。论文GPT-5.2Gemini 3.1 ProClaude Opus 4.6Nature Medicine医疗AI推荐理由:通用模型在医疗任务上反超专用AI原文
00:30Jeff Dean@JeffDean精选Jeff Dean转发的研究表明,单个皮层神经元可执行猫狗分类、语音识别和10位奇偶校验任务,这些此前被认为需要整个神经网络。研究使用新方法揭示了生物神经元的计算复杂度远超经典感知机的人工神经元。这项工作由Ido Aizenbud及其合作者完成。论文皮层神经元计算能力Jeff DeanIdo Aizenbud推荐理由:生物神经元比想象的厉害多了原文
14:45Philipp Schmid@_philschmidAgent's Last Exam 是一个全新的AI智能体基准测试,旨在评估智能体在复杂、多步骤任务中的表现。该测试由多个研究机构联合开发,包含一系列需要规划、工具使用和推理的挑战性任务。初步结果显示,当前最先进的模型在测试中得分较低,表明智能体能力仍有巨大提升空间。该基准的发布为AI智能体研究提供了更严格的评估标准。论文智能体基准测试评估Agent's Last Exam推理模型推荐理由:做AI智能体研究的团队终于有了更严格的测试标准——Agent's Last Exam 揭示了当前模型的真实短板,值得所有关注智能体能力的开发者点开看看。原文
12:32karminski-牙医 (AI工具)@karminski3精选FlashMemory 论文提出一种神经内存索引器,能将 DeepSeekV4 的 1M 上下文显存占用从约 10GB 压缩至 1.3GB,且输出准确率反而提升 0.6%。该方法通过预测未来需要的历史片段,按需加载 KVCache,实现注意力降噪。索引器采用解耦训练,无需加载基座模型,训练成本大幅降低。该技术对长文本推理场景具有重大意义,尤其适合资源受限的部署环境。论文FlashMemoryDeepSeekV4显存优化长上下文注意力降噪推荐理由:长文本推理的显存瓶颈被 FlashMemory 大幅缓解,做 LLM 推理优化或部署长上下文模型的团队可以直接参考论文方法,效果甚至比原版更好。原文
12:24elvis@omarsar0Alex Rives 与 UC Berkeley 联合宣布了激光相位板技术,这是原子分辨率成像领域的突破。该技术使用世界上最亮的连续波激光,强度是太阳表面的1亿倍,解决了电子显微镜中相位对比度难以实现的长期难题。在冷冻电子断层扫描中,低对比度一直阻碍着对细胞内除最大蛋白质以外的结构解析。激光相位板消除了这一障碍,结合AI进步,将开启结构生物学新前沿,使科学家能够看到细胞内的分子机器及其复杂动态系统。论文激光相位板原子分辨率成像冷冻电子断层扫描结构生物学AI推荐理由:这项技术解决了冷冻电镜中对比度不足的核心瓶颈,做结构生物学和细胞成像的研究者可以直接关注——它将让AI辅助下的分子机器解析成为现实。原文
12:20Tri Dao (FlashAttention)@tri_dao精选通过数学重写,研究者发现 Transformer 的所有操作本质上可以归结为一系列 GEMM(通用矩阵乘法)加 epilogue(后处理)。这意味着只要提供几个优化好的基础原语,LLM 甚至新手人类都能为所有 Transformer 操作编写达到光速的内核。这一发现简化了模型优化,让高性能内核的编写门槛大幅降低。论文TransformerGEMM内核优化LLM数学重写推荐理由:对做模型推理优化和内核开发的团队来说,这揭示了 Transformer 的底层统一结构,可以直接用 LLM 生成高效代码,建议关注。原文
12:14Allen AI (Ai2)@allen_ai精选艾伦人工智能研究所发布ModSleuth工具,用于追踪现代大语言模型训练中依赖的其他模型和数据集。研究发现,Olmo 3依赖89个模型和183个数据集,Nemotron 3则依赖273个模型和560个数据集。这表明LLM训练已从纯人类数据转向模型间相互生成、过滤和评估数据的模式。ModSleuth帮助开发者理解模型供应链的复杂性和潜在风险。论文大语言模型训练数据模型依赖ModSleuth艾伦AI研究所推荐理由:大模型训练越来越依赖其他模型生成数据,做模型开发或数据工程的团队需要理解这种依赖链——ModSleuth能帮你理清关系,建议点开看看。原文
12:02LMSYS Org (SGLang)@lmsysorg精选LMSYS 在博客中介绍了 Token-In-Token-Out (TITO) 技术,用于解决强化学习中推理与训练 token 不一致导致的策略偏移问题。TITO 通过确保训练器使用推理引擎产生的精确 token,使每个 token 保持在策略上,从而提升训练效率。该技术将每个任务视为一个样本而非每个回合,在 30-50 回合的轨迹上可节省约 10 倍计算量。Miles 框架通过推理会话服务器、追加式 token 缓冲区、可插拔 TITO tokenizer 和 TokenSeqComparator 等组件实现 TITO。该技术已支持 Qwen3、GLM、Kimi-K2、Nemotron、Minimax 和 DeepSeek 等模型系列。论文强化学习TITOMilestoken 对齐开源/仓库推荐理由:做 RL 训练或大模型推理的团队终于有了解决策略偏移的实用方案——TITO 让每个 token 都对齐,计算量还能省 10 倍,搞 Agent 训练的开发者值得点开看看。原文
07:01Together AI@togethercompute精选Together AI 团队提出 Untied Ulysses 方法,解决了长上下文训练中的显存瓶颈。传统方法在单节点 8xH100 上训练 Llama 3B 模型时,仅模型参数就会耗尽显存,无法支持 3M token 的上下文长度。新方法通过优化注意力机制,在 8B 和 32B 规模下实现了比先前实现长 25% 的序列训练。这项研究让大模型长上下文训练变得更可行,降低了硬件门槛。论文长上下文显存优化注意力机制Together AI训练效率推荐理由:长上下文训练一直是显存大户,Untied Ulysses 让单节点就能跑 3M token,做 LLM 训练和推理优化的团队值得关注,能省下不少 GPU 预算。原文
06:36Gary Marcus@GaryMarcusGary Marcus 引用一项新研究指出,AI 中所谓的“神经网络”与真实生物神经元几乎无关。研究显示,单个皮层神经元就能完成猫狗分类、语音识别等任务,而这些在传统 AI 中需要整个网络才能实现。这揭示了当前 AI 模型对生物神经系统的过度简化,可能限制了其能力上限。Marcus 认为,AI 领域需要重新审视其基础假设,从真实神经科学中汲取更多灵感。论文神经网络神经科学AI 基础Gary Marcus认知科学推荐理由:这项研究戳破了 AI 领域的一个常见误解——神经网络并不像大脑。做 AI 研究或对认知科学感兴趣的读者,看完会对模型设计有新的思考。原文
05:40rohanpaul_ai@rohanpaul_ai精选一篇论文提出 SIA(自我改进 AI)框架,让 AI 通过观察任务代理的表现,自动调整外部设置(如提示、工具、重试规则)或更新模型权重(通过 LoRA 适配器)。在三个差异极大的任务(中文法律罪名分类、GPU 内核速度调优、单细胞 RNA 去噪)上,结合设置与权重更新的版本均优于仅改进设置的方法。这表明,除了优化提示和工具,让模型通过任务反馈学习模式能带来额外提升。论文自我改进LoRA任务代理自动化AI 研究推荐理由:这项研究解决了 AI 自我改进依赖人工调参的瓶颈,做自动化 Agent 或模型微调的团队值得关注——SIA 的 LoRA 更新思路能低成本让模型学会任务模式,比只改提示更有效。原文
05:36Gary Marcus@GaryMarcusGary Marcus 转发了一项新研究,该研究提出了一个名为 SciConBench 的基准测试,包含 9.11k 个来自 Cochrane 系统评价的科学问题。测试发现,前沿 AI 智能体无法有效综合科学结论,这挑战了 AI 作为科学家的过度宣称。该研究由 Manoel Ribeiro 等人完成,结果对 AI 在科学领域的可靠性提出了质疑。论文AI 科学家SciConBench基准测试科学综合Gary Marcus推荐理由:这项研究直接戳破了 AI 作为科学家的泡沫,做科研或依赖 AI 进行文献综述的团队值得一看,避免被过度宣传误导。原文
05:34Microsoft Research@MSFTResearch精选微软研究院发布新研究项目Encrypted Spaces,旨在为协作应用构建一种加密架构。该架构确保所有数据在传输和存储中均为加密状态,且每个操作均支持加密验证。通过这一设计,伙伴可在不信任第三方的情况下安全协作,且能验证每一步操作的正确性。该研究探索了分布式系统与密码学结合的新路径。论文Encrypted Spaces微软数据加密协作应用可验证操作推荐理由:微软研究的新加密协作架构原文
04:11Richard Socher@RichardSocherAndrej Karpathy 发布了一个新的 AI 基准测试,旨在评估从基础 Transformer 模型到高级 AI 系统的演进过程。该测试需要 AI 花费相当长的时间才能达到 Karpathy 的版本水平。这一基准测试可能用于衡量 AI 系统的复杂性和进步程度,对研究者和开发者具有重要参考价值。论文基准测试TransformerKarpathyAI 评估模型进化推荐理由:Karpathy 的基准测试为 AI 开发者提供了一个衡量模型进化难度的新工具,做模型训练和评估的团队值得关注这个测试,看看自己的模型需要多久才能达到高级水平。原文