00:04Microsoft Research@MSFTResearch微软研究团队分析了500万次M365 Copilot对话,通过视频和报告展示了员工实际使用AI的方式。Scott Counts在视频中解读了关键发现,涵盖会议总结、文档起草、邮件撰写等高频场景。该分析基于真实工作数据,揭示了AI在提升生产力和协作效率中的具体作用。行业M365 Copilot微软工作场景AI使用分析研究推荐理由:微软用500万次真实对话告诉你,同事到底在拿AI干什么——不是炫技,全是写邮件、做会议纪要这些日常活。原文
14:15Jerry Liu@jerryjliu0Jerry Liu(LlamaIndex 创始人)和 Robert Yang(Fundamental 创始人)在 X 上分享了将研究与产品结合的巨大挑战。Jerry 指出,传统产品开发强调快速迭代、MVP 和客户反馈,而研究需要长期专注、忽略客户噪音以追求通用洞察。Robert 以自身经历为例,讲述了他们最初做 Minecraft 智能体时,误把研究当产品卖,导致低留存且未开源;后来做计算机使用代理时,又因产品过于接近研究而失败。两人一致认为,平衡客户需求与核心研究目标极其困难,但 LlamaIndex 等团队必须同时做好两者。行业创业产品化研究LlamaIndexFundamental1 个信源在谈推荐理由:做 AI 创业或技术产品化的人,这篇能帮你避开「把研究当产品卖」的坑——两位创始人用真金白银的教训告诉你,为什么论文里的 SOTA 和用户留存是两回事。原文
04:27Perplexity@perplexity_ai83°Perplexity AI与哈佛大学联合发布了一项关于从聊天界面转向自主Agent(如Computer)的研究。为期3个月的研究显示,使用Computer的工人完成任务的时间比仅使用搜索减少了87%,成本降低了94%,且满意度更高。该研究强调了自主Agent在提升工作效率和降低成本方面的巨大潜力,为AI应用从对话式向自主执行转变提供了实证支持。AI产品自主AgentPerplexity效率提升研究企业应用推荐理由:这项研究用数据证明了自主Agent比传统搜索效率高出一个量级,做AI产品设计或企业效率优化的团队值得关注,可以直接参考其方法论评估自己的Agent方案。原文
16:05Decoder@Jonathan Kemper精选72°一项新研究解释了为什么大型语言模型能掌握小型模型无法学会的罕见技能。研究发现,小型模型在处理罕见任务时,频繁出现的任务会不断覆盖它们已学到的知识。研究使用了从400万到40亿参数不等的模型,详细展示了这一机制,并提出了一个实用解决方案:与其扩大模型规模,不如增加目标任务在训练数据中的出现频率。这一发现为优化模型训练提供了新思路。论文语言模型模型规模训练数据技能学习研究推荐理由:这项研究为AI开发者揭示了模型规模与技能学习之间的关键机制,做模型训练或数据配比的团队可以直接参考其提出的数据频率优化方案,值得关注。原文
23:12IT之家(博客/媒体)北卡罗来纳大学教堂山分校和美国东北大学的研究人员发现,主流AI模型在分析职业体育比赛时表现很差。他们创建了名为SVI-bench的新基准测试,包含35000小时比赛画面等数据,测试AI在感知、推理、模拟和自主行动能力。AI在基础感知任务中识别准确率约74%,但在因果推理环节成功率仅约40%,模拟球员下一步动作接近随机猜测,自主分析准确率只有5%。研究人员指出,AI擅长描述画面,但无法解释原因或预测未来,这意味着体育主播等需要深度理解的工作暂时不会被取代。论文AI模型体育分析基准测试推理能力研究推荐理由:这项研究揭示了AI在复杂场景推理上的真实短板,做体育内容或依赖AI分析的团队可以借此评估工具边界,值得点开看看AI到底哪里不行。原文
11:05berryxia@berryxia一位研究者(黄总)深入剖析了Claude Workflow的底层核心设计,指出其在实际应用中不仅需要大量人工打磨,还消耗大量Token。这项研究为希望在自己的项目中引入类似工作流的开发者提供了宝贵参考。作者强调,即使自己不精通,AI也能完成任务,体现了AI辅助开发的实用价值。AI产品Claude工作流Token消耗AI辅助开发研究推荐理由:如果你正在探索Claude Workflow的落地,黄总的研究能帮你避开费人费Token的坑,做AI工作流的开发者值得一看。原文
21:30The Rundown AI@therundownaiGoogle 的 AI 系统成功解决了九个长期未解的数学难题,标志着 AI 在数学推理领域取得重大突破。这些难题曾困扰数学家多年,AI 的解法可能为数学研究开辟新路径。该成果展示了 AI 在复杂逻辑和抽象推理方面的潜力,对数学、计算机科学等领域具有深远影响。AI模型GoogleAI 数学推理未解难题突破研究推荐理由:数学和 AI 研究者值得关注——Google AI 破解未解难题,可能改变数学研究范式,建议点开了解具体突破。原文
11:39arXiv: OpenAI@Sid-ali Temkit精选72°研究发现,LLM在连续对话中会受先前评价的极性(正面或负面)影响,对相同测试项做出偏向该极性的判断。实验涉及11个模型、75,898次API调用,发现模型在不确定时偏差更大(高熵项d=-0.34),负面历史影响是正面的1.62倍。偏差不随上下文长度增加,但模型规模增大可减轻(如Haiku -0.22 vs Opus -0.17)。最简单的修复是每个项目使用新上下文,或平衡历史极性。论文LLM评估对话偏差上下文影响自动化裁判研究推荐理由:做AI评估、内容审核或自动化打分的团队,这条研究直接告诉你为什么你的LLM裁判可能不靠谱——负面历史会让它更苛刻,建议每个测试项都开新对话。原文