17:57阿里云 Alibaba Cloud@alibaba_cloud精选阿里云等机构在论文中提出NLAH框架,用可执行自然语言替换刚性代码工具集(Agent Harness)。在相同任务上,NLAH性能与代码方案持平,但Token消耗从60k降至2.9k,降幅达95%。其模块化设计可精准归因每一步的值,并识别出多候选搜索等“负资产”环节。该工作将智能体构建从“胶水代码”转向科学策略。论文NLAHAgentHarness智能体自然语言效率优化推荐理由:看这篇论文,阿里云用自然语言写智能体工具,token省了95%,还能揪出拖后腿的环节。原文
12:55阶跃星辰 Stepfun@Stepfun_AI精选StepFun 的 Step 3.7 Flash 模型通过 MFA 和 AFD 技术,从设计之初就注重效率,而非事后优化。这些技术显著降低了 KV-cache 成本,使模型运行更经济高效。Fireworks AI 提供了便捷的一键部署支持,开发者可以快速上手。该模型特别适合构建智能体应用,体现了“效率优先”的设计哲学。AI模型Step 3.7 FlashKV-cache效率优化智能体Fireworks AI推荐理由:Step 3.7 Flash 通过原生效率设计解决了 KV-cache 成本痛点,做智能体应用的开发者可以直接用 Fireworks AI 一键部署,值得试试。原文
07:55阶跃星辰 Stepfun@Stepfun_AI精选StepFun 的 Step 3.7 Flash 模型在智能体效率方面取得了新突破,通过优化推理速度和资源占用,显著提升了智能体任务的执行效率。该模型特别适合需要快速响应的自动化场景,如代码生成、数据处理等。开发者可以借助它构建更高效的智能体应用,降低延迟和成本。这一进展为智能体技术的实际落地提供了有力支持。AI模型Step 3.7 Flash智能体效率优化推理模型自动化推荐理由:做智能体开发的团队会关注——Step 3.7 Flash 直接解决了效率瓶颈,建议试试看能否优化你的自动化流程。原文
02:25阶跃星辰 Stepfun@Stepfun_AI精选在 ClawCon Macao 上,阶跃星辰开发者业务总经理 EileenTal 阐述了智能体发展的下一阶段,并发布了 Step 3.7 Flash 模型。该模型强调在保持智能水平的同时大幅提升效率,旨在让 AI 真正落地到实际工作中。Step 3.7 Flash 针对开发者场景优化,降低了推理成本与延迟,使得复杂任务可以更快完成。这一发布标志着阶跃星辰从追求模型智能转向关注实际应用效率的战略转变。AI模型阶跃星辰Step 3.7 Flash智能体效率优化开发者推荐理由:阶跃星辰把 AI 从「炫技」拉回「干活」——Step 3.7 Flash 在保持智能的同时大幅提升效率,做 AI 应用落地的开发者值得关注,能直接降低推理成本。原文
11:15Geek@geekbb精选Nous Research 为其 Hermes Agent 引入了 Tool Search 功能,使智能体能够按需加载所需工具,而非一次性加载全部。这一改进提升了资源利用效率和响应速度,尤其适合复杂任务场景。该功能通过动态工具选择机制,减少了不必要的计算开销。对于构建高效智能体的开发者而言,这是一项实用的优化。AI产品智能体工具调用Nous ResearchHermes Agent效率优化推荐理由:Hermes Agent 的 Tool Search 解决了智能体工具冗余加载的痛点,做 Agent 开发的团队可以直接参考实现,提升任务执行效率。原文
12:32arXiv cs.LG@Alaa Khamis, Alaa Maalouf精选测试时微调(TTFT)是一种新兴范式,通过检索相关序列并更新模型来适应每个提示,但现有方法在速度和效果间存在权衡。HullFT 提出几何方法,利用 Frank-Wolfe 优化将查询嵌入表示为稀疏凸组合,生成相关且多样化的支持集。通过几何整数化过程将分数权重转换为精确整数多重集,并利用梯度重用技术摊销重复微调的计算成本。实验表明,HullFT 在更低总运行时间下实现了更低的 bits-per-byte,优于当前最先进的 TTFT 方法。论文测试时微调凸优化梯度缓存LLM效率优化推荐理由:HullFT 解决了测试时微调中检索和微调的双重瓶颈,做 LLM 推理优化的开发者可以直接尝试,能显著提升效率。原文
08:22elvis@omarsar0精选Omar 宣布他构建了一个独立的编码代理解决方案,该方案可与任何编码代理后端配合使用。他特意这样设计,是为了测试来自不同提供商子代理之间的动态工作流。他指出,这些动态工作流的效率是一个真实存在的问题。该方案旨在解决多代理协作中的效率瓶颈。AI产品编码代理动态工作流多代理协作效率优化Omar推荐理由:如果你正在构建或使用多代理工作流,Omar 的方案直接点出了效率痛点并提供了跨后端的解决思路,做代理编排的开发者值得关注。原文
AITOP5月29日 08:02Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……
09:46arXiv cs.AI@Minghao Chen, Xinyi Hu, Zhou Yu, Yufei Yin精选AutoRPA是一个新框架,能将ReAct风格的LLM智能体决策逻辑自动转化为高效的RPA函数。它通过翻译-构建流水线,把硬编码的ReAct动作转为软编码过程,并利用多轨迹检索增强生成合成鲁棒的RPA函数。在代码验证阶段,采用混合修复策略,结合RPA执行和ReAct回退进行迭代优化。实验表明,AutoRPA生成的RPA函数在解决相似任务时,token使用量减少82%到96%,显著提升了运行时效率和可复用性。论文RPALLM智能体GUI自动化代码合成效率优化推荐理由:做GUI自动化的团队终于有了兼顾效率和智能的方案——AutoRPA把LLM的推理能力压缩成轻量RPA函数,省掉重复调用LLM的高昂成本,做流程自动化的开发者可以直接用起来。原文
10:33arXiv cs.AI@Roman Prosvirnin, Sergei Kuznetsov, Seungmin Jin精选ContextRAG 提出了一种无需大模型进行实体和关系抽取的图RAG系统,通过残差量化k-means和形式概念分析构建模糊概念图,显著降低了索引阶段的token消耗和延迟。在130任务的UltraDomain子集上,ContextRAG仅需30次LLM调用和22,073个token完成索引,而对比方法HiRAG在20任务上就需要870次调用和354万token。ContextRAG在整体F1上达到33.6%,多跳任务F1为36.8%。分析表明,检索到格派生节点的查询比未检索到的F1高出3.9个百分点。该方法为构建高效、低成本的图RAG系统提供了新思路。论文RAG图构建多跳问答形式概念分析效率优化推荐理由:做RAG系统优化的团队终于有了一个不依赖LLM抽取的图构建方案——ContextRAG用30次调用替代了数百万token的索引开销,多跳问答效果还更好,做知识密集型问答的开发者值得一试。原文
18:29Meta AI@AIatMeta精选Meta 宣布其新模型 Muse Spark 在预训练、强化学习和测试时推理三个维度上实现了可预测且高效的扩展。通过重建预训练栈,包括改进模型架构、优化和数据整理,Muse Spark 在达到相同能力水平时所需的计算量比前代 Llama 4 Maverick 减少了一个数量级。Meta 分享了其缩放定律研究方法,展示了 Muse Spark 在效率上的显著提升,旨在构建个人超级智能。AI模型Muse SparkLlama 4预训练缩放定律效率优化推荐理由:Meta 用实际数据证明了 Muse Spark 的预训练效率比 Llama 4 提升 10 倍以上,做模型训练或资源优化的团队值得关注其缩放定律方法,可以直接借鉴来评估自己的模型效率。原文
19:12arXiv: DeepSeek@Zizhao Chen, Yuying Li, Siting Lin, Lianxi Wang精选75°大语言模型在复杂推理中常出现“过度思考”问题,导致推理链过长、效率低下。现有强化学习方法通过设计复杂奖励函数压缩推理链,但高质量样本在探索空间中极为稀疏,形成采样瓶颈。受认知科学启发,研究者从理论上证明,参考答案引导的后验分布比先验分布具有更高期望效用,可突破高质量样本的采样瓶颈。为此,他们提出VPG-EA框架,将高效推理形式化为变分推断问题,引入效率感知的证据下界作为理论基础。该框架采用参数共享的双流架构实例化后验分布和先验策略,通过交叉视图评估过滤伪高效路径,再通过变分蒸馏将后验的高效模式单向迁移至先验策略。在DeepSeek-R1-Distill-Qwen-1.5B和7B规模上的实验显示,VPG-EA在综合效率指标ε³上分别比最强基线提升8.73%和12.37%。论文推理模型效率优化变分推断过度思考知识蒸馏推荐理由:这篇论文为LLM推理效率问题提供了理论严谨且可落地的解决方案,做推理优化或模型压缩的研究者可以直接参考其变分蒸馏方法,值得细读。原文