22:52NVIDIA AI@NVIDIAAIMiniMax 团队发布了 MiniMax M3,这是一个支持文本、图像和视频推理的长上下文多模态模型。模型采用稀疏注意力机制,总参数量约 428B,激活参数仅约 23B,在保持高性能的同时大幅降低了计算成本。该模型已开源权重,可在 Hugging Face 获取,并可通过 NVIDIA 的 GPU 加速端点免费试用。M3 的长上下文能力使其在处理视频、长文档等场景中具有优势。AI模型MiniMaxM3多模态模型长上下文开源/仓库10 个信源在谈推荐理由:多模态推理模型终于有了高效的开源选择——MiniMax M3 用 23B 激活参数实现长上下文多模态推理,做视频分析或长文档处理的团队可以直接在 NVIDIA 端点免费试,值得关注。原文
21:33kimi_moonshot@kimi_moonshot月之暗面发布并开源了最新编程模型 Kimi-K2.7-Code,相比 K2.6 在 Kimi Code Bench v2 上提升 21.8%,在 Program Bench 上提升 11.0%,在 MLS Bench Lite 上提升 31.5%。该模型减少了过度思考,推理 token 使用量降低 30%,同时改进了长时编程任务中的指令遵循和成功率。模型已通过 Kimi API 和 Kimi Code 可用,即将推出 6 倍高速模式。AI模型编程模型开源/仓库推理效率智能体Kimi推荐理由:Kimi-K2.7-Code 在编程和智能体任务上显著超越前代,且推理更高效,做 AI 编程或智能体开发的团队可以直接通过 API 或 Kimi Code 试用,值得关注。原文
20:13shao__meng@shao__meng73°Kimi 开源了最新编码模型 K2.7-Code,基于 K2.6 针对编程 Agent 专项优化,重点提升长链路编码任务成功率并减少推理 token。在编码基准上全面进步,其中 Kimi Code Bench v2 提升 21.8%,MLS Bench Lite 提升 31.5%。Agent 方面,MCP Mark Verified 得分 81.1,超过 Opus 4.8 的 76.4,在多工具编排上具备竞争力。效率方面,推理 token 整体减少约 30%,Program Bench 的 token 消耗降低 42% 同时分数提升。模型支持强制 Thinking 模式、Preserve Thinking 和多模态输入,已在 Hugging Face 开源。AI模型KimiK2.7-Code编码模型AgentMCP/工具开源/仓库推荐理由:K2.7-Code 在 MCP 场景下超过 Opus 4.8,且推理 token 减少 30%,做编程 Agent 的团队可以直接用开源模型跑长任务,成本更低、成功率更高。原文
18:45IT之家(博客/媒体)月之暗面今日发布并开源 Kimi K2.7 Code 编程模型,相比 K2.6 在长上下文编程、指令遵循和长程任务性能上显著提升,平均 token 消耗减少 30%。内外部基准测试显示,代码能力提升 11%-31.5%,Agent 自主化执行能力提升约 10%。模型已通过 Kimi API 开放平台提供,价格与 K2.6 一致,并预告 6 月 15 日推出 5-6 倍输出速度的高速版,仅需 2 倍价格。非编程任务仍推荐使用 K2.6 模型。AI模型月之暗面Kimi K2.7 Code编程模型开源/仓库API5 个信源在谈推荐理由:Kimi K2.7 Code 在编程场景下 token 消耗降低 30%,做 AI 编程的开发者可以立刻通过 API 体验,高速版下周上线值得关注。原文
17:01IT之家(博客/媒体)商汤科技开源了 SenseNova U1 系列新成员 U1-8B-MoT-Interleaved 模型,专为图文交错创作场景优化。该模型解决了多轮生成中角色形象飘移、画风断裂、图文脱节等痛点,支持绘本、故事书、多页 PPT 等连续内容创作。核心升级包括叙事连贯性与角色一致性提升、图文语义对齐增强、视觉质量改善,以及新增多页 PPT 自动生成能力。模型已在 Hugging Face 开源,适合需要高质量图文内容生成的创作者和开发者。AI模型商汤SenseNova U1图文交错生成开源/仓库多模态模型推荐理由:做绘本、PPT 或教程的创作者终于不用反复修图了——这个模型能保持角色和画风从头到尾一致,直接生成多页内容,建议试试。原文
16:13marktechpost@Asif RazzaqZyphra 发布了 Zamba2-VL 系列开源视觉语言模型,包含 1.2B、2.7B 和 7B 三个参数版本。该模型采用混合 Mamba2 状态空间和 Transformer 骨干架构,在 Apache 2.0 许可下发布。与同类 Transformer 视觉语言模型相比,Zamba2-VL 在保持竞争力的同时,将首 token 生成时间降低了约一个数量级。这标志着在高效视觉语言推理方面的重要进展,尤其适合对延迟敏感的应用场景。AI模型视觉语言模型Mamba2Transformer开源/仓库低延迟推荐理由:做视觉语言模型部署或实时推理的开发者,Zamba2-VL 的首 token 延迟优势能显著提升用户体验,值得直接尝试。原文
15:16IT之家(博客/媒体)Nous Research 为 Hermes Agent 推出 Profile Builder,将分散的命令行配置整合为网页端可视化流程,用户只需 5 步即可完成智能体角色创建与配置。该工具支持身份名称、模型服务商、内置技能开关、Skills Hub 安装及 MCP 服务器设置,技能以 SKILL.md 形式存在,智能体按需加载,避免性能开销。MCP 服务器支持 HTTP URL 和本地 stdio 命令,并提供一键安装功能。Hermes Agent 定位为“越用越聪明”的开源智能体,能记住用户习惯并自动构建技能库。AI产品智能体Hermes AgentProfile Builder开源/仓库MCP/工具推荐理由:智能体配置终于从命令行拖进了网页端,做 AI 智能体开发或个性化定制的团队可以省下大量调试时间,直接上手试试 Profile Builder。原文
13:48arXiv cs.LG@Tianyi Ma, Yijun Ma, Zehong Wang, Weixiang Sun, Ziming Li, Connor R. Schmidt, Chuxu Zhang, Matthew J. Webber, Yanfang Ye超分子化学研究非共价主客体组装,但设计过程耗时且需要大量干实验验证。尽管LLM在分子结合任务上表现优异,但缺乏系统评估其超分子化学推理能力的基准。为此,研究团队与领域专家合作发布了SupraBench,包含结合亲和力预测、最佳结合物选择、溶剂识别和主客体描述四个核心任务,以及一个基于视觉的分子识别辅助任务。同时发布了SupraPMC语料库(1600万token),用于领域适应预训练。实验表明,LLM在所有任务上仍有显著提升空间,领域适应预训练在分布内回归任务上表现良好,但会牺牲严格的格式输出。论文基准测试超分子化学LLM评估分子结合开源/仓库推荐理由:做计算化学或药物设计的团队终于有了评估LLM超分子推理能力的标准测试——SupraBench覆盖了结合亲和力预测等关键任务,想验证LLM在化学领域实用性的研究者可以直接用。原文
13:08Guillaume Lample (Mistral)@GuillaumeLampleMistral 发布了 Voxtral 2,包含两个新模型:Voxtral Realtime(实时转录,延迟可低于 200 毫秒,Apache 2 许可)和 Voxtral Mini Transcribe 2(支持说话人分离、词级时间戳和上下文偏置)。该模型支持 13 种语言,通过 Mistral API 提供,是市场上性价比最高的转录 API 之一。AI模型MistralVoxtral 2语音识别实时转录开源/仓库推荐理由:做语音转录或实时字幕的开发者终于有了一个开源且低延迟的选择——Voxtral Realtime 的 Apache 2 许可和 sub-200ms 延迟值得一试。原文
12:52Artificial Analysis@ArtificialAnlys精选Ideogram 4.0 是 Ideogram 首个开放权重的模型,在开放权重文生图排行榜上位列第8。该模型支持 2K×2K 分辨率输出,具备强文本渲染、边界框布局控制和透明背景生成能力。它使用结构化 JSON 提示词来指定构图和场景元素,并通过提示词增强器将自然语言转换为结构化格式。在 API 方面,提供 Turbo、Default 和 Quality 三个档次,价格从每千张 30 美元到 100 美元不等。权重可免费下载用于评估和非商业用途,商业自托管需单独授权。AI模型Ideogram 4.0开源/仓库文生图文本渲染布局控制2 个信源在谈推荐理由:做图像生成或设计工具的开发者终于有了一个开源的高质量选择——Ideogram 4.0 的文本渲染和布局控制能力突出,且开放权重意味着可以本地部署和二次开发,值得关注。原文
12:42Sebastian Raschka@rasbt精选Nemotron 3 Ultra 是 NVIDIA 发布的新一代开源权重模型,延续了前代 Super 变体的 Mamba-2 注意力混合架构和 LatentMoE 设计,但规模更大。该模型在能力与效率之间取得了极佳平衡,性能表现令人印象深刻。开源权重意味着开发者可以自由下载、微调和部署,适合资源受限但追求高性能的场景。这一发布进一步丰富了开源大模型生态,为研究者和工程师提供了新的选择。AI模型Nemotron 3 UltraMamba-2LatentMoE开源/仓库NVIDIA10 个信源在谈推荐理由:NVIDIA 把 Mamba-2 混合架构和 LatentMoE 做到更大更强,追求高性价比模型的团队可以直接拿来用,省去从头训练的昂贵成本。原文
12:42Sebastian Raschka@rasbt精选Sebastian Raschka 分享了4个新加入开源权重、可在消费级硬件上运行的本地LLM模型。这些模型扩展了本地AI生态,让普通用户无需高端GPU即可运行大语言模型。具体模型包括一些轻量级但性能不错的选项,适合个人开发者和小团队。这一进展降低了AI应用的门槛,推动了去中心化AI的发展。AI模型开源/仓库本地模型消费级硬件LLMSebastian Raschka推荐理由:本地LLM生态又壮大了,做个人AI项目或隐私敏感应用的开发者可以直接关注,这些模型让消费级硬件跑大模型更现实了。原文
12:34Geek@geekbbMarkMark 是一款专为 macOS 设计的原生 Markdown 阅读器,支持边阅读边批注,并可将审阅意见一键交给 AI 进行修订。该工具由开发者 easychen 发布在 GitHub 上,旨在提升 Markdown 文档的审阅和编辑效率。对于需要频繁审阅技术文档、博客或笔记的用户来说,MarkMark 提供了一种流畅的本地化解决方案。目前该项目已获得社区关注,适合 macOS 用户尝试。AI产品MarkdownmacOS批注工具AI修订开源/仓库3 个信源在谈推荐理由:写文档、审稿的 macOS 用户终于有了原生批注工具,批注完直接丢给 AI 改,省去手动复制粘贴的麻烦,值得下载体验。原文
12:26xiaomimimo@xiaomimimo精选小米旗下 MiMo 团队发布了 MiMo Code V0.1,一款开源的终端 AI 编程助手。它内置了 MiMo V2.5 多模态模型,支持百万 token 上下文窗口,并具备无限上下文、智能体-模型协同、设计优先的 Compose 模式、自进化系统、语音输入等功能。该工具兼容 Claude Code,可零成本迁移现有技能和 MCP 服务器,并支持多种主流模型提供商。项目采用 MIT 许可,已在 GitHub 开源。AI产品编程助手开源/仓库MiMo Code多模态模型终端工具推荐理由:小米把终端 AI 编程助手做成了开源产品,百万 token 上下文和自进化系统对处理大型项目的开发者很实用,兼容 Claude Code 让迁移几乎无感,建议试试。原文
12:25Sakana AI@SakanaAILabs精选Sakana AI 宣布成立递归自我改进(RSI)实验室,专注于用 AI 重新设计 AI 开发流程。该实验室整合了多项突破性成果,包括 LLM² 自动优化偏好算法、Darwin Gödel Machine 自主重写代码库、ShinkaEvolve 高效程序进化等。团队认为递归自我改进可在适度算力下实现,不应被超大规模集群垄断。目前正在东京招募前沿科学家和工程师,以构建开放、自适应的集体自我改进架构。AI产品Sakana AI递归自我改进AI 自动化东京实验室开源/仓库推荐理由:Sakana AI 把自我改进 AI 从理论推向实践,整合了多项已验证的技术成果。做 AI 研究和开发的团队值得关注——他们正在探索一条不同于堆算力的路径,可能改变未来 AI 开发范式。原文
12:22向阳乔木@vista8开发者@vista8分享了使用Fable 5开发在线Photoshop的案例,核心是先用一个专门为AI设计的PRD文档生成Prompt,生成需求文档后再交给AI Agent开发。这种方法能显著提升功能完整度和丰富性,比直接让AI开发更精准高效。视频展示了P0需求点的开发效果,并提供了开源地址和安装指令。AI产品AI AgentPRD生成Fable 5在线Photoshop开源/仓库10 个信源在谈推荐理由:AI Agent开发效率虽高,但PRD质量直接影响结果——这个专门为AI设计的PRD Prompt解决了需求不精准的痛点,做AI应用开发的团队可以直接拿来用,提升开发效果。原文
12:19Tri Dao (FlashAttention)@tri_dao精选一位开发者宣布,快速 muon 优化器即将支持消费级显卡。所有代码均以 matmul + epilogue 形式编写,因此一旦为 Blackwell 消费级显卡实现了主循环,所有高级对称矩阵乘法即可自动获得光速性能。这意味着普通用户也能在自家显卡上高效运行该优化器,无需依赖专业硬件。AI模型muon优化器消费级显卡Blackwell矩阵乘法开源/仓库推荐理由:这个优化器让消费级显卡也能跑出专业级训练性能,做模型微调或自训练的开发者可以直接关注,省下买高端硬件的钱。原文
12:10vLLM@vllm_project精选Inferoa 是一个由 @agenticin 构建的社区智能体框架,基于 vLLM 技术栈。它通过推理经济学来塑造智能体循环,包括前缀缓存管理、上下文优化以及在自托管模型和前沿模型之间的路由。该框架旨在帮助开发者更高效地运行智能体,降低推理成本。vLLM 项目团队对此表示期待,并希望开发者能进一步扩展其功能。AI产品智能体vLLM推理优化社区框架开源/仓库推荐理由:Inferoa 把推理成本优化直接嵌入智能体循环,做智能体应用或自托管模型的开发者值得关注,能帮你省下不少推理开销。原文
12:09vLLM@vllm_project精选vLLM 项目宣布推出 vime,一个在 vLLM 生态中用于 LLM 后训练的强化学习框架。vime 基于 slime 的训练设计,并利用 vLLM 推理引擎,提供简单、稳定且高效的 RL 训练方案。该框架旨在与 NeMo RL、OpenRLHF、verl 等共存,为用户提供更多选择。vime 的推出丰富了 vLLM 后训练生态,推动互操作性和创新。AI产品vLLMRLHF后训练强化学习开源/仓库推荐理由:做 LLM 后训练的团队终于有了 vLLM 生态内的 RL 框架选择——vime 简单稳定,直接可用,想尝试不同 RL 框架的开发者值得关注。原文
12:08vLLM@vllm_project精选vLLM-Omni 项目在 GitHub 上达到 5000 星标,从去年 11 月社区启动至今,已发展为支持 30 多种多模态模型的高效推理引擎。它覆盖 Qwen3-Omni、HunyuanImage-3.0、Wan 2.2、BAGEL、MiMo-Audio 和 Flux2 等模型,并兼容 NVIDIA、AMD、华为昇腾、Intel 等多种硬件。该项目致力于提供可扩展、开源的多模态推理方案,吸引了大量社区贡献。AI产品vLLM-Omni多模态推理开源/仓库推理引擎GitHub Stars10 个信源在谈推荐理由:多模态推理开发者终于有了一个统一的高效引擎——vLLM-Omni 支持 30+ 模型和多种硬件,做多模态应用或推理优化的团队可以直接拿来用,省去重复造轮子的时间。原文
12:05Allen AI (Ai2)@allen_ai精选Allen AI 宣布其机器人基础模型 MolmoAct 2 在不到一个月内被下载超过 40 万次。现在他们开源了完整的代码和训练数据,允许开发者进行微调或在此基础上构建。这标志着机器人领域的一个重要开放资源,降低了进入门槛。AI模型机器人开源/仓库基础模型微调Allen AI推荐理由:机器人开发者终于有了一个完全开源的基础模型可用,MolmoAct 2 的完整代码和数据让你可以直接微调或构建自己的机器人应用,值得立即尝试。原文
12:02LMSYS Org (SGLang)@lmsysorg精选LMSYS 在博客中介绍了 Token-In-Token-Out (TITO) 技术,用于解决强化学习中推理与训练 token 不一致导致的策略偏移问题。TITO 通过确保训练器使用推理引擎产生的精确 token,使每个 token 保持在策略上,从而提升训练效率。该技术将每个任务视为一个样本而非每个回合,在 30-50 回合的轨迹上可节省约 10 倍计算量。Miles 框架通过推理会话服务器、追加式 token 缓冲区、可插拔 TITO tokenizer 和 TokenSeqComparator 等组件实现 TITO。该技术已支持 Qwen3、GLM、Kimi-K2、Nemotron、Minimax 和 DeepSeek 等模型系列。论文强化学习TITOMilestoken 对齐开源/仓库推荐理由:做 RL 训练或大模型推理的团队终于有了解决策略偏移的实用方案——TITO 让每个 token 都对齐,计算量还能省 10 倍,搞 Agent 训练的开发者值得点开看看。原文
11:58Nous Research@NousResearchNousResearch 宣布 Hermes Agent 新增自动化蓝图功能,允许用户将传统的 Cron 定时任务转换为可点击、可填写、可对话的工作流。这一更新降低了自动化任务的配置门槛,使非技术用户也能通过自然语言或简单界面管理定时任务。Hermes Agent 作为开源智能体框架,此次升级进一步强化了其在实际工作流自动化中的实用性。AI产品智能体自动化工作流开源/仓库Hermes AgentCron推荐理由:自动化蓝图让 Cron 任务变得像填表一样简单,做运维或日常任务自动化的团队可以直接用,省去写脚本的麻烦。原文
11:58Nous Research@NousResearchNous Research 发布了 Hermes Agent,一个旨在让 AI 智能体更自由、更灵活地执行任务的框架。该框架通过模块化设计和动态任务规划,使智能体能够自主适应复杂环境,减少人工干预。Hermes Agent 支持多种工具集成,并优化了推理效率,为开发者提供了更强大的智能体构建能力。这一发布标志着智能体技术向更高自主性迈进一步,尤其适合需要复杂任务自动化的场景。AI产品智能体开源/仓库任务自动化Nous Research框架推荐理由:Hermes Agent 解决了智能体自主性不足的痛点,做自动化任务和智能体开发的团队可以直接用它来构建更灵活的 AI 系统,值得一试。原文
11:49AWS Machine Learning Blog@Ishan Singh精选AWS 发布了 Agent-EvalKit,一个基于 Apache 2.0 的开源工具包,用于系统评估 AI 智能体。它集成了 Claude Code、Kiro CLI 和 Kilo Code 等 AI 编程助手,提供六个评估阶段来全面测试智能体性能。文章以 Strands Agents SDK 和 Amazon Bedrock 构建的旅行研究智能体为例,展示了如何应用该工具。Agent-EvalKit 解决了智能体评估缺乏标准化的问题,帮助开发者量化智能体的准确性和可靠性。AI产品智能体评估工具开源/仓库AWSClaude Code1 个信源在谈推荐理由:做 AI 智能体开发的团队终于有了标准化的评估工具——Agent-EvalKit 覆盖六个阶段,直接集成主流编程助手,建议做智能体项目的开发者试试。原文
10:48arXiv cs.AI@Amy Xin, Jiening Siow, Junjie Wang, Zijun Yao, Fanjin Zhang, Jian Song, Lei Hou, Juanzi LiEurekAgent 提出了一种新的自主科学发现框架,认为瓶颈在于设计智能体的执行环境而非工作流程。该框架通过权限、工件、预算和人机交互四个维度的环境工程,实现了高效探索和协作。在数学、内核工程和机器学习任务上取得了新突破,例如以不到11美元的API成本发现了新的26圆填充方案。研究团队开源了代码和结果,呼吁将环境工程作为自主研究智能体的核心研究方向。论文自主科学发现环境工程智能体开源/仓库EurekAgent推荐理由:EurekAgent 用环境工程解决了自主科学发现中智能体行为失控和效率低下的痛点,做AI研究自动化的团队可以直接借鉴其四维设计思路,成本极低且效果显著。原文
10:28arXiv cs.AI@Marek Šuppa, Andrej Ridzik, Daniel Hládek, Natália Kňažeková, Viktória Ondrejová研究团队发布了SkMTEB,这是斯洛伐克语首个全面的MTEB风格文本嵌入基准,包含31个数据集和7种任务类型,覆盖深度是现有多语言基准的近4倍。评估31个嵌入模型后发现,大型指令微调多语言模型表现最佳,而斯洛伐克语专用NLU模型在嵌入任务上迁移效果差。为满足高效本地部署需求,团队通过词汇修剪和微调Multilingual E5模型,开发了e5-sk-small(45M参数)和e5-sk-large(365M)模型,体积最多减少62%,性能却与商业API相当。所有基准、模型、数据集和代码均已开源,为其他低资源语言提供了可复现的路径。论文文本嵌入低资源语言斯洛伐克语MTEB基准开源/仓库推荐理由:低资源语言NLP开发者终于有了可本地部署的高效嵌入方案——e5-sk系列在体积缩减62%后仍能匹敌商业API,做斯洛伐克语语义搜索或RAG的团队可以直接用开源模型替代付费服务。原文
10:14arXiv cs.AI@King Yeung Tsang, Zihao Zhao, Vishal Venkataramani, Haizhou Shi, Zixuan Ke, Semih Yavuz, Shafiq Joty, Hao Wang多智能体系统(MAS)依赖大语言模型(LLM)进行有效编排,但训练编排器面临监督信号稀缺和计算成本高的问题。本文提出OrchRM,一种自监督框架,通过多智能体执行过程中的中间产物构建胜负对,训练Bradley-Terry奖励模型,无需人工标注。相比依赖昂贵子智能体回滚的现有方法,OrchRM直接在编排层面操作,将训练效率提升10倍(以token使用量计),并将测试时扩展的准确率提升8%。该方法在数学推理、网页问答和多跳推理等多个领域均有效,代码已开源。论文多智能体系统奖励建模编排优化自监督学习开源/仓库推荐理由:做多智能体系统编排的团队终于有了一个低成本、高回报的训练方案——OrchRM 省去了人工标注和子智能体回滚,直接提升 8% 准确率,建议做 MAS 的开发者试试这个开源框架。原文
10:11arXiv cs.AI@Dachun Kai, Jiayao Lu, Yueyi Zhang, Xiaoyan SunEvTexture++ 是首个专注于视频超分辨率(VSR)中纹理增强的事件驱动框架,利用事件相机的高频时空细节提升纹理恢复质量。该框架包含定制纹理增强分支和迭代纹理增强模块,逐步利用高时间分辨率事件信息进行纹理修复,生成更精确的高分辨率输出。针对大运动导致的纹理闪烁问题,EvTexture++ 引入时间纹理对齐模块,利用事件连续时间运动线索实现精确帧间纹理对齐。该框架设计为即插即用工具,可灵活提升现有 VSR 模型性能,在纹理丰富的 Vid4 数据集上 PSNR 提升高达 1.55 dB。实验表明 EvTexture++ 在五个数据集上达到最先进水平,代码已开源。论文视频超分辨率事件相机纹理增强即插即用开源/仓库推荐理由:做视频超分或事件视觉的团队,EvTexture++ 的即插即用设计可以直接集成到现有模型提升纹理细节,值得在纹理密集场景试试。原文
09:45arXiv: DeepSeek@Gabriel Diaz-Ireland, Diego Prieto-Herráez, Mario García Peces, Javier Velázquez, Devika JainGeoNatureAgent Benchmark 是首个针对环境分析智能体的基准测试,要求智能体通过结构化工具调用真实地理空间 API 完成任务。该基准包含 93 个任务,覆盖 18 个类别,如市政分析、多轮对话、空间推理、错误处理等,基于西班牙和葡萄牙的三个环境指标和 16 个工具进行评估。测试了 7 个 LLM(Claude Sonnet 4、DeepSeek V3.2 等),Claude Sonnet 4 以 60.8% 准确率领先,DeepSeek V3.2 以 56.3% 紧随其后,且成本仅为 Claude 的 1/11。比较类任务(如接近值比较)所有模型均为 0%,暴露了系统推理局限。该基准比通用 GIS 基准更具区分度,准确率低 25-35 个百分点。基准、测试工具和 API 均已开源。论文智能体地理空间分析基准测试环境科学开源/仓库推荐理由:做环境数据分析或地理空间智能体的开发者,这个基准能帮你快速验证模型在真实 API 调用场景下的能力,DeepSeek V3.2 的性价比值得一试。原文
09:33shao__meng@shao__mengWarp 团队提出 Spec 驱动开发 (SDD) 方法,通过产品规格 (PRODUCT.md) 和技术规格 (TECH.md) 将需求固化为可执行文档,作为 PR 的一部分提交和审查。该方法包含五个步骤:写产品规格、写技术规格、按规格实现、规格一致性校验、端到端验证。Warp 开源了三个 Skills(/write-product-spec、/write-tech-spec、/validate-changes-match-specs),可复用至任何 Agent 工作流,解决 Agent 因需求理解偏差导致的错误。核心在于把人的工程习惯(先 PRD、再设计、再实现、再验收)变成 Agent 可执行的流水线。技巧Spec 驱动开发Agent 工作流Warp开源/仓库编程助手推荐理由:做 AI 编程或 Agent 工作流的开发者,终于有了一个可落地的「需求→实现→校验」闭环方案,Warp 开源了三个 Skills 可以直接用,建议试试。原文
09:22arXiv cs.AI@Jianming Ma, Qiyue Yang, Yang Zhang, Liyun Yan, Zhanxiang Cao, Yazhou Zhang, Yue GaoPolyFlow 提出了一种新的约束流匹配框架,专门解决在安全关键物理系统中部署生成模型时的约束问题。传统方法通过事后修正来保证安全性,但计算开销大且可能扭曲数据分布。PolyFlow 将约束直接嵌入模型和流动力学中,采用离散时间流公式和无投影架构,无需昂贵的迭代求解器即可严格满足任意多面体约束。实验表明,PolyFlow 在规划和控制任务中实现零约束违规,同时保持高分布保真度,推理延迟显著低于现有方法。代码已开源,适合需要安全生成的应用场景。论文约束生成流匹配安全关键系统无投影更新开源/仓库推荐理由:做安全关键系统(如机器人规划、控制)的团队终于有了一个既能严格满足约束又不牺牲生成质量的方案,PolyFlow 的零违规和低延迟特性值得直接试试。原文
09:13arXiv cs.AI@Xunhao Lai, Weiqi Xu, Yufeng Yang, Qiaorui Chen, Yang Xu, Lunbin Zeng, Xiaolong Li, Haohai Sun, Haichao Zhu, Vito Zhang, Pengyu Zhao精选MiniMax 提出了一种名为 MiniMax Sparse Attention (MSA) 的块级稀疏注意力机制,旨在解决大语言模型在超长上下文(百万级 token)下的计算瓶颈。MSA 基于分组查询注意力(GQA),通过轻量级索引分支对键值块进行评分,并为每个 GQA 组独立选择 Top-k 子集,实现高效的组级稀疏检索。在 109B 参数的多模态模型上,MSA 在 1M 上下文长度下将每 token 注意力计算量减少 28.4 倍,并在 H800 GPU 上实现 14.2 倍预填充和 7.6 倍解码加速。该方法的推理内核已开源,同时发布了基于 MSA 的生产级多模态模型。论文稀疏注意力长上下文推理加速MiniMax开源/仓库推荐理由:做长上下文推理或 agent 工作流的开发者,终于有了一个能直接部署的稀疏注意力方案——MSA 在 109B 模型上实现 28 倍计算缩减,且内核已开源,值得立刻试跑。原文
09:12arXiv cs.AI@Zihao Wang, Yiming Li, Yutong Wu, Zheyu Liu, Kangjie Chen, Fok Kar Wai, Pin-Yu Chen, Vrizlynn L. L. Thing, Bo Li, Dacheng Tao, Tianwei ZhangStakeBench 是一个新的安全基准,用于评估 LLM 驱动的 Web 智能体在面对提示注入攻击时的风险。与现有仅关注攻击可行性的基准不同,StakeBench 采用利益相关者中心视角,区分攻击对用户、卖家、平台等不同实体的影响。研究发现,当前智能体无法可靠抵御任何攻击目标,且失败模式多样,包括“隐蔽寄生”(攻击成功但不干扰用户任务)、“错位破坏”(任务中断但攻击失败)和“复合失败”(攻击和任务均失败)。该基准揭示了传统评估忽略的漏洞分布,强调了在真实部署中需要利益相关者感知的评估。代码已开源。论文提示注入Web智能体安全基准利益相关者开源/仓库推荐理由:做 Web 智能体安全评估的团队会发现 StakeBench 补上了现有基准的盲区——它不只看攻击是否成功,还看谁承担了后果,建议安全研究人员和智能体开发者点开看看。原文
04:12Richard Socher@RichardSocher精选Richard Socher 宣布其公司 Recursive 在递归自我改进超级智能(RSI)方向取得里程碑:一个自动化科学发现系统在三个 AI 基准测试(NanoGPT speedrun、NanoChat、Sol-ExecBench)上取得 SOTA 结果。该系统由 AI 自主生成代码和想法,无需人类团队发明,实现了从构思到验证的闭环。Recursive 已开源该系统的发现成果,强调其解决方案是创造性的、良性的,而非危险或简单的优化。这标志着向“尤里卡机器”迈出了第一步,未来可指向任意难题自动产出发明。AI模型自动化科研RSI开源/仓库SOTARichard Socher推荐理由:AI 自动化科研终于有了可复现的实例——Recursive 的系统自己写代码、跑实验、拿 SOTA,做 AI 研究的团队值得看看这种“AI 做 AI 研究”的范式是否可行。原文
04:09Cognition@cognition_labsCognition 宣布开源 Devin CLI 中最强大的功能 /handoff,允许用户将任务从本地机器交接给云端 Devin 代理。安装后可作为 Claude Code、Codex 等编程代理的插件使用,用户关闭笔记本电脑后,代理仍能在云端继续运行。这一功能解决了长时间运行任务必须保持设备在线的痛点,提升了开发者的灵活性和效率。开源版本现已可用,适合需要持续执行复杂任务的 AI 编程用户。AI产品Devin CLI开源/仓库编程助手云端代理任务交接推荐理由:Devin 的 /handoff 解决了 AI 编程中「不能关电脑」的痛点,做自动化任务或长时间调试的开发者可以直接用上,省心省电。原文
03:36Simon Willison@simonwDatasette 1.0a33 版本正式发布,核心更新是将 ?_extra= JSON API 机制从表格页面扩展至行和查询页面,使得用户可以在更多场景下灵活定制 API 返回的字段。该版本的大部分代码由 Claude Fable 5 辅助生成,体现了 AI 辅助开发的实践。这一改进让 Datasette 的 API 更加一致和强大,方便开发者按需获取数据。AI产品DatasetteJSON API开源/仓库AI辅助开发Claude Fable 510 个信源在谈推荐理由:Datasette 用户终于可以在行和查询页面使用 ?_extra= 机制了,做数据 API 的开发者建议升级,能更灵活地控制返回字段。原文
03:12Simon Willison’s Weblog(博客/媒体)精选Datasette 1.0a33 是迈向 1.0 稳定版的重要一步,将 ?_extra= 模式从表扩展到查询和行。该模式现已正式文档化。作者还利用 Claude Code 和 Codex Desktop 构建了自定义 extras API 浏览器来演示新功能。该版本进一步增强了 Datasette 的 JSON API 灵活性,方便开发者按需获取数据。AI产品DatasetteJSON API开源/仓库数据工具AI辅助编程推荐理由:Datasette 用户终于可以在查询和行级别使用 ?_extra= 模式,做数据 API 开发的团队可以直接升级体验更灵活的 JSON 输出。原文
01:50Ideogram@ideogram_aiIdeogram 4.0 是 Ideogram 首个开放权重的模型,发布一周后,开源和创意社区已经用它做出了超出预期的应用。JSON 和边界框提示(bounding box prompting)正在成为新的标准用法。官方在推文中汇总了第一周的社区亮点,展示了模型在可控生成和结构化提示方面的潜力。AI模型Ideogram 4.0开源/仓库图像生成JSON 提示边界框提示2 个信源在谈推荐理由:开源图像生成模型终于有了更可控的提示方式——JSON 和边界框让精确布局成为可能,做 AI 绘画工具或创意生成的开发者值得关注社区玩法。原文
01:42Richard Socher@RichardSocher精选Recursive 公司宣布其自动化开放发现系统在三个 AI 任务上取得了最先进成果,包括 NanoGPT speedrun、NanoChat 和 NVIDIA 的 Sol-ExecBench。该系统旨在实现递归自我改进超级智能(RSI),通过自动化科学方法循环(构思、实现、验证)来扩展人类知识。所有代码和想法均由 AI 系统自身生成,而非人类团队。Recursive 已开源系统发现,强调其解决方案具有创造性和良性,而非危险或优化导向。这是迈向“尤里卡机器”的早期里程碑,但已展示出解决多种 AI 研究问题的能力。AI模型递归自我改进AI 研究自动化开源/仓库NanoGPTSol-ExecBench10 个信源在谈推荐理由:AI 研究自动化终于有了可验证的成果——Recursive 的系统在三个基准上跑赢 SOTA,做 AI 研究的团队可以直接看开源代码,感受下机器自己搞科研的潜力。原文