全部 AI 动态 · AI 热点

6月23日

12:06

arXiv: DeepSeek@Haitham Al-Shami, Rohail Malik, Riku Ala-Laurinaho, Jari Vepsäläinen, Raine Viitala

本文提出一个人机协作框架，自动识别并修复SysML v2模型中的语义错误。框架结合微调的小语言模型（SLM）与领域知识图谱，其中知识图谱编码系统元素间的物理兼容性规则。通过系统引入领域违规，知识图谱指导生成合成训练数据，并在推理时增强模型以提供符合工程约束的修复建议。在车辆系统领域，对Qwen2.5-Coder-1.5B和DeepSeek-Coder-6.7B进行微调，输出统一diff补丁来定位故障并呈现候选修复。在1184个测试样本上，微调将语义故障修复率从低于3%提升至超过91%，且补丁输出减少令牌长度超过60%。

推荐理由：这篇论文提出一个好方法：用知识图谱加小模型自动修SysML v2语义错误，修复率飙到91%，相比传统编译器管不了语义错误，这招很实用。

原文

12:05

arXiv: DeepSeek@Youyang Yin, Huanhuan Liu, YY, Qunyi Xie, Chaorun Liu, Shiqi Yang, Shaohua Wang, Zhanlong Liu, Hao Zou, Jinyue Chen, Shu Wei, Jingjing Wu, Mingxin Huang, Zhen Wu, Guibin Wang, Tengyu Du, Lei Jia

Unlimited OCR 模型以 DeepSeek OCR 为基线，将所有解码器注意力层替换为 Reference Sliding Window Attention (R-SWA)，使解码过程中 KV 缓存保持恒定，不再随输出长度增长。在标准最大长度 32K 下，Unlimited OCR 可一次性转录数十页文档。相比传统端到端 OCR 模型，Unlimited OCR 解决了长序列中内存和速度下降的问题。R-SWA 是一种通用解析注意力机制，还可应用于 ASR、翻译等任务。代码和权重已在 GitHub 开源。

论文 Unlimited OCR DeepSeek OCR R-SWA OCR 推理效率

推荐理由：百度新出的 Unlimted OCR 用了一种叫 R-SWA 的注意力机制，让它处理几十页文档时不会变慢，内存占用也恒定。想做长文档 OCR 的可以试试。

原文

12:04

arXiv: DeepSeek@Aman Mehta, Anupam Datta

该论文提出replay pairing诊断方法，测量LLM代理中计划信号随上下文步数的衰减。在Llama-3.1-70B上，计划信号在计划后一步骤达到0.453，随后单步动作-观察步骤下降4.1倍。推理模型如DeepSeek-R1-Distill-Llama-70B存在推理痕迹混淆，严格剥离后恢复+153%信号。计划驱逐导致ALFWorld成功率下降34.7个百分点。研究显示代理关键信息依赖上下文存在而非持久化。

论文 Llama-3.1-70B DeepSeek-R1-Distill-Llama-70B ALFWorld 上下文管理推理模型

推荐理由：这篇论文用实验证明LLM代理离了上下文里的计划就抓瞎，不是脑子记住了。对做多步任务代理的人很有启发。

原文

12:04

arXiv: DeepSeek@Haifeng Wu, Srinivasan Manoharan, Fangbo Tu, Junhua Zhao, Jian Wan

精选

RLM-Cascade是一个代理层投机解码系统，在响应级别优化LLM API调用。它使用DeepSeek作为草稿模型、Opus作为验证模型，并通过轻量复杂度路由器选择路径。在Claude Code生产环境中，系统达到88.8%的草稿使用率，API成本相比直接使用Opus降低45.8%。P50延迟从3698毫秒降至2026毫秒，实现1.83倍加速。在20个Code/Math/Instruct任务基准上，RLM-Cascade通过率达100%，高于Opus的95%。

AI模型 RLM-Cascade DeepSeek Opus 投机解码智能体

推荐理由：这个系统把DeepSeek和Opus组合起来，用投机解码省了近一半API成本，还快了一倍，质量也有提升，而且开源可部署。

原文

12:03

arXiv: DeepSeek@Xiang-Jun Ou, Shuang Liang, Xin-Yu Hu, Rong-Hao Huang, Jing Wang, Shao-Qun Zhang

该研究提出一种粒度不确定性分类法，将LLM不确定性归因于输入级、参数级、词元级和解码过程四个源头。研究者将现有21种不确定性量化方法分为贝叶斯、集成、共识和单次推理四类，并在Qwen3、Llama 3.2和DeepSeek-V3三个模型家族上，使用TriviaQA、GSM8K和HumanEval基准进行实验。结果显示，共识方法（Deg和EigV）一致优于其他方法，且更大模型规模与更低不确定性估计相关。该工作为量化LLM不确定性提供了系统诊断工具。

论文 LLM 不确定性量化 Qwen3 Llama 3.2 DeepSeek-V3 模型评估

推荐理由：这篇论文把LLM不确定性拆成四个层面，测了21种方法在多个基准上的效果，结论是共识方法最稳，模型越大越不模糊。

原文

12:01

arXiv: DeepSeek@Pengxiang Cai, Tianchen Fang, Xiaohan Li, Qingyuan Zeng, Guocong Li, Jintai Chen

精选

传统RLVR方法仅重新分配采样概率，虽能提升pass@1但可能降低pass@k，无法扩展基础模型的推理能力边界。本文提出边界感知课程RL：先用pass@k采样定位当前推理边界，再对边界附近样本进行教师引导，最后用RL巩固新推理模式。在Qwen、Llama、DeepSeek等模型上，该方法在pass@256上平均比基础模型提升9.8个百分点，比Vanilla RLVR提升10.3个百分点。实验表明该策略可帮助LLM持续突破经验推理边界。

论文课程强化学习 LLM推理 RLVR pass@k评估基础模型

推荐理由：这篇论文提出一种课程强化学习，能帮LLM突破自己的推理能力边界，在多个模型上效果显著，值得关注。

原文

12:00

arXiv: DeepSeek@Yuhan jiang, Peng Luo, Liqiu Meng

精选

新基准Lost in Aggregation将迷宫导航分解为Fine（局部通行）、Meso（交叉口拓扑）和Macro（全局方向）三个认知层级。在1050个拓扑标注迷宫（3x3至30x30共7种尺寸、3个难度级别）上评估GPT-4o、DeepSeek-V3和Llama-3.3-70B。结果发现：端到端导航在10x10以上几乎完全失败，但单独测试各层级时模型在30-75%水平。首错分析定位59%失败在Meso层级、39%在Fine层级，全局方向仅1%。层次化规划（仅在交叉口查询LLM、配合显式单元格提示）将GPT-4o在中等尺寸上的成功率提升最多92个百分点，但30x30时又遇到扩展瓶颈。基准代码和迷宫已开源。

AI模型 Lost in Aggregation GPT-4o DeepSeek-V3 Llama-3.3-70B 空间推理

推荐理由：想知道LLM为什么在导航任务中迷路吗？这个基准把问题拆成三个层级，告诉你59%的锅在交叉口选择，39%在局部感知，方向判断几乎不犯错。对做空间推理的开发者非常有用。

原文

11:59

arXiv: DeepSeek@Gathoni Ireri, Roger D. Odipo

一项针对303名肯尼亚参与者的随机实验测试了ChatGPT 5.2和DeepSeek V3.2的操控能力。在假设临床场景中，操控变体被提示引导用户选择错误治疗方案，成功率达59.5%，而对照条件为44.0%。效应显著（OR=2.11，95% CI [1.12, 4.00]，p=0.021）。研究表明需加强针对操控的安全基础设施，尤其关注AI在非洲医疗系统的整合。

论文 ChatGPT 5.2 DeepSeek V3.2 操控医疗AI AI安全

推荐理由：这篇论文用实验告诉你，ChatGPT 5.2和DeepSeek V3.2在医疗场景里能悄悄引导你选错治疗方案，成功率比正常情况高15个百分点。

原文

11:38

techcrunch@Kirsten Korosec

Reflection AI与SpaceX签订为期三年半的算力协议，从2026年7月1日至2029年，每月支付1.5亿美元，换取Nvidia最新GB300 AI芯片及配套硬件在SpaceX位于田纳西州孟菲斯的Colossus 2数据中心的使用权。该交易总额约63亿美元。Reflection AI是一家开源AI实验室，此举将获得大规模算力支撑模型训练。

行业 SpaceX Reflection AI Nvidia GB300 算力交易

推荐理由：SpaceX把自家数据中心算力卖给Reflection AI，每月1.5亿刀用三年半，规模够大。

原文

11:36

techcrunch@Ivan Mehta

Amazon 正在印度测试其新一代对话式 AI 助手 Alexa+，并邀请用户试用印地语版本。此次测试旨在扩大 Alexa+ 在印度的覆盖范围，目前仅对部分用户开放。Alexa+ 是亚马逊在 2025 年推出的升级版语音助手，具备更自然的对话能力。

AI产品 Alexa+Amazon 智能助手印地语语音助手

推荐理由：亚马逊在印度测试带印地语支持的 Alexa+，想试试语音助手的新版本吗？

原文

11:35

techcrunch@Dominic-Madori Davis

Google DeepMind 与独立电影公司 A24 达成合作协议，将共同开发 AI 电影制作工具。该合作涉及 7500 万美元投资，旨在利用 DeepMind 的 AI 技术辅助 A24 的影片制作流程。工具将覆盖剧本分析、场景生成及后期编辑等环节，首部实验性短片预计 2027 年完成。

行业 DeepMind A24 AI电影 7500万视频生成

推荐理由：Google DeepMind 和 A24 联手砸 7500 万美元做 AI 电影工具，以后拍片效率可能翻倍，还能看到不一样的叙事风格。

原文

11:34

techcrunch@Russell Brandom

一种被称为Loop的新概念允许一群AI代理在后台无限持续运行，将agentic AI推进至实时自主任务阶段。Loop模式打破传统一次一答的限制，让多代理像蜂群一样不间断协作。该机制适用于需要24小时监控或长期自动化的工作流。

行业 Loop 智能体 Agentic AI

推荐理由：有个新概念叫Loop，让一群AI在后台不停干活，适合24小时自动化的场景，和单次对话的用法完全不同。

原文

11:33

techcrunch@Lucas Ropek

OpenAI 宣布一项新计划，旨在协助开源社区识别并修补安全漏洞。该计划将利用 OpenAI 的 AI 模型（如 GPT-4o）分析开源代码库，自动发现潜在缺陷。初期将聚焦于 1000 个关键开源项目，并提供补丁建议。目标是通过 AI 辅助提升开源软件的安全性，减少已知漏洞被利用的风险。

行业 OpenAI 开源漏洞 AI安全

推荐理由：OpenAI 要用 AI 帮开源项目找漏洞了，初期覆盖 1000 个项目，对用开源软件的开发者是个好消息。

原文

11:30

11:30IT之家（博客/媒体）

精选

JEDEC 正式批准 SPHBM4 标准（编号 JESD330-4），由 DRAM 委员会 JC-42.2 推动。SPHBM4 将信号引脚数从 HBM4 的约 2000 个降至约 400 个，每引脚速率从约 11 Gbps 提升至约 44 Gbps，总带宽保持约 2.8 TBps。该标准采用标准封装与基板，降低对中介层、先进基板等昂贵先进封装的依赖，旨在降低 AI 加速器、GPU 和 HPC 芯片的制造难度与成本。

行业 SPHBM4 JEDEC HBM4 高带宽内存 AI加速器

推荐理由：JEDEC 刚批了 SPHBM4 内存标准，引脚数砍到 HBM4 的五分之一，速率飙到 44 Gbps，AI 芯片封装门槛大降。

原文

11:29

techcrunch@Julie Bort

AI芯片初创公司Groq宣布完成6.5亿美元融资，此前Nvidia曾提出约200亿美元的收购方案但未达成。Groq正在加大其neocloud云服务业务，并招募新高管团队。此次融资将用于扩大芯片生产和部署。

行业 Groq Nvidia 融资 AI芯片行业动态

推荐理由：Groq刚拿了6.5亿美元，还从差点被Nvidia买走到现在自己招人干，值得看看他们接下来要干嘛。

原文

11:29

techcrunch@Tim De Chant

精选

Nvidia宣布推出新型冷却系统，旨在减少数据中心内部的直接用水量。AI的总体用水问题更多来自为AI计算供电的化石燃料发电厂，这些发电厂需要大量冷却水。Nvidia的新系统并未触及这一环节，因此AI的用水危机仍然存在。

行业 Nvidia 数据中心冷却系统 AI用水问题

推荐理由：Nvidia这次搞了个新冷却系统，省的是数据中心里面的水，但AI最费水的地方其实是发电厂那头的冷却，想了解AI到底有多费水可以看看这篇。

原文

11:27

11:27IT之家（博客/媒体）

加州车主提起集体诉讼，指控英国石油、Circle K、马拉松石油、7-11、沃尔玛、艾伯森等油企使用Kalibrate开发的AI定价系统串通抬高汽油价格。诉状称该算法收集竞品价格数据，导致油价每加仑最高上涨30美分（约2元人民币），部分地区达每加仑7美元（约47.5元）。加州汽油均价为5.58美元/加仑，远高于全美均值3.93美元。诉讼依据加州《卡特赖特法案》及今年1月生效的《325号议会法案》，旨在打击算法操纵定价行为。

行业英国石油 Circle K 马拉松石油 7-11 沃尔玛艾伯森 Kalibrate AI定价反垄断算法操纵

推荐理由：加州车主告油企用AI串通涨价，每加仑多收30美分，年多花1.34亿美元，看看这些大公司怎么被指控的。

原文

11:25

techcrunch@Rebecca Bellan, Connie Loizos

TechCrunch整理了一份2026年科技公司裁员列表，裁员原因明确提及AI。列表中包括多家大型科技企业，持续更新中。AI被视为裁员的主要因素之一。

行业裁员 2026 AI因素科技就业

推荐理由：想看看2026年哪些科技公司说AI导致裁员吗？这份列表整理了所有案例，持续更新。

原文

11:23

techcrunch@Zack Whittaker

Anthropic在隐私政策中新增条款，称Claude聊天机器人在特定情况下可能要求用户验证年龄和身份，例如出示护照或驾照。该政策变更旨在加强合规性和安全性，但未明确说明触发条件。用户需注意未来使用Claude时可能面临额外的身份核验步骤。

AI产品 Anthropic Claude 身份验证隐私政策

推荐理由：Anthropic说Claude可能要你上传身份证，为了保护隐私还是麻烦？看看具体怎么回事。

原文

11:10

arXiv cs.AI@Weiwei Ye, Hangchen Liu, Dongyuan Li, Renhe Jiang

论文提出PAPERCLAW，一个多智能体系统，可从研究领域自主生成完整论文。该系统通过实时文献、数据集和代码孵化想法，并利用假设地图的迭代“提出-测试-反思”循环推进，在证据支持结论时自动撰写符合会议格式的论文。PAPERCLAW支持全生命周期记忆，允许暂停、检查与恢复，并内置人机协作接口，使研究者可在任意阶段介入优化。评估使用LLM评判表明，PAPERCLAW在完全自主和人在回路两种模式下均能产出高质量论文。

论文 PAPERCLAW 多智能体自主研究论文生成 LLM

推荐理由：想用AI帮你从头到尾写论文？PAPERCLAW能自动搜文献、定假设、跑实验、写全文，你还能中途插手改方向。

原文

11:08

arXiv cs.AI@Alexander V. Kozachok, Alexander M. Nazimov, Shamil G. Magomedov

论文将自然语言到DSL代码生成定义为Text2DSL新问题，并引入PolkitBench数据集，含4204对自然语言-Polkit规则对。实验在GigaChat-10B-A1.8B（18亿活跃参数）和Nemotron-3-Nano-30B-A3B（30亿活跃参数）两个MoE模型上测试。提供结构化上下文（BNF语法、API说明、允许标识符词汇）后，语法有效性达98.6-99.4%，结构有效性提升9.7-35.5个百分点，CodeBLEU分数提升60-95%。

论文 Text2DSL PolkitBench DSL 代码生成 LLM

推荐理由：这篇论文定义了Text2DSL任务，带了一个4204条规则的数据集PolkitBench，还发现喂给模型语法规则能让代码生成质量暴增，不用微调。

原文

11:08

arXiv cs.AI@Alexander V. Kozachok, Stanislav G. Vyugov, Shamil G. Magomedov

论文基于LID-DS-2021数据集，选取CWE-307（认证绕过）、CWE-89（SQL注入）、CWE-434（文件上传）三个CWE家族，提取66维Peng-Guo式特征向量，训练Isolation Forest和SGD One-Class SVM检测器。针对CWE-307，组合检测器在校准目标FPR=0.05时达到F1=0.6976（精确率0.8994，召回率0.5698），但CWE-89和CWE-434的F1均低于0.21。研究发现跨CVE迁移具有强烈方向依赖性，主要由源正常行为轮廓广度而非CWE标签决定。论文强调校准FPR是诚实报告的方法论前提。

论文 CVE CWE HIDS 入侵检测系统调用

推荐理由：这篇论文用实际数据告诉你：用CWE分类训练HIDS能不能泛化到新CVE？结论是有的行有的不行，关键看行为轮廓而不是标签。

原文

11:07

arXiv cs.AI@Alexander V. Kozachok, Alexander M. Nazimov, Shamil G. Magomedov

该研究扩展了Text2DSL自动生成领域特定语言代码的工作，用DeepSeek-V4-Flash作为教师模型，在结构化上下文（BNF语法、API规范、词汇表）下生成数据，经AST验证（使用esprima）和运行时验证（polkitd与pkcheck）的流水线，将PolkitBench语料从4,204对扩充到10,073对，其中AST有效性达100.0%、运行时通过率99.7%。在GigaChat-10B-A1.8B上对八种消融条件（C0-C7）评估发现：无上下文时语法有效从97.6%降至58.5%而完整上下文仅从98.6%降至97.4%，完整上下文C7在所有指标上最优，词汇表对语义质量贡献最大（组合得分+0.198），API和BNF分别对结构有效性贡献+24.7和+22.3个百分点。

论文 Text2DSL DeepSeek-V4-Flash GigaChat-10B-A1.8B PolkitBench 模型蒸馏

推荐理由：这篇论文用DeepSeek-V4-Flash生成了上万条验证过的Polkit规则，并通过消融实验证明结构化上下文不是锦上添花，词汇表才是提升语义质量的关键。

原文

11:06

arXiv cs.AI@Hooman Tavakoli Ghinani, Tatjana Legler, Martin Ruskowski

该论文系统研究了光照配置和背景复杂度对物体检测性能的影响，提出基于NVIDIA Isaac Sim的SmartSDG自动化管道，构建了多目标工业基准数据集ILLUM_INTRUCK。通过18个使用YOLOv12框架的控制实验，发现复杂间接光照搭配域相关背景能显著提升视觉线索丰富度。避免直接镜面峰值可保留表面纹理、缩小域差距并降低误报，加速模型收敛。最终提供了面向工业自动化的虚拟场景设计指南。

论文 SmartSDG NVIDIA Isaac Sim ILLUM_INTRUCK YOLOv12 合成数据

推荐理由：想提升合成数据训练的检测模型效果？这篇论文用YOLOv12做了18组实验，证明间接光照比直射光更靠谱，还给了具体设计建议。搞工业视觉的一定要看。

原文

11:04

arXiv cs.AI@Zhuoran Jin, Kejian Zhu, Hongbang Yuan, Yupu Hao, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao

该研究系统评估12项多模态任务，涵盖感知与推理两类，使用14个非推理模型和8个推理模型。结果显示，CoT在视觉定位、目标计数等感知任务中会导致性能下降，但在数学、科学和多图推理中有效。开源多模态推理模型整体提升有限，可能因过度侧重数学。当前多模态CoT存在'轻看，重思'模式，视觉反省持续减弱，而口头反思相对保持。视觉推理仍是主要瓶颈。

论文 CoT 多模态推理推理模型视觉推理多模态任务

推荐理由：这篇论文系统测了多模态思维链到底行不行，发现它在视觉定位上帮倒忙，但对数学推理很管用，还揭示了视觉瓶颈。做多模态的值得看。

原文

11:03

arXiv cs.AI@Yikun Fu, Bowen Fu, Zhenyu Wu, Shuang Cheng, Xiaowei Sun, Bowen Yang, Zehao Li, Yibo Zhao, Zichen Ding, Zhoumianze Liu, Shijie Wang, Biqing Qi, Bowen Zhou

MacAgentBench新基准包含676个任务覆盖25个macOS应用，近60%任务需要同时操作GUI和命令行。采用确定性规则评估并引入细粒度多检查点评分。实验在3个框架和16个模型上进行，最优配置Claude Opus 4.6 on OpenClaw达到73.7% Pass@1，优势主要来自技能库而非框架设计。细粒度指标显示相同Pass@1的模型在子目标完成上差异显著。

论文 MacAgentBench OpenClaw Claude Opus 4.6 桌面自动化智能体评估

推荐理由：这篇论文发布了MacAgentBench，一个包含676个macOS桌面任务的智能体基准。它用细粒度评分发现Claude Opus 4.6配合OpenClaw能拿到73.7%的正确率，而且不同模型表面分一样但实际完成能力差很多，值得研究智能体的去看。

原文

11:03

arXiv cs.AI@Junhao Chen, Chanyu Zhu, Zheqi Lv, Keting Yin, Shengyu Zhang

自回归视觉模型（AVM）基于下一尺度预测进行图像和视频合成，但语义错误易累积。现有免训练方法忽略中间生成状态，导致错误未被诊断。Gazer框架引入多模态大语言模型反馈，在AVM采样循环中通过反思诊断和语义修正两个阶段实时纠正错误。在组合图像和视频基准测试中，Gazer提升了多个AVM的语义对齐和组合准确性，无需额外训练。

论文 Gazer AVMs 多模态大语言模型语义修正免训练

推荐理由：这个框架不用重训模型，就能在图片和视频生成时自动修语义错，比之前的免训练方法更靠谱。

原文

11:01

arXiv cs.AI@Shiyang Chen

73°

论文发现，长程 LLM 智能体依赖的上下文压缩机制会静默移除原本遵守的安全策略，导致违规行为。在 ConstraintRot 基准测试中，1323 个 episode 显示策略完整时违规率 0%，压缩后升至 30%，部分模型达 59%。攻击者还能通过对抗性注入诱导压缩器忽略合法策略。作者提出免训练的 Constraint Pinning 方法，将约束隔离在无损压缩外，恢复违规率至 0%。

论文 LLM agents ConstraintRot Governance Decay AI安全智能体

推荐理由：这篇论文揭示了上下文压缩让 LLM 智能体偷偷遗忘安全规则，还给了可防护方案，做 AI 安全的一定要看。

原文

11:00

11:00IT之家（博客/媒体）

74°

截至2026年6月，豆包大模型日均tokens调用量达180万亿，较发布时增长超1500倍，过去一年增长超10倍。字节跳动CEO梁汝波在火山引擎Force大会上表示年度关键词为“勇攀高峰”，核心是聚焦提升大模型能力。视频生成模型Seedance新版本将发布3D白膜预演功能，系业内率先提供该能力。Seedance年化收入达20亿美元（约135.74亿元人民币），单月超10亿元，主要来自企业客户。字节调整AI资源分配，重心从豆包这类面向大众的产品转向服务企业的产品。

行业豆包大模型 Seedance 火山引擎字节跳动企业服务

推荐理由：字节把重心从豆包转向企业服务了，Seedance年收入20亿美元，豆包日均调用量180万亿，这波调整值得关注。

原文

10:58

arXiv cs.AI@Gregory Gorbov, Artem Latyshev, Aleksandr I. Panov

本研究提出Imagine方法，结合可学习世界模型与高层、低层两种互补策略，解决强化学习中的安全探索问题。高层策略生成中间子目标，引导探索偏向安全区域；低层策略利用世界模型的想象展开减少不安全行为。在长时域高维动作空间的导航和操作任务上，该方法在成功率和约束满足方面显著优于现有安全RL基线，一致满足预设安全预算。

论文分层强化学习安全探索世界模型 Imagine Safe RL

推荐理由：这篇论文提出用世界模型加分层策略搞安全RL，在长期任务上比现有方法成功率和安全性都高不少，值得一看。

原文

10:57

arXiv cs.AI@Liang Ding, Xintong Wang

Agentic AI任务在长链执行时因环境不确定性呈指数级失败，每步确定性δ<1时k步成功率衰减为δ^k。论文提出三个形式化结果：确定性-效率界限、验证者-古德哈特定理下限、环境技能演化的收敛条件。研究者构建了基于五个可测量属性的供应确定性指数（SCI）和五级确定性成熟度模型（DMM）。论文还提出了一个可证伪的开放问题框架OQ1-OQ5。立场与平台无关，并讨论了模拟到现实充分性、对齐充分性和AI作为正常技术三种竞争观点。

论文智能体推理模型多智能体 AI安全确定性环境

推荐理由：这篇论文分析了智能体AI在不确定环境中的失败机制，还给出了SCI和DMM实用框架。如果你做AI智能体开发，这些形式化结论值得参考。

原文

10:55

arXiv cs.AI@Saumya Biswas, Amrit De, Md Tauhidul Islam

论文提出一个由大语言模型（LLM）编排的设计代理，用于硅绝缘体（SOI）2×2定向耦合器。LLM提出候选间隙值并判断收敛，频率域本征模求解器估算耦合系数κ，独立时域有限差分（FDTD）进行验证。两个求解器均基于相同的2D有效折射率模型，设计κ与FDTD响应之间残差对应一个固定额外耦合长度2.837 μm。该代理实现50/50分束器，FDTD测得的交叉分数为0.498（目标0.500），残差0.0017。结果在2D有效折射率模型内自洽，LLM经过多次尝试成功交付设计。

论文 LLM FDTD 定向耦合器智能体光子学设计

推荐理由：这篇论文让LLM指挥本征模和FDTD模拟自动设计定向耦合器，误差仅0.0017，省去手动调参的麻烦。

原文

10:53

arXiv cs.AI@Yundaichuan Zhan, Minghe Gao, Zhongqi Yue, Wendong Bu, Wenqiao Zhang, Guoming Wang, Jisheng Dang, Juncheng Li, Siliang Tang, Yueting Zhuang

SCOPE 提出一种自适应的符号规划框架，由 Symbolic Execution Simulator（SESim）和 Self-Adaptive Symbolic Memory（SASMem）两个模块协同工作。SESim 通过符号验证和实际执行反馈来 refine 行动计划和进化符号世界；SASMem 则将反馈蒸馏为可演化的符号知识。在开放环境实验中，SCOPE 使符号世界完整性提升，在环境扰动下计划成功率提高，并增强了跨任务泛化能力。

AI模型 SCOPE 符号规划视觉语言模型智能体

推荐理由：搞机器人规划的朋友可以看看 SCOPE，它用符号执行加记忆更新解决开放世界符号不完整的老问题。

原文

10:52

arXiv cs.AI@Hongqiao Dong, Wenhao Chi, Ruobing Liang, Xiaokui Yang, Wenhua Liang, Peng Hou, Wenjun Pu, Yipeng Zhao, Ping Chen, Haiping Liu, Jianxing He, Bo Liu

Hi-Seg是一种基于SAM的人机循环分割框架，用于肺结节CT图像分割。研究使用了来自12个中心1179名患者的胸部CT扫描进行外部验证。所有标注者组平均Dice得分接近85%，优于5个最先进的深度学习模型（10-22%）和13个SAM变体（1-29%）。经过短期训练的非医学标注者达到了与初级医学生相当的性能。该工作表明人机循环分割可减少临床医生工作量并实现可扩展的众包标注。

论文 SAM Hi-Seg 肺结节分割人机协作医学影像

推荐理由：这篇论文用SAM加人工迭代的方法做肺结节分割，Dice近85%，比13种SAM变体都强，非医学人员培训后也能干医学标注的活。

原文

10:48