10:26arXiv: DeepSeek@Liu Zewen论文提出EPC诊断框架,包含多模态偏好崩溃指数(MPCI)、评估器耦合矩阵和JS散度(JSD)。在8种实验条件下(N=122次重复)发现耦合系数均值范围0.00-1.18,其中GPT-4o May、GPT-4o-mini、Qwen3.7-plus和DashScope 30r四个条件显示强耦合(N=36),而GPT-4o June、qwen-plus N=30等四个条件崩溃到近零。特别地,GPT-4o从5月到6月的版本漂移(N=8重复实验)导致结论反转,自评估条件97%为零(JSD=0.003)。论文GPT-4oDeepSeekQwen3.7-plusEPC评估器漂移推荐理由:这篇论文告诉你,你以为可靠的GPT-4o评估器可能几周后就失效了,它还给了你一个EPC框架来自己检查。原文
10:25arXiv: DeepSeek@Caglar Uysal, Baturay Birinci, Süha Orhun Mutluergil, Orçun Çetin该论文对DeepSeek、GPT、Gemini、Grok、Llama和Qwen六种前沿LLM进行了提示注入漏洞实证评估。测试涵盖直接攻击与多阶段混淆攻击,涉及多种语言和字符编码。结果显示所有模型均存在系统性漏洞,非英语语种的恶意合规率显著高于英语。DeepSeek、Gemini和Grok在复杂指令下尤其易受攻击,简单字符编码仅部分降低风险。论文DeepSeekGPTGemini提示词注入AI安全推荐理由:这篇论文告诉你,DeepSeek、GPT这些模型在非英语场景下有多容易被黑客利用来生成钓鱼内容,安全对齐的漏洞比想象中大。原文
10:24arXiv: DeepSeek@Avisha Dilhara, Nevidu Jayatilleke研究者发布 sinhala-ocr-lk-acts-1010 数据集,包含1,010页来自斯里兰卡立法法案(1981-1989与2000-2019年)的页面级图像与转录文本,划分为707训练、101验证和202测试样本。使用QLoRA在8次实验中微调 DeepSeek-OCR V1、DeepSeek-OCR V2 和 LightOnOCR-2-1B 三个模型。LightOnOCR-2-1B 取得最佳性能,在全部测试样本上字符错误率(CER)为1.05%,优于 Surya-OCR(8.84%)、Tesseract v5(10.69%)和 Google Document AI(2.06%)。该模型在不同印刷年份的文档上表现一致,即使文档严重退化仍保持性能。论文sinhala-ocr-lk-acts-1010LightOnOCR-2-1BDeepSeek-OCR V1DeepSeek-OCR V2OCR推荐理由:新数据集让僧伽罗语OCR有了真实评测基准,LightOnOCR-2-1B 只用1.05%错误率碾压商业和开源方案,适合做古籍或法律文档自动识别。原文
10:23arXiv cs.AI@Buğra Alperen Uluırmak, Rifat Kurban该研究结合系统搜索、叙事综合与灰色证据,对2018-2026年评估-安全测量工作进行梳理,涵盖八个证据流(基准有效性、动态评估、LLM-as-judge可靠性等)。引入EvalSafetyGap作为组织假设,借助Goodhart法则及作者提出的不稳定分解与对齐三难困境生成可检验比较。对10个模型进行审计,发现能力与持续对抗鲁棒性之间统计不显著(Pearson r=+0.232, p=0.520),开放-封闭安全差距主要由治理与披露驱动,而非行为鲁棒性。贡献在于提供共享词汇表与证据地图,支持动态评估、透明来源报告、多尝试安全测量及可审计对齐实践。论文LLM评估AI安全EvalSafetyGap模型审计对齐推荐理由:这篇论文梳理了LLM评估与安全之间测量问题的八大证据流,还审计了10个模型,发现很多看似安全差距其实来自信息披露。搞模型安全的人值得看看怎么避免被表面指标骗到。原文
10:21arXiv cs.AI@Chao Tian, Zikun Zhou, Chao Yang, Guoqing Zhu, Zhenyu He本文提出一种稀疏跨模态融合机制用于RGB-T目标检测,避免传统方法中双重骨干网络和全局融合的高计算成本。该方法先通过轻量级单模态检测器快速扫描图像,生成高召回率的候选区域(RoI),再对稀疏的候选区域进行跨模态特征融合以精化检测结果。两阶段框架显著降低了参数和计算成本,同时在高分辨率图像上保持可扩展性。实验证明该方法在保持竞争力的前提下实现高效检测。论文RGB-T稀疏融合目标检测多模态推荐理由:这篇论文找到了一种聪明的方法:先快速扫一遍图像找出可能的目标区域,再只对这几个区域做多模态融合,省了很多计算。适合想做轻量级多模态目标检测的人读。原文
10:17arXiv cs.AI@Marcin Korecki, Cesare Carissimo论文(arXiv:2606.30206)提出数据中心常是AI的具身化体现,并从生物学视角揭示其有机体特性。它分析了数据中心作为非唯一、普遍化具身形式所引发的多体问题。论文还探讨了计算与人类欲望的深层关联,指出数据中心存储和处理的数据皆源自人类欲望。最终,资本通过AI的定价机制将智能价值量化,跨越了有机体与机械的鸿沟。论文数据中心有机体类比资本智能定价推荐理由:这篇论文把数据中心比作AI的身体,还讲了资本怎么给智能定价,角度挺新鲜的。原文
10:16arXiv cs.AI@Elys Allesiardo, Antoine Caubrière, Valentin Vielzeuf该论文深入分析了非序列多模态句子级嵌入,重点研究SONAR模型。研究发现某些嵌入维度对扰动敏感,可作为解码异常的指示器。通过利用编码与解码间的一致性,构建了准确的异常检测器。论文还探索了修改特定维度以尝试纠正异常。论文SONAR多模态嵌入异常检测推荐理由:这篇论文用SONAR模型把嵌入维度玩出花了,直接用一致性检测解码异常,还尝试修正,挺有意思的。原文
10:15arXiv cs.AI@Hyunwoo Park, Sang-Hyun Lee针对仿真到真实迁移中目标数据稀缺的问题,该研究提出AIDA框架。AIDA通过自适应想象生成可靠轨迹,并利用分布偏移感知判别器截断低置信度过渡,仅保留可靠数据用于增强。在5个MuJoCo任务和2个Gymnasium-Robotics任务上,AIDA显著优于现有基线方法。实验表明自适应想象能有效截断不可靠轨迹,并通过自一致性损失学习有语义的状态表示。论文AIDA域自适应视觉强化学习Sim-to-RealMuJoCo推荐理由:仿真到真实迁移一直难做,这篇论文的AIDA方法在目标数据极少时仍能大幅提升性能,比之前的方法强不少。原文
10:13arXiv cs.AI@Haoliang Han精选论文在Nengo LIF/PES尖峰网络上展示了agency-gated slow credit机制。实验显示,移除缓冲区后自我保存行为保留分数0.96(N=50),慢解码器重置或去门后行为崩溃。在24维部分观测控制中,自我信用产生持久行为(0.74 vs 0.00)。多任务学习中,乘法否决防止遗忘,最终准确率0.88,遗忘0.13,而基线方案性能接近随机。论文将持久残留形式化为操作性的行为自我。论文Spiking AgentSelf-Caused Credit智能体尖峰神经网络推荐理由:这篇论文用实验硬数据展示了尖峰智能体如何通过自我因果信用形成持久行为,对比了多种条件,对构建有自我认知的AI很有启发。原文
10:10arXiv: OpenAI@Xiangyu Ma, Mengmi Zhang, Shannon Ang, Minne Chen该研究使用OpenAI、Anthropic和DeepSeek的LLM为每个模型生成277,470个(30×9249)硅样本,基于美国艺术参与调查(SPPA)数据。研究发现硅样本对喜好存在系统性正偏差,使生态估计值膨胀;样本间的关系结构完全丢失;年龄-品味关联被削弱,阶级-品味关联被复活,性别和种族-品味关联被夸大。论文LLM文化消费硅样本调查偏差arXiv5 个信源在谈推荐理由:这篇论文揭示了用AI模拟人类文化品味时的三个致命缺陷:过度喜欢、关系缺失和社会偏差。做市场调研的人最好先读一读。原文
10:08arXiv cs.LG@Xiang Shi, Yifei Zhang, Peng Hu论文利用 LENS 数据集中的 Starlink RTT 测量数据,提出一个层级分析框架,将原始 RTT 序列转化为多尺度统计特征以进行跨区域比较。基于五个地理代表性区域的数据,发现延迟差异与基础设施可用性和 Starlink 天线到 PoP 距离强相关。互信息分析确认最小 RTT 为最具区分度的特征,XGBoost 特征重要性进一步支持该结论。模型在短期数据上达到 83% 准确率,但长期泛化能力下降,表明需要自适应模型。论文StarlinkLEO卫星互联网RTT延迟分析XGBoost推荐理由:想知道 Starlink 在不同地区延迟差异的原因?这篇论文用数据和机器学习告诉你答案,还给出了 83% 准确率的模型。原文
10:07arXiv cs.LG@Yaron Kiselman, Kfir Y. Levy标准联邦学习优化全局平均目标,对数据分布差异大的客户端表现不佳。本文提出SP-CACW框架,通过最小化目标客户端收敛误差的上界来选择聚合权重,可在偏差与方差间权衡并分配零权重给有害客户端。在MNIST、CIFAR-100和LEAF Shakespeare数据集上,该方法与强个性化及聚类基线相比具有竞争力或更优。论文SP-CACW联邦学习个性化学习收敛感知客户端加权推荐理由:新论文提出SP-CACW,让联邦学习里只选利于你的客户端梯度,避免负迁移,效果比个性化基线还好。原文
10:06arXiv cs.LG@Abhranil Chandra, Sankaran Vaidyanathan, Utsav Dhanuka, Varun Gandhi, Scott NiekumHExA是一个无需训练的上下文学习框架,让LLM通过主动实验设计、迭代优化和技能库复用来解决新颖领域的长时任务。在Interphyre基准(基于PHYRE 2D物理环境)上,Claude Sonnet 4.6原本只有2%的成功率,而HExA将其提升至77%。HExA还优于ReAct和Reflexion等基线,并支持开源模型。仅使用从简单关卡学到的技能转移,HExA在新关卡上也能达到44%成功率,证明技能可复用。论文HExAClaude Sonnet 4.6Interphyre智能体推理模型1 个信源在谈推荐理由:Claude 4.6在困难物理任务上从2%蹿到77%,全靠HExA这个主动实验框架。不用复杂训练,自己试错学技能,还能跨任务迁移。原文
10:05arXiv cs.LG@Chen Wang, Peiran Yun, Pan Xie, Ke Deng现有扩散模型和连续流生成模型的确定性采样可视为求解学习到的ODE动力学,但准确离散化通常需要多步。论文指出轨迹匹配范式存在理论局限:两个学生模型可达到相同轨迹匹配损失却诱导不同端点边际分布,影响生成质量。为克服这一局限,提出边际对齐正则化器,通过追踪学生模型ODE沿线的对数密度变化并利用冻结教师模型评分来惩罚学生与教师边际分布的差异,无需辅助网络或对抗优化。该框架统一适用于原始再流和分段再流等再流族,并证明局部边际对齐通过 telescoping 总变差界控制最终时刻分布差异。在基准骨干网络上的实验验证了该方法在少步生成中的有效性。论文Reflow扩散模型蒸馏边际对齐生成模型推荐理由:这篇论文发现了再流蒸馏的隐藏问题——轨迹匹配可能不够,还提出了一个简单有效的边际对齐正则化,不用额外网络就能提升少步生成质量,值得做扩散加速的人看看。原文
10:04arXiv cs.LG@Craig Atkinson研究在Open University Learning Analytics数据集(N=800,4个时间截点)上发现干预偏差:第56天,oracle标记70.1%学生无需干预,但零样本GPT-4o对73%学生推荐行动,误报率43个百分点。商业RAG和SQL增强检索校准同样差,在10000学生规模下每周期约4300次不必要接触。监督学习方法(ONNX Decision Transformer和XGBoost)校准误差接近零,Decision Transformer达到macro-F1 0.79、macro-recall 0.85,决策延迟低于5毫秒。LLM-as-judge评估(DeepEval G-Eval)无法捕捉干预偏差,反而奖励流畅的过度干预。论文GPT-4oDecision TransformerXGBoost干预偏差教育顾问推荐理由:零样本GPT-4o当教育顾问爱多管闲事?实测误报率43%,换成Decision Transformer或XGBoost就能准到几乎零误报。原文
10:03arXiv cs.LG@Gagan Jain扩散语言模型(DLM)通常在固定上下文结构下训练,限制去噪到预定token子集,这导致训练与推理不匹配(模型需在任意配置下运行,训练网格外表现下降)。提出的Adaptive Block Diffusion (ABD)通过优化前缀窗口配置分布上的去噪风险来消除此不匹配,将配置视为随机变量,无需架构修改即可在全配置空间训练单一模型。实验表明ABD在不同解码尺度下保持结构一致性,避免离网格崩溃,恢复块大小与困惑度之间的单调关系,并在目标尺度上匹配或超越固定块专家。论文ABD扩散语言模型训练-推理不匹配推理生成推荐理由:这篇论文解决了扩散语言模型在训练和推理时配置不一致的痛点,用ABD方法在多种配置下训练一个模型就能通用,不用再为不同解码策略分别训练了。原文
10:02arXiv cs.LG@Yihan Zhang, Zhiteng Zhang, Kun Chen, Chen WangPCGD是一种物理引导条件图扩散框架,在非结构TCAD网格上预测耦合静电场和载流子密度场。在混合PN/MOS基准上,PCGD达到0.835%的平均相对场误差,优于确定性一步回归(1.207%)和局部扩散(1.585%)。相比纯扩散,PCGD将最大PDE残差误差降低了近三个数量级。通过LoRA适配,PCGD在未见过的SOI拓扑上达到0.815%误差,仅需全微调数据量的1/5.30和参数量的1/14.34。论文PCGDTCADMeshGraphNetLoRA物理引导扩散推荐理由:PCGD用物理引导扩散做芯片仿真,精度逼近传统TCAD但快得多,遇到新结构只用少量数据微调,省时省力。原文
09:59arXiv cs.LG@Peilin Liu, Ding-Xuan Zhou论文提出一个基于分布回归的Transformer学习框架,将两阶段采样过程与自然语言处理关联。定义了注意力算子,证明Transformer可无损压缩分布为函数表示。相比卷积神经网络和全连接网络,Transformer在更复杂结构的功能学习上表现更强。该框架还为大语言模型中的提示调优、参数高效微调、高效缩放等技术提供理论洞见。论文Transformer注意力机制分布回归泛化分析大语言模型推荐理由:这篇论文给Transformer的提示调优、微调等技术找到了数学理论,解释了为什么注意力机制能压缩信息。原文
09:58arXiv cs.LG@Negin Golrezaei, Sourav Sahoo本文研究多单元歧视性拍卖中重复竞价问题,单一投标人每轮效用为价值减去α倍支付(α∈[0,1]为资金成本参数),目标是在总预算B下最大化T轮累计效用。通过单位效用分解,论文提出基于有向无环图(DAG)的多项式时间学习算法,在全信息和赌博机反馈下均实现亚线性遗憾。在赌博机设置下,由于完全交叉学习,遗憾与上下文数量无关:观察到所选动作在实现上下文下的效用即可揭示同一动作在所有反事实上下文下的效用。当预算约束下平均归一化每轮预算ρ=B/(MT)<1时,设计耦合原对偶算法,DAG过程使用对偶调整边权重进行原始更新,在线梯度下降更新对偶变量,得到ρ近似亚线性遗憾。最后给出逐轮时间和空间与上下文数量无关的实现,可扩展至大规模甚至无限上下文空间。论文discriminatory auctionsbudget constraints多单元拍卖在线算法亚线性遗憾推荐理由:这篇论文解决了有预算限制下在线拍卖竞价的理论问题,用DAG算法实现了亚线性遗憾,适合对拍卖理论和在线学习感兴趣的人。原文
09:57arXiv cs.LG@Ranuga Weerasekara, Heshan Nethmina, Manuja Ranathunga, Vinma Wettasinghe, Dinithi Navodya, Subavarshana Arumugam, Nirasha Munasinghe, Nisansa de Silva, Sandareka Wickramanayake斯里兰卡蔬菜市场因进口隔离导致供应中断时价格剧烈波动。研究者构建了结合零售价、农民价、天气变量、柴油成本和汇率的融合数据集,覆盖12种蔬菜、14个市场、2013-2019年数据。使用XGBoost和LightGBM梯度提升集成模型,经Optuna优化,比较统一模型和季节特定模型。季节特定模型中Yala季模型R2最高达0.9420,统一模型总体准确率90.84%、R2为0.9281。在完全未见过的2024年恶性通胀期,统一模型无需重新训练仍保持85.96%准确率,成功追踪价格飙升。论文XGBoostLightGBMOptuna斯里兰卡农产品价格预测推荐理由:这篇论文用XGBoost和LightGBM预测斯里兰卡蔬菜价格,统一模型在极端通胀期也能保持近86%准确率,对农民和决策者很有参考价值。原文
09:56arXiv cs.LG@Khan Raiyan Ibne Reza, Omar Ibne ShahidKrishokChat是首个基于引文的孟加拉语农业咨询指令微调数据集,从129份领域手册中提取290个层次化知识节点。利用分区种子生成矩阵扩展为139,200个监督微调对,并增强5,300个化学品安全和1,000个对抗安全实例,总计145,500个QA对覆盖18种作物类别。引入Farmer Benchmark包含1,001个真实农民查询用于评估。在Gemma-4-E2B上评估发现,微调提升结构化格式,但独立模型仍难准确泛化化学剂量。论文KrishokChatGemma-4-E2B孟加拉语农业咨询RAG推荐理由:做农业AI的朋友看过来!KrishokChat是首个孟加拉语农业咨询的引文数据集,提供14.5万条QA对和Farmer基准,比直接微调更适合做RAG。原文
09:47arXiv cs.LG@Zeynep Türkmen, Kürşat Kaya, Alexander Pfefferle, Frank Hutter该研究提出一个统一接口,用于比较不同表格基础模型的数据先验。他们从TabPFN、TabR等公开先验和真实数据集生成训练任务,在固定架构和训练协议下训练模型。在共享下游分类任务上评估发现不同先验偏好不同任务特性,部分先验绝对性能更强,部分排序更稳定。数据级相似度仅能部分解释下游行为差异。论文表格基础模型数据先验评估方法分类任务推荐理由:想知道不同表格基础模型的数据先验到底差多少?这篇论文用统一框架帮你测了一遍,结果挺有意思。原文
09:46arXiv cs.LG@Honglin Gao, Junhao Ren, Lan Zhao, Yue Yang, Jindong Chang, Gaoxi XiaoBlackknife提出一种硬标签、查询受限且结构受限的黑盒逃逸攻击框架,针对异构图神经网络(HGNN)。该攻击不依赖模型梯度、置信度或完整图结构,仅利用本地可观测的单跳异构结构和少量硬标签查询。在ACM、DBLP和IMDB三个基准数据集上的实验表明,Blackknife对代表性HGNN模型实现了高攻击成功率,并在基于拓扑的防御下仍有效。论文BlackknifeHGNN异构图表征网络黑盒攻击对抗攻击推荐理由:这篇论文提出了Blackknife,一种能在几乎无信息条件下攻击HGNN的黑盒方法,只用少量查询就能成功扰动图结构,值得一看。原文
09:21arXiv: DeepSeek@Aditya Pratap Singh该论文对10个OCR系统在天城体(印地语)上进行基准测试,包括EasyOCR、Qwen2.5-VL-3B、Qwen3-VL-8B、DeepSeek-OCR、Gemini 2.5 Flash、Claude Opus 4.7、GPT-5.5等。在清洁文本上所有系统chrF++在91-98之间,但在真实扫描图像中,9个系统性能大幅下降(EasyOCR从93.6跌至58.3)。Qwen3-VL-8B(75.2,可在单张24GB GPU运行)超过GPT-5.5(58.5)和olmOCR-7B(40.5),Gemini和Claude领先(86.3和82.2)。论文还提出基于ByT5的字节级后校正器可将廉价引擎chrF++提升1.2-1.5。论文OCR天城体基准测试Qwen3-VL-8BGPT-5.5推荐理由:如果你对多语言OCR或印地语文本识别感兴趣,这篇论文揭示了主流模型在天城体上的真实差距,尤其是GPT-5.5表现不如开源Qwen3-VL-8B。原文
09:20arXiv: DeepSeek@Zewen Liu论文提出Contagion Tensor框架,量化多智能体LLM输出分布间的耦合。基于该张量定义Coupling Amplification Factor (CAF),形式为CAF=E[T_condition]/E[T_baseline],提供无单位基线比较。在2x2x2块正交仿真中,图像条件超线性效应(CAF=1.40)在禁用图像扰动模块后降为亚线性(CAF=0.87)。真实API实验:DeepSeek-Chat (R=30)和GPT-4o-mini (R=15,真实视觉)在统一人格下文本通信CAF≈1.0,多样人格导致收敛(CAF=0.88)。GPT-4o-mini内对比:C3 (文本) CAF=1.02 vs. C5(真实视觉,R=30) CAF=1.72,验证仿真预测。论文Contagion TensorCAFDeepSeek-ChatGPT-4o-mini多智能体推荐理由:想了解多智能体LLM之间怎么互相影响输出?这篇论文给出了可量化框架CAF,还拿DeepSeek和GPT-4o-mini做了实验,能看到图像条件会放大耦合效应。原文
10:15arXiv cs.LG@Shai Ben-David, Farnam Mansouri, Anay Mehrotra, Manolis Zampetakis精选揭示了仅从正样本进行二分类的proper可学习性的完整刻画:一个概念类可proper学习当且仅当其VC维有限且满足新引入的组合条件“均匀外部可分离性”。该研究证明proper与improper学习在此设定下可分离,随机与确定性proper学习间也存在分离。存在概念类无ERM可作为学习器,且有限VC维对非一致学习不足。这些结果通过新组合维度得到,丰富了学习理论。论文正样本学习PAC学习proper学习VC维均匀外部可分离性推荐理由:这篇论文搞清楚了只给正样本时proper学习到底能学啥,发现了VC维不够用,还新造了个叫“均匀外部可分离性”的条件,搞理论的人值得看。原文
10:15arXiv cs.LG@Shuang Li, Zhihui Zhu, Qiuwei Li该论文分析了Bregman ADMM在非凸线性约束问题上的收敛性,采用两侧相对光滑性假设替代标准Lipschitz梯度条件。该方法适用于矩阵和张量模型中的多项式目标,全局Lipschitz梯度常数可能不存在。论文证明,在不变开状态空间域上,Bregman ADMM的一步迭代定义了光滑原始-对偶不动点映射,其严格鞍点KKT点是不稳定不动点,因此从随机初始化出发以概率零收敛到严格鞍点。结合已有的一阶收敛结果,这给出了极限KKT点几乎必然二阶平稳性。数值实验在分布式矩阵分解和对称张量分解上验证了理论。论文Bregman ADMMKKT优化算法非凸优化分布式优化推荐理由:这篇论文证明了Bregman ADMM在非凸非Lipschitz优化中几乎必然收敛到二阶KKT点,解决了传统方法无法处理多项式目标的问题,对矩阵分解等应用有实际指导意义。原文
10:14arXiv cs.LG@Kevin Kingslin, Anish Natekar, Ashutosh Ranjan, Vivek Srivastava, Savita Bhat, Shirish KarandeDemocratic ICAI 通过结构化角色辩论收集多种竞争性理由,用于从人类偏好中提取自然语言原则。在创意偏好基准 MuCE-Pref 和 LiTBench 上,该方法在多种创意任务类别中提高了偏好预测准确性。与 deliberative prompting 和基于原则的基线相比,Democratic ICAI 产生了更忠实的偏好结构。LLM 标注者更偏好其生成的宪法。论文Democratic ICAIICAIMuCE-PrefLiTBench偏好对齐推荐理由:这篇论文用辩论方式来搞AI对齐,比单次解释更细致,在创意任务上预测偏好更准,搞对齐研究的值得看看。原文
10:14arXiv cs.LG@Phong Dang, Evander Espinoza, Xiaoliang Wan, Michela Negro, Jerry P. Draayer, Feng Pan, Tomas Dytrych, Daniel Langr, David Kekejian这篇论文研究SU(3)和SU(4)对称性是否支配整个核素图的核结合能。作者构建了三种神经网络质量模型:FINN(点预测)、GINN(不确定性量化)和WINN(以Casimir算子为基的质量公式)。训练数据为AME2016,验证于AME2020新增核。SU(4)算子单独使均方根误差(RMSE)相较液滴基线在训练和测试集上降低近一半,在外推上降低约五分之一。WINN达到最低验证RMSE为0.430 MeV,与顶级质量模型竞争力相当。WINN还揭示中子滴线附近SU(4)二次Casimir增强(对称性恢复)和超重区四次算子意外增益。论文SU(3)SU(4)WINN神经网络核质量推荐理由:这篇论文用可解释神经网络从对称性角度预测原子核质量,WINN模型精度0.430 MeV,还揭示了中子滴线和超重区的新现象,值得搞核物理或AI的人看看。原文
10:14arXiv cs.LG@Domagoj Herceg该论文将PAC-Bayesian有限样本保证应用于线性系统的二次轨迹代价控制问题。通过System Level Synthesis参数化显式暴露闭环轨迹映射,使二次代价可证。针对高斯扰动推导了精确单边高斯变换和基于闭环灵敏度的可处理二次上界,并提出了后验局部替代证书。在双积分器数值实验中,该算法作为灵敏度感知的有限样本正则化器,有效降低持有代价和闭环灵敏度。论文PAC-BayesianSystem Level Synthesis闭环控制有限样本保证二次代价推荐理由:想给控制系统加安全证书?这篇用SLS参数化搞定了二次代价,数值实验还比传统方法更稳。原文
10:14arXiv cs.LG@Akshay Bhagwan Sonawane, Sophie Choe, Lakshman Tamil该研究针对资源受限环境中口腔癌早期检测需求,提出混合经典-连续变量(CV)量子分类器。管道结合MobileNetV1特征提取器、PCA降维至16维及含位移、干涉仪和Kerr门的CV-QNN。简化Φ∘D∘U1架构比标准Killoran层减少40-45%可训练参数,并通过降维与编码策略将损失梯度方差提升约58个数量级。四qumode简化CV-QNN仅用18个参数,验证AUC最高,以67%更少参数超越55参数经典基线,达到100%校准测试准确率。结论支持CV光子量子机器学习用于室温、参数高效的医学图像分类,推动边缘量子AI发展。论文Continuous-VariablePhotonic QuantumQuantum Neural Network口腔癌检测边缘AI推荐理由:这篇论文用仅18个参数的室温光量子模型在口腔癌检测上做到100%准确率,参数比经典模型少67%,特别适合边缘设备。原文
10:13arXiv cs.LG@Yuanyuan Wang, Wenjie Wang, Haoxuan Li, Mingming Gong, Kun Zhang精选研究团队在连续时间潜在随机微分方程(SDE)模型中提出了基于环境诱导的扩散协方差偏移的可识别性方法。在共享漂移但环境特定扩散协方差条件下,两个具有成对坐标方差比不同的对角扩散机制可将潜在坐标识别至置换和缩放。该结果首先在线性Ornstein-Uhlenbeck系统中证明,然后推广至一般加性噪声潜SDE。在温和光滑性下,瞬时漂移-雅可比因果图也可识别至相同置换。实验在合成系统和Hardanger大桥监测数据上验证了理论。论文可识别性SDE因果表示学习扩散偏移时间序列推荐理由:这篇论文用扩散偏移解决了连续时间潜变量因果模型的可识别性难题,不需要稀疏性假设,还拿真实桥梁数据做了验证,做时间序列因果推断的值得看看。原文
10:13arXiv cs.LG@Aniq Ur Rahman研究人员在二元逻辑模型中发现,最大化Fisher信息与参数可恢复性的区域同时也是熵最高的区域,导致即使在完美参数恢复下个体预测也固有困难。他们提出一个因果概率框架,用于生成具有瞬态边和已知因果结构的时间图。推导了Cramér-Rao界,验证了参数估计误差与不可减少的预测损失之间的权衡。结果表明,仅靠预测准确性可能无法反映模型是否学习了潜在因果机制。论文时间链接预测因果推断估计-预测权衡二元逻辑模型推荐理由:这篇论文解释了为什么时间链接预测中准确率高不一定代表模型学对了因果关系,还给出了数学上的权衡证明。原文
10:13arXiv cs.LG@Gift Modekwe, Qiugang Lu本研究提出一种迁移学习框架,用于基于单粒子模型含电解质(SPMe)的物理信息神经网络(PINN)训练。模型首先在通用电化学动力学数据上预训练,然后通过权重迁移、冻结部分层并微调剩余参数适配目标电池。使用PyBaMM验证表明,该方法能准确预测电压,保持电化学一致性。相比从头训练,迁移学习显著减少训练时间,实现跨电池高效泛化。论文PINNSPMePyBaMM锂离子电池迁移学习推荐理由:这篇论文讲怎么用迁移学习加速电池PINN模型训练,能跨电池用,省时间还准,做电池仿真的可以看看。原文
10:12arXiv cs.LG@Jack Geary, Boyan Gao, Henry Gouk该论文提出一种利用拉格朗日对偶性近似策略分类中最佳响应的方法,将策略行为重构为约束优化问题,使得一阶优化方法可直接适用。在线性分类器上能复现封闭解,并自然扩展到非线性分类器。作者进一步结合隐函数定理,在分类器训练中计算损失的全梯度,从而将模型参数与策略行为直接关联。在多个常见机器学习数据集上,新方法训练出的模型显著提升了策略准确率(strategic accuracy)。论文Strategic Classification拉格朗日对偶隐函数定理非线性分类器机器学习推荐理由:这篇论文解决了非线性策略分类的计算难题,用拉格朗日对偶和隐函数定理做出了实用算法,比线性方法更准,值得做对抗性机器学习的人看。原文
10:12arXiv cs.LG@David Steinmann, Antonia Wüst, Kristian Kersting, Wolfgang StammerCOCOLogic-V2 是一个面向现实图像的对象中心数据集,覆盖一阶逻辑的广泛子集,用于视觉归纳推理评估。它将样本分为正变体、近边界和远边界负例三类,实现对模型可解释性的细粒度诊断。实验表明,模型能很好区分正样本和远边界负例,但在近边界负例上表现失败。此外,感知噪声和大规则搜索空间在少样本场景下构成额外挑战。该数据集为推进视觉归纳推理提供了具体基础。论文COCOLogic-V2推理模型视觉理解逻辑推理可解释性推荐理由:COCOLogic-V2 这个新数据集专测视觉推理,正反例分类特别细,模型在近边界上直接翻车,做可解释 AI 的可以看看。原文
10:11arXiv cs.AI@Dihong Huang, Zhenyu Wei, Zhuxiu Xu, Yunchao Yao, Sikai Li, Mingyu DingDexCompose提出一种角色感知残差组合框架,通过显式手指级动作所有权解决多任务操作中的动作冲突。在16个复合任务(4项物体保持技能与4项下游交互)上测试,平均复合成功率达77.4%。该方法训练两个不对称残差模块:一个用于维持已有技能状态,另一个在新任务分配的子空间中调整下游策略。结果表明,结构化动作所有权与双重残差是超越传统策略链的灵巧技能组合方向。论文DexCompose灵巧操作多任务机器人策略重用推荐理由:想用一只机械手同时完成多个操作任务?DexCompose通过手指级分工和残差模块,在16项任务中达到77.4%成功率,解决了策略冲突问题。原文
10:11arXiv cs.AI@Luis Leal精选这篇论文研究双人零和博弈中纳什均衡的算法依赖性选择。在六个可精确求解的博弈(包括二维纳什多面体和Kuhn扑克)中,R-NaD和磁镜下降等正则化最后迭代方法总是选择最大熵成员(在二维多面体上精确,在Kuhn中达到99.7%最大熵)。而CFR、CFR+和虚拟博弈等遗憾平均方法则漂移到低熵面。在180个随机博弈的实验中,R-NaD在100%收敛的博弈中达到最大熵,而CFR+在94%的博弈中严格低于该值(配对Wilcoxon p<10^-27)。论文还报告了两个否定结果:去除CFR的投影未消除边界漂移;R-NaD的选择依赖初始锚点。论文R-NaDCFR+纳什均衡博弈论多智能体系统推荐理由:这篇论文用严格实验告诉你:不同博弈算法选出的纳什均衡不一样,R-NaD倾向最大熵,CFR+倾向低熵,这会影响你对付弱对手的鲁棒性。原文
10:11arXiv cs.AI@Cunxi Yu, Chenhui Deng, Nathaniel Pinckney, Brucek KhailanyHORIZON是一个自演化智能体框架,将硬件设计视为仓库级代码演化。它通过Markdown harness编译项目包,包含领域知识、可执行评估器和接受谓词,并利用git工作树进行状态管理和回放。在ChipBench、RTLLM、Verilog-Eval和9个CVDP类别上,HORIZON实现了100%的基准完成率。但作者指出,这些基准只是更广泛芯片设计问题的受控代理,并未解决所有挑战。论文HORIZONChipBenchRTLLMVerilog-Eval硬件设计推荐理由:HORIZON在硬件设计基准上跑通了100%,但作者自己说了这只是起点。想了解智能体如何自动化芯片设计,可以看看这篇。原文
10:10arXiv cs.AI@Bo Shen, Lifeng Chang, Tianyuan Wei, Yunpeng Li, Feng Shi, Yichen Han, Peijie Gao, Shiyi Kuang, Xin Chang, Dehui Li这篇论文提出ANIS(Agent-Native Immune System),首个嵌入智能体认知循环的生物启发式内生防御架构。它设计了六层免疫塔(L0-L5),其中L1作为非认知的物理与逻辑隔离层。论文建立了智能体病毒和智能体疫苗的统一分类,并提出了Harness Triad(Meta、Self、Auto)实现持续免疫学习(CIL),使疫苗能动态适应新威胁。ANIS在运行时提供动态“执法”机制,与静态的模型对齐形成互补。论文ANIS智能体AI安全运行时防御免疫学习推荐理由:这篇论文把免疫系统思路直接嵌入到智能体内部,用六层防护对抗运行时攻击,和传统外围防御完全不同,值得看看。原文