10:37arXiv: DeepSeek@Xuan Zhao, Haonan He, Qingyu Yang, Minglei Li, Jingqi Ye, Zelin Tan, Bo Wan, Peng Ye提出ParametricSkills框架,将自由格式的文本技能在测试时转换为LoRA参数适配器。该框架利用大规模技能库和OpenCode合成的单/多轮轨迹训练超网络。在六个软件工程子任务上,比上下文学习平均提升6.44个点(由DeepSeek-V4-Flash评判),BERT Score和F1分数也更高。参数化技能具有累积性,为测试时持续学习提供了初步方向。论文ParametricSkillsOpenCodeDeepSeek-V4-FlashLoRA软件工程推荐理由:这篇论文把技能文本直接转成模型参数,编程任务上比上下文学习高出6分多,还能不断积累,挺实用的。原文
10:36arXiv: DeepSeek@Hui Zang, Pengfei Xia, Hong Liu, Jiajia Chu, Tuo Hao, Minghao Chen, Rui Zhang, Ziyang Zhang精选Mixture-of-Experts (MoE)架构通过稀疏激活扩展模型规模,但数据移动瓶颈导致推理效率低下。两个关键问题:低贡献专家带来几乎均等的内存与传输成本(成本收益比低),以及多设备部署中受最慢设备限制。CAEE框架利用轻量级成本模型估算硬件开销,选择性剪枝低重要性高成本专家,并通过低开销补偿机制避免额外数据传输。在DeepSeek-R1(671B参数)上的评估显示,CAEE将端到端推理延迟降低8%-18%(专家卸载与设备内执行),模型准确率下降小于1%。论文CAEEMoEDeepSeek-R1推理优化多设备推荐理由:CAEE框架能降低MoE模型推理延迟8%-18%,且准确率几乎不受影响。DeepSeek-R1用户可重点关注。原文
10:33techcrunch@Anna HeimBase44是Wix旗下的vibe coding平台,近日开始推出自己的AI模型。此举旨在让平台在AI初创公司中建立防御性,减少对外部前沿模型的依赖。Base44表示希望该模型最终能超越当前最先进模型的表现。目前该模型已在部分用户中测试。AI模型Base44Wixvibe codingAI模型编程平台推荐理由:Base44搞了个自己的AI模型,想不靠别人,自己干翻前沿模型。vibe coding玩家可以期待一下。原文
10:29pandaily@contact@pandaily.com (Pandaily)72°DeepSeek计划于7月中旬发布V4官方版本。高峰时段(9am-12pm和2pm-6pm)API定价将为标准费率的2倍,类似电力分时计价模式。此举旨在引导开发者在非高峰时段调用API。AI模型DeepSeekV4API定价分时收费推荐理由:DeepSeek V4马上要来了,7月中旬发布。高峰时段API价格翻倍,想省成本就避开那段时间,适合用API的开发者留意。原文
10:28pandaily@contact@pandaily.com (Pandaily)精选由于EUV光刻工具受限,中国AI芯片设计者正押注3D混合键合与堆叠技术。该技术通过垂直堆叠芯片来提升性能,绕过传统制程缩放瓶颈。此举旨在缩小与西方先进芯片的性能差距。行业3D堆叠混合键合EUV光刻AI芯片先进封装推荐理由:中国芯片厂用3D堆叠绕过EUV限制,这个弯道超车的技术路线值得一看。原文
10:26arXiv: DeepSeek@Liu Zewen论文提出EPC诊断框架,包含多模态偏好崩溃指数(MPCI)、评估器耦合矩阵和JS散度(JSD)。在8种实验条件下(N=122次重复)发现耦合系数均值范围0.00-1.18,其中GPT-4o May、GPT-4o-mini、Qwen3.7-plus和DashScope 30r四个条件显示强耦合(N=36),而GPT-4o June、qwen-plus N=30等四个条件崩溃到近零。特别地,GPT-4o从5月到6月的版本漂移(N=8重复实验)导致结论反转,自评估条件97%为零(JSD=0.003)。论文GPT-4oDeepSeekQwen3.7-plusEPC评估器漂移推荐理由:这篇论文告诉你,你以为可靠的GPT-4o评估器可能几周后就失效了,它还给了你一个EPC框架来自己检查。原文
10:25arXiv: DeepSeek@Caglar Uysal, Baturay Birinci, Süha Orhun Mutluergil, Orçun Çetin该论文对DeepSeek、GPT、Gemini、Grok、Llama和Qwen六种前沿LLM进行了提示注入漏洞实证评估。测试涵盖直接攻击与多阶段混淆攻击,涉及多种语言和字符编码。结果显示所有模型均存在系统性漏洞,非英语语种的恶意合规率显著高于英语。DeepSeek、Gemini和Grok在复杂指令下尤其易受攻击,简单字符编码仅部分降低风险。论文DeepSeekGPTGemini提示词注入AI安全推荐理由:这篇论文告诉你,DeepSeek、GPT这些模型在非英语场景下有多容易被黑客利用来生成钓鱼内容,安全对齐的漏洞比想象中大。原文
10:24arXiv: DeepSeek@Avisha Dilhara, Nevidu Jayatilleke研究者发布 sinhala-ocr-lk-acts-1010 数据集,包含1,010页来自斯里兰卡立法法案(1981-1989与2000-2019年)的页面级图像与转录文本,划分为707训练、101验证和202测试样本。使用QLoRA在8次实验中微调 DeepSeek-OCR V1、DeepSeek-OCR V2 和 LightOnOCR-2-1B 三个模型。LightOnOCR-2-1B 取得最佳性能,在全部测试样本上字符错误率(CER)为1.05%,优于 Surya-OCR(8.84%)、Tesseract v5(10.69%)和 Google Document AI(2.06%)。该模型在不同印刷年份的文档上表现一致,即使文档严重退化仍保持性能。论文sinhala-ocr-lk-acts-1010LightOnOCR-2-1BDeepSeek-OCR V1DeepSeek-OCR V2OCR推荐理由:新数据集让僧伽罗语OCR有了真实评测基准,LightOnOCR-2-1B 只用1.05%错误率碾压商业和开源方案,适合做古籍或法律文档自动识别。原文
10:23arXiv cs.AI@Buğra Alperen Uluırmak, Rifat Kurban该研究结合系统搜索、叙事综合与灰色证据,对2018-2026年评估-安全测量工作进行梳理,涵盖八个证据流(基准有效性、动态评估、LLM-as-judge可靠性等)。引入EvalSafetyGap作为组织假设,借助Goodhart法则及作者提出的不稳定分解与对齐三难困境生成可检验比较。对10个模型进行审计,发现能力与持续对抗鲁棒性之间统计不显著(Pearson r=+0.232, p=0.520),开放-封闭安全差距主要由治理与披露驱动,而非行为鲁棒性。贡献在于提供共享词汇表与证据地图,支持动态评估、透明来源报告、多尝试安全测量及可审计对齐实践。论文LLM评估AI安全EvalSafetyGap模型审计对齐推荐理由:这篇论文梳理了LLM评估与安全之间测量问题的八大证据流,还审计了10个模型,发现很多看似安全差距其实来自信息披露。搞模型安全的人值得看看怎么避免被表面指标骗到。原文
10:22pandaily@contact@pandaily.com (Pandaily)百度旗下AI芯片子公司昆仑芯片(Kunlun Chip)在IPO前要求投资者承诺购买其芯片。该策略旨在通过绑定客户需求提升市场信心,并加速国产AI芯片的生态建设。昆仑芯片成立于2018年,已推出包括K200、K300系列在内的多款芯片,覆盖云端和边缘计算场景。此次IPO预计在2026年6月前完成,融资规模或达数十亿元。行业昆仑芯片百度IPOAI芯片捆绑采购推荐理由:昆仑芯片IPO要求投资者先买芯片,这招挺硬核的,想看国产AI芯片如何用捆绑采购抢市场。原文
10:21arXiv cs.AI@Chao Tian, Zikun Zhou, Chao Yang, Guoqing Zhu, Zhenyu He本文提出一种稀疏跨模态融合机制用于RGB-T目标检测,避免传统方法中双重骨干网络和全局融合的高计算成本。该方法先通过轻量级单模态检测器快速扫描图像,生成高召回率的候选区域(RoI),再对稀疏的候选区域进行跨模态特征融合以精化检测结果。两阶段框架显著降低了参数和计算成本,同时在高分辨率图像上保持可扩展性。实验证明该方法在保持竞争力的前提下实现高效检测。论文RGB-T稀疏融合目标检测多模态推荐理由:这篇论文找到了一种聪明的方法:先快速扫一遍图像找出可能的目标区域,再只对这几个区域做多模态融合,省了很多计算。适合想做轻量级多模态目标检测的人读。原文
10:17arXiv cs.AI@Marcin Korecki, Cesare Carissimo论文(arXiv:2606.30206)提出数据中心常是AI的具身化体现,并从生物学视角揭示其有机体特性。它分析了数据中心作为非唯一、普遍化具身形式所引发的多体问题。论文还探讨了计算与人类欲望的深层关联,指出数据中心存储和处理的数据皆源自人类欲望。最终,资本通过AI的定价机制将智能价值量化,跨越了有机体与机械的鸿沟。论文数据中心有机体类比资本智能定价推荐理由:这篇论文把数据中心比作AI的身体,还讲了资本怎么给智能定价,角度挺新鲜的。原文
10:16arXiv cs.AI@Elys Allesiardo, Antoine Caubrière, Valentin Vielzeuf该论文深入分析了非序列多模态句子级嵌入,重点研究SONAR模型。研究发现某些嵌入维度对扰动敏感,可作为解码异常的指示器。通过利用编码与解码间的一致性,构建了准确的异常检测器。论文还探索了修改特定维度以尝试纠正异常。论文SONAR多模态嵌入异常检测推荐理由:这篇论文用SONAR模型把嵌入维度玩出花了,直接用一致性检测解码异常,还尝试修正,挺有意思的。原文
10:15arXiv cs.AI@Hyunwoo Park, Sang-Hyun Lee针对仿真到真实迁移中目标数据稀缺的问题,该研究提出AIDA框架。AIDA通过自适应想象生成可靠轨迹,并利用分布偏移感知判别器截断低置信度过渡,仅保留可靠数据用于增强。在5个MuJoCo任务和2个Gymnasium-Robotics任务上,AIDA显著优于现有基线方法。实验表明自适应想象能有效截断不可靠轨迹,并通过自一致性损失学习有语义的状态表示。论文AIDA域自适应视觉强化学习Sim-to-RealMuJoCo推荐理由:仿真到真实迁移一直难做,这篇论文的AIDA方法在目标数据极少时仍能大幅提升性能,比之前的方法强不少。原文
10:13arXiv cs.AI@Haoliang Han精选论文在Nengo LIF/PES尖峰网络上展示了agency-gated slow credit机制。实验显示,移除缓冲区后自我保存行为保留分数0.96(N=50),慢解码器重置或去门后行为崩溃。在24维部分观测控制中,自我信用产生持久行为(0.74 vs 0.00)。多任务学习中,乘法否决防止遗忘,最终准确率0.88,遗忘0.13,而基线方案性能接近随机。论文将持久残留形式化为操作性的行为自我。论文Spiking AgentSelf-Caused Credit智能体尖峰神经网络推荐理由:这篇论文用实验硬数据展示了尖峰智能体如何通过自我因果信用形成持久行为,对比了多种条件,对构建有自我认知的AI很有启发。原文
10:11Ethan Mollick@emollick大型语言模型(LLM)表现出一条反直觉的规律:参数规模更大的模型在编程、创意构思、伦理建议、医学和数学等多个任务上同步提升。例如,一个在编程上表现优异的模型,其伦理推理能力也往往更强。但这种通用性存在例外——在小说创作等开放领域,模型能力可能出现“锯齿效应”,即某些任务反而变差。这一发现挑战了传统AI能力高度分化的假设。AI模型LLM模型通用性规模定律多任务学习推荐理由:LLM越大越全能,编代码和讲道理一起涨——但写小说可能反而会翻车,挺有意思的。原文
10:10arXiv: OpenAI@Xiangyu Ma, Mengmi Zhang, Shannon Ang, Minne Chen该研究使用OpenAI、Anthropic和DeepSeek的LLM为每个模型生成277,470个(30×9249)硅样本,基于美国艺术参与调查(SPPA)数据。研究发现硅样本对喜好存在系统性正偏差,使生态估计值膨胀;样本间的关系结构完全丢失;年龄-品味关联被削弱,阶级-品味关联被复活,性别和种族-品味关联被夸大。论文LLM文化消费硅样本调查偏差arXiv5 个信源在谈推荐理由:这篇论文揭示了用AI模拟人类文化品味时的三个致命缺陷:过度喜欢、关系缺失和社会偏差。做市场调研的人最好先读一读。原文
10:08arXiv cs.LG@Xiang Shi, Yifei Zhang, Peng Hu论文利用 LENS 数据集中的 Starlink RTT 测量数据,提出一个层级分析框架,将原始 RTT 序列转化为多尺度统计特征以进行跨区域比较。基于五个地理代表性区域的数据,发现延迟差异与基础设施可用性和 Starlink 天线到 PoP 距离强相关。互信息分析确认最小 RTT 为最具区分度的特征,XGBoost 特征重要性进一步支持该结论。模型在短期数据上达到 83% 准确率,但长期泛化能力下降,表明需要自适应模型。论文StarlinkLEO卫星互联网RTT延迟分析XGBoost推荐理由:想知道 Starlink 在不同地区延迟差异的原因?这篇论文用数据和机器学习告诉你答案,还给出了 83% 准确率的模型。原文
10:07arXiv cs.LG@Yaron Kiselman, Kfir Y. Levy标准联邦学习优化全局平均目标,对数据分布差异大的客户端表现不佳。本文提出SP-CACW框架,通过最小化目标客户端收敛误差的上界来选择聚合权重,可在偏差与方差间权衡并分配零权重给有害客户端。在MNIST、CIFAR-100和LEAF Shakespeare数据集上,该方法与强个性化及聚类基线相比具有竞争力或更优。论文SP-CACW联邦学习个性化学习收敛感知客户端加权推荐理由:新论文提出SP-CACW,让联邦学习里只选利于你的客户端梯度,避免负迁移,效果比个性化基线还好。原文
10:06arXiv cs.LG@Abhranil Chandra, Sankaran Vaidyanathan, Utsav Dhanuka, Varun Gandhi, Scott NiekumHExA是一个无需训练的上下文学习框架,让LLM通过主动实验设计、迭代优化和技能库复用来解决新颖领域的长时任务。在Interphyre基准(基于PHYRE 2D物理环境)上,Claude Sonnet 4.6原本只有2%的成功率,而HExA将其提升至77%。HExA还优于ReAct和Reflexion等基线,并支持开源模型。仅使用从简单关卡学到的技能转移,HExA在新关卡上也能达到44%成功率,证明技能可复用。论文HExAClaude Sonnet 4.6Interphyre智能体推理模型1 个信源在谈推荐理由:Claude 4.6在困难物理任务上从2%蹿到77%,全靠HExA这个主动实验框架。不用复杂训练,自己试错学技能,还能跨任务迁移。原文
10:05arXiv cs.LG@Chen Wang, Peiran Yun, Pan Xie, Ke Deng现有扩散模型和连续流生成模型的确定性采样可视为求解学习到的ODE动力学,但准确离散化通常需要多步。论文指出轨迹匹配范式存在理论局限:两个学生模型可达到相同轨迹匹配损失却诱导不同端点边际分布,影响生成质量。为克服这一局限,提出边际对齐正则化器,通过追踪学生模型ODE沿线的对数密度变化并利用冻结教师模型评分来惩罚学生与教师边际分布的差异,无需辅助网络或对抗优化。该框架统一适用于原始再流和分段再流等再流族,并证明局部边际对齐通过 telescoping 总变差界控制最终时刻分布差异。在基准骨干网络上的实验验证了该方法在少步生成中的有效性。论文Reflow扩散模型蒸馏边际对齐生成模型推荐理由:这篇论文发现了再流蒸馏的隐藏问题——轨迹匹配可能不够,还提出了一个简单有效的边际对齐正则化,不用额外网络就能提升少步生成质量,值得做扩散加速的人看看。原文
10:04arXiv cs.LG@Craig Atkinson研究在Open University Learning Analytics数据集(N=800,4个时间截点)上发现干预偏差:第56天,oracle标记70.1%学生无需干预,但零样本GPT-4o对73%学生推荐行动,误报率43个百分点。商业RAG和SQL增强检索校准同样差,在10000学生规模下每周期约4300次不必要接触。监督学习方法(ONNX Decision Transformer和XGBoost)校准误差接近零,Decision Transformer达到macro-F1 0.79、macro-recall 0.85,决策延迟低于5毫秒。LLM-as-judge评估(DeepEval G-Eval)无法捕捉干预偏差,反而奖励流畅的过度干预。论文GPT-4oDecision TransformerXGBoost干预偏差教育顾问推荐理由:零样本GPT-4o当教育顾问爱多管闲事?实测误报率43%,换成Decision Transformer或XGBoost就能准到几乎零误报。原文
10:03arXiv cs.LG@Gagan Jain扩散语言模型(DLM)通常在固定上下文结构下训练,限制去噪到预定token子集,这导致训练与推理不匹配(模型需在任意配置下运行,训练网格外表现下降)。提出的Adaptive Block Diffusion (ABD)通过优化前缀窗口配置分布上的去噪风险来消除此不匹配,将配置视为随机变量,无需架构修改即可在全配置空间训练单一模型。实验表明ABD在不同解码尺度下保持结构一致性,避免离网格崩溃,恢复块大小与困惑度之间的单调关系,并在目标尺度上匹配或超越固定块专家。论文ABD扩散语言模型训练-推理不匹配推理生成推荐理由:这篇论文解决了扩散语言模型在训练和推理时配置不一致的痛点,用ABD方法在多种配置下训练一个模型就能通用,不用再为不同解码策略分别训练了。原文
10:02arXiv cs.LG@Yihan Zhang, Zhiteng Zhang, Kun Chen, Chen WangPCGD是一种物理引导条件图扩散框架,在非结构TCAD网格上预测耦合静电场和载流子密度场。在混合PN/MOS基准上,PCGD达到0.835%的平均相对场误差,优于确定性一步回归(1.207%)和局部扩散(1.585%)。相比纯扩散,PCGD将最大PDE残差误差降低了近三个数量级。通过LoRA适配,PCGD在未见过的SOI拓扑上达到0.815%误差,仅需全微调数据量的1/5.30和参数量的1/14.34。论文PCGDTCADMeshGraphNetLoRA物理引导扩散推荐理由:PCGD用物理引导扩散做芯片仿真,精度逼近传统TCAD但快得多,遇到新结构只用少量数据微调,省时省力。原文
10:00IT之家(博客/媒体)74°AMD 于 2024 年 10 月发布 192 核 384 线程的 EPYC 9965,官方千片批发价从 14813 美元调整至 11988 美元。当前 eBay 等渠道成交价已跌破 6000 美元,较调整后官方价降幅约 50%。该芯片采用 Zen 5c 架构,基础频率 2.25 GHz、全核 3.35 GHz,TDP 500W。价格大幅下滑可能与 AMD 和英特尔竞争加剧、渠道库存积压以及 PSB 平台锁定导致的兼容性问题有关。AI产品AMDEPYC 9965Zen 5c服务器CPU价格战推荐理由:AMD 旗舰服务器 CPU 价格砍半,192 核 EPYC 9965 现在不到 6000 美元就能买到,比官方价便宜一半,想组高性能服务器的可以看看。原文
09:59arXiv cs.LG@Peilin Liu, Ding-Xuan Zhou论文提出一个基于分布回归的Transformer学习框架,将两阶段采样过程与自然语言处理关联。定义了注意力算子,证明Transformer可无损压缩分布为函数表示。相比卷积神经网络和全连接网络,Transformer在更复杂结构的功能学习上表现更强。该框架还为大语言模型中的提示调优、参数高效微调、高效缩放等技术提供理论洞见。论文Transformer注意力机制分布回归泛化分析大语言模型推荐理由:这篇论文给Transformer的提示调优、微调等技术找到了数学理论,解释了为什么注意力机制能压缩信息。原文
09:58arXiv cs.LG@Negin Golrezaei, Sourav Sahoo本文研究多单元歧视性拍卖中重复竞价问题,单一投标人每轮效用为价值减去α倍支付(α∈[0,1]为资金成本参数),目标是在总预算B下最大化T轮累计效用。通过单位效用分解,论文提出基于有向无环图(DAG)的多项式时间学习算法,在全信息和赌博机反馈下均实现亚线性遗憾。在赌博机设置下,由于完全交叉学习,遗憾与上下文数量无关:观察到所选动作在实现上下文下的效用即可揭示同一动作在所有反事实上下文下的效用。当预算约束下平均归一化每轮预算ρ=B/(MT)<1时,设计耦合原对偶算法,DAG过程使用对偶调整边权重进行原始更新,在线梯度下降更新对偶变量,得到ρ近似亚线性遗憾。最后给出逐轮时间和空间与上下文数量无关的实现,可扩展至大规模甚至无限上下文空间。论文discriminatory auctionsbudget constraints多单元拍卖在线算法亚线性遗憾推荐理由:这篇论文解决了有预算限制下在线拍卖竞价的理论问题,用DAG算法实现了亚线性遗憾,适合对拍卖理论和在线学习感兴趣的人。原文
09:57arXiv cs.LG@Ranuga Weerasekara, Heshan Nethmina, Manuja Ranathunga, Vinma Wettasinghe, Dinithi Navodya, Subavarshana Arumugam, Nirasha Munasinghe, Nisansa de Silva, Sandareka Wickramanayake斯里兰卡蔬菜市场因进口隔离导致供应中断时价格剧烈波动。研究者构建了结合零售价、农民价、天气变量、柴油成本和汇率的融合数据集,覆盖12种蔬菜、14个市场、2013-2019年数据。使用XGBoost和LightGBM梯度提升集成模型,经Optuna优化,比较统一模型和季节特定模型。季节特定模型中Yala季模型R2最高达0.9420,统一模型总体准确率90.84%、R2为0.9281。在完全未见过的2024年恶性通胀期,统一模型无需重新训练仍保持85.96%准确率,成功追踪价格飙升。论文XGBoostLightGBMOptuna斯里兰卡农产品价格预测推荐理由:这篇论文用XGBoost和LightGBM预测斯里兰卡蔬菜价格,统一模型在极端通胀期也能保持近86%准确率,对农民和决策者很有参考价值。原文
09:56arXiv cs.LG@Khan Raiyan Ibne Reza, Omar Ibne ShahidKrishokChat是首个基于引文的孟加拉语农业咨询指令微调数据集,从129份领域手册中提取290个层次化知识节点。利用分区种子生成矩阵扩展为139,200个监督微调对,并增强5,300个化学品安全和1,000个对抗安全实例,总计145,500个QA对覆盖18种作物类别。引入Farmer Benchmark包含1,001个真实农民查询用于评估。在Gemma-4-E2B上评估发现,微调提升结构化格式,但独立模型仍难准确泛化化学剂量。论文KrishokChatGemma-4-E2B孟加拉语农业咨询RAG推荐理由:做农业AI的朋友看过来!KrishokChat是首个孟加拉语农业咨询的引文数据集,提供14.5万条QA对和Farmer基准,比直接微调更适合做RAG。原文
09:52IT之家(博客/媒体)微软于2026年6月29日开放WSL容器公开预览,该功能在Build 2026首次公布。它提供内置的wslc.exe命令行工具,语法与Docker高度相似,支持构建、运行和调试容器。同时推出WSL容器API,提供NuGet包支持C、C++和C#语言,并与MSBuild和CMake集成。企业可通过组策略(GPO)和ADMX模板控制使用权限,设置镜像拉取允许列表。底层改进包括virtiofs文件系统(Windows文件访问速度提升2倍)和consomme网络模式,WSL容器作为WSL 2.9.3预发布版提供,计划2026年秋季正式版。AI产品WSL容器Docker微软Linux容器开发者工具推荐理由:微软出了WSL容器功能,不用装Docker就能在Windows上跑Linux容器,还自带命令行和API,开发更方便。原文
09:47arXiv cs.LG@Zeynep Türkmen, Kürşat Kaya, Alexander Pfefferle, Frank Hutter该研究提出一个统一接口,用于比较不同表格基础模型的数据先验。他们从TabPFN、TabR等公开先验和真实数据集生成训练任务,在固定架构和训练协议下训练模型。在共享下游分类任务上评估发现不同先验偏好不同任务特性,部分先验绝对性能更强,部分排序更稳定。数据级相似度仅能部分解释下游行为差异。论文表格基础模型数据先验评估方法分类任务推荐理由:想知道不同表格基础模型的数据先验到底差多少?这篇论文用统一框架帮你测了一遍,结果挺有意思。原文
09:46arXiv cs.LG@Honglin Gao, Junhao Ren, Lan Zhao, Yue Yang, Jindong Chang, Gaoxi XiaoBlackknife提出一种硬标签、查询受限且结构受限的黑盒逃逸攻击框架,针对异构图神经网络(HGNN)。该攻击不依赖模型梯度、置信度或完整图结构,仅利用本地可观测的单跳异构结构和少量硬标签查询。在ACM、DBLP和IMDB三个基准数据集上的实验表明,Blackknife对代表性HGNN模型实现了高攻击成功率,并在基于拓扑的防御下仍有效。论文BlackknifeHGNN异构图表征网络黑盒攻击对抗攻击推荐理由:这篇论文提出了Blackknife,一种能在几乎无信息条件下攻击HGNN的黑盒方法,只用少量查询就能成功扰动图结构,值得一看。原文
09:38IT之家(博客/媒体)分析机构 SemiAnalysis 于 6 月 29 日爆料,贾扬清已从英伟达离职。2025 年 4 月英伟达以 7 亿美元(约 47.63 亿元人民币)收购 LeptonAI,贾扬清随之加入。SemiAnalysis 称英伟达曾计划在 2026 年开源 Lepton 核心平台,但黄仁勋可能最终未批准。LeptonAI 创始团队来自阿里巴巴,曾以 500 行代码实现对话式搜索引擎演示而闻名。行业贾扬清英伟达LeptonAI开源人事变动推荐理由:贾扬清在英伟达干了一年就走了。当初7亿美元收购LeptonAI,现在开源承诺可能黄了。AI圈人事变动,值得关注。原文
09:21arXiv: DeepSeek@Aditya Pratap Singh该论文对10个OCR系统在天城体(印地语)上进行基准测试,包括EasyOCR、Qwen2.5-VL-3B、Qwen3-VL-8B、DeepSeek-OCR、Gemini 2.5 Flash、Claude Opus 4.7、GPT-5.5等。在清洁文本上所有系统chrF++在91-98之间,但在真实扫描图像中,9个系统性能大幅下降(EasyOCR从93.6跌至58.3)。Qwen3-VL-8B(75.2,可在单张24GB GPU运行)超过GPT-5.5(58.5)和olmOCR-7B(40.5),Gemini和Claude领先(86.3和82.2)。论文还提出基于ByT5的字节级后校正器可将廉价引擎chrF++提升1.2-1.5。论文OCR天城体基准测试Qwen3-VL-8BGPT-5.5推荐理由:如果你对多语言OCR或印地语文本识别感兴趣,这篇论文揭示了主流模型在天城体上的真实差距,尤其是GPT-5.5表现不如开源Qwen3-VL-8B。原文
09:20arXiv: DeepSeek@Zewen Liu论文提出Contagion Tensor框架,量化多智能体LLM输出分布间的耦合。基于该张量定义Coupling Amplification Factor (CAF),形式为CAF=E[T_condition]/E[T_baseline],提供无单位基线比较。在2x2x2块正交仿真中,图像条件超线性效应(CAF=1.40)在禁用图像扰动模块后降为亚线性(CAF=0.87)。真实API实验:DeepSeek-Chat (R=30)和GPT-4o-mini (R=15,真实视觉)在统一人格下文本通信CAF≈1.0,多样人格导致收敛(CAF=0.88)。GPT-4o-mini内对比:C3 (文本) CAF=1.02 vs. C5(真实视觉,R=30) CAF=1.72,验证仿真预测。论文Contagion TensorCAFDeepSeek-ChatGPT-4o-mini多智能体推荐理由:想了解多智能体LLM之间怎么互相影响输出?这篇论文给出了可量化框架CAF,还拿DeepSeek和GPT-4o-mini做了实验,能看到图像条件会放大耦合效应。原文
09:19掘金本周最热@猫猫头啊精选文章对比了Step 3.7 Flash、DeepSeek V4 Flash、Gemini 3.5 Flash在Agent场景下的代码生成效率、响应速度和工具调用稳定性。测试采用Claude Code工具,第一个案例从零搭建开发者日志站,Step 3.7 Flash一次生成,输出25.7k tokens,成本¥1.22,耗时2m30s;DeepSeek V4 Flash成本¥0.72,输出14k tokens。第二个案例搭建GitHub项目雷达,Step 3.7 Flash无错误完成,Gemini 3.5 Flash有2次自动修复报错。在视觉效果和稳定性上Step 3.7 Flash表现更优,但DeepSeek V4 Flash成本更低。AI模型Step 3.7 FlashDeepSeek V4 FlashGemini 3.5 Flash智能体代码生成1 个信源在谈推荐理由:最近这几个Flash模型我帮你试了,Step 3.7 Flash写博客页和抓GitHub项目都很稳,页面好看,一次跑通,成本也就一两块钱,值得试试。原文
09:18IT之家(博客/媒体)苹果宣布,鉴于AI技术显著加速了恶意攻击工具的开发速度,公司将改变以往安全补丁随大版本系统更新(如iOS 26.6)一起发布的策略,改为提前向所有用户开放。此举旨在缩短从安全补丁公布到安装到用户设备之间的时间差。目前无证据表明此次修复的漏洞已被利用,但苹果认为必须加快安全更新送达速度。行业苹果iOSAI安全安全更新推荐理由:苹果这次主动调整策略,因为AI让黑客开发攻击工具更快了,他们决定不等iOS大版本更新,直接提前推安全补丁给你。原文
09:03IT之家(博客/媒体)OpenAI 与 Work Louder 合作,将于 7 月 15 日推出 Codex 品牌专用输入设备,这是 OpenAI 首款硬件。该键盘可能基于 Work Louder 现款 Creator Micro 2 打造,针对 AI 开发场景优化。Creator Micro 2 具备 12 个自定义机械按键、八向摇杆和机械旋钮,原为设计师与无代码开发者设计。AI产品OpenAICodexWork Louder键盘AI开发4 个信源在谈推荐理由:OpenAI 出了第一款硬件,联名键盘专门给 AI 开发用,基于 Work Louder 的 Creator Micro 2,7 月 15 日开售,感兴趣可以看看。原文
08:44SuperTechFans(博客/媒体)78°Semgrep 安全团队对比多模型在 IDOR 漏洞检测上的表现,GLM 5.2 在仅给定提示下取得 39% F1,高于 Claude Code 的 32% 和 Claude Opus 4.8。该模型是智谱 AI 开源的 750B 总参数 MoE 模型,每个 token 仅激活 40B,支持 128K 上下文,采用 MIT 许可证。专业静态分析管道 Semgrep 多模态仍领先,F1 达 53%–61%,显示模型与框架的差距。AI模型GLM 5.2ClaudeSemgrep智谱 AIIDOR检测推荐理由:智谱的 GLM 5.2 开源模型在安全漏洞检测上居然超过了 Claude,而且推理成本低,适合做代码审计。原文
08:30coderabbitai@coderabbitai精选两年前业界普遍认为AI将加速代码审查,实现同等工作更短时间。实际数据反驳了这一假设:AI审查发现的问题数量增加约1.7倍,逻辑错误增加75%,安全漏洞增加约2倍。代码审查的瓶颈从编写转移到了审查环节。行业代码审查AI效率安全漏洞逻辑错误推荐理由:别以为AI真能帮你省时间——数据说反而多了1.7倍的问题和两倍的漏洞,搞代码的要警惕这个新瓶颈。原文