13:49Ethan Mollick@emollickGLM-5.2是一款开源模型,其性能不及GPT-5.5和Opus 4.8,更远不及Mythos。但它表现扎实,表明开源模型持续追赶前沿。当前开源权重已触及GPT-5.2水平,在该能力区间表现显著。这一进展说明开源模型正在缩小与闭源前沿的差距。AI模型GLM-5.2GPT-5.5Opus 4.8Mythos开源模型1 个信源在谈推荐理由:GLM-5.2虽然没追上GPT-5.5,但开源模型又往前迈了一大步,能力提升明显,值得关注。原文
13:49Ethan Mollick@emollickEthan Mollick 指出,所有模型路由器(model routers)在处理非数学/编程任务时,普遍低估任务难度并分配过少的智能资源。他建议,对于不可验证的任务(如创新、营销、定性分析),使用更智能的模型往往能带来更大收益。这一观点源于他对多种路由器实际表现的经验观察。技巧model routers任务分配推理模型非数学任务推荐理由:Ethan Mollick 分享了一个容易被忽视的问题:模型路由器的任务分配不够智能,尤其对创意和分析类任务。如果你也发现一些任务结果不好,可能不是模型不行,是路由器给它派了太弱的模型。原文
13:48岚叔@lufzzliz推文作者表达了对xAI下一代模型Grok 4.5的强烈期待。作者认为xAI可能拥有过多计算资源用于Grok 4.5的训练。希望Grok 4.5能训练得更出色并支持SpaceX。行业Grok 4.5xAISpaceX模型训练4 个信源在谈推荐理由:这位网友对Grok 4.5很有信心,还调侃xAI显卡太多不如自己用。看看民间对xAI新模型的态度。原文
13:48Ethan Mollick@emollick一项实验测试了AI在端到端编码任务中的能力。Opus 4.7在14小时内构建了一个软件包,相当于人类工程师2-17周的工作量,总花费251美元。虽然模型仍不完美,但进步速度显著。AI模型Opus 4.7编程助手编码能力AI基准测试推荐理由:Opus 4.7只用14小时和251块就干完了人类几周的活,虽然还有瑕疵,但进步真的快。原文
13:48岚叔@lufzzliz文章指出长期依赖AI生成代码会削弱工程师的沉浸式创造能力和职业满足感。作者用历史小说家批量生产而非亲自研究写书的类比,说明类似问题。他自述使用Claude和Codex几个月后,写代码变得懒散迟钝,遇到复杂问题第一反应是让AI找bug或写修复。文章警告AI批量产生的代码如同“数字塑料垃圾”,便宜但长期污染软件生态。技巧ClaudeCodex编程助手软件工程推荐理由:这篇很真实,说透了AI用得越多,自己越容易变懒,得先自己思考再让AI动手。原文
13:48Ethan Mollick@emollick这个提示词让AI模型推荐两首适合当前GenAI状态的诗,并要求认真思考而非后验合理化。作者建议在GLM-5.2或Opus 4.8上尝试,观察模型如何选题和论证。它提供了窥探模型内部推理过程的视角,适合想了解模型思考方式的人。该技巧无需额外工具,直接复制提示词即可使用。技巧GLM-5.2Opus 4.8提示词工程推理模型1 个信源在谈推荐理由:想看看AI怎么思考?让GLM-5.2或Opus 4.8帮你选诗,能看到它的推理过程,挺有意思的。原文
13:48岚叔@lufzzliztokei v1.08 新增Claude Code按模型查看详情功能,可对每个模型(如GLM-5.2)单独分析费用。全局视角支持本机/全部设备查看。回顾页面新增“Loop Engineering”和“Loop滴神”成就:连续3天/30天每天24小时有Agent运行即可获得。新增对Qoder、QoderWork Agent的计算支持。AI产品tokeiClaude CodeQoderQoderWork智能体推荐理由:tokei更新了,现在能按模型看Claude Code花了多少钱,还有连续跑Agent的成就系统,适合想精细控制AI开支的开发者。原文
13:48岚叔@lufzzlizK神定义LLM UI/UX第三次变革,将LLM视为独立可持续运行的系统,拥有全组织工具和上下文,与人协同。作者基于Pi实现组织内agent交互,支持不同群组不同的记忆、知识库、技能和模型。该系统可应用于客户群交互,实现高效丝滑协同。行业Pi智能体LLM协同推荐理由:K神提出了新的LLM交互思路,作者已经用Pi搭建了能按群组定制的智能体系统,对企业协作很有参考价值。原文
13:48岚叔@lufzzliz在世界杯小组赛预测中,GLM-5.2在比分榜综合最强,GPT-5.5在胜负榜综合最强且命中率达70%。淘汰赛阶段取消24小时限制,可一次性预测16场比赛。作者分享了提示词示例:"继续预测,可以提交淘汰赛16场的比赛,你需要仔细分析给出你的答案、并提交"。同时附带了opus-4.8和deepseekv4-pro的预测结果。技巧GLM-5.2GPT-5.5提示词工程智能体世界杯推荐理由:作者用GLM-5.2和GPT-5.5预测世界杯,GPT-5.5命中率70%,还给了淘汰赛提示词,试试用自己的agent玩。原文
13:48岚叔@lufzzlizGPT-5.5-Cyber 在安全基准 CyberGym 上击败了 Mythos 5,取得领先成绩。使用该模型需向官方申请权限,个人和企业均可,用途限定为授权防御场景,如漏洞研究、红队、渗透测试、恶意软件分析、威胁情报、事件响应。此外,Codex 推出了新插件,可利用 gpt-5.5(reasoning 设 high/xhigh)进行代码安全扫描与修复。AI模型GPT-5.5-CyberMythos 5CyberGym安全模型Codex3 个信源在谈推荐理由:GPT-5.5-Cyber 在安全基准 CyberGym 上直接碾压了 Mythos 5,想搞红队或漏洞分析的话可以申请权限试试。原文
13:48岚叔@lufzzliz精选LufzzLiz基于Andrej Karpathy的LLM Wiki gist衍生出两套模板:个人知识库schema(五层目录)和代码仓库wiki schema(三层目录+双层导览)。附带实践案例Hermes-wiki和wiki-web,后者支持关系图和脑图。模板可直接用于构建结构化个人知识库或项目文档。技巧Karpathy知识库模板笔记技巧工作流推荐理由:如果你嫌搭建知识库太麻烦,试试这套基于Karpathy思路的模板,五层目录帮你把笔记理得清清楚楚,还有实际案例参考。原文
13:09vLLM@vllm_project精选vLLM-Omni TTS团队针对Qwen3-TTS、VoxCPM2、Higgs Audio V3、Fish Speech S2 Pro四种TTS模型分别设计了不同的优化策略。对Qwen3-TTS通过解耦连接器分块和批处理Stage-0解码预处理,在H20×2上音频吞吐量提升61.5%,P99延迟减半。VoxCPM2采用whole-forward torch.compile和CFM/LocDiT解码尾部跨请求批处理,音频吞吐量提升172%。Higgs Audio V3将多码本解码状态机迁移到GPU驻留张量,实现2.7倍加速。Fish Speech S2 Pro为纯解码路径设计了模型特定的q_len=1 Triton注意力内核。AI模型vLLMQwen3-TTSVoxCPM2Higgs Audio V3Fish Speech S2 Pro语音合成推理优化推荐理由:vLLM团队分享了优化四种主流TTS模型服务的具体技巧,包括性能提升数据和实现细节,对部署TTS服务很有参考价值。原文
12:48Geek@geekbbGitHub上Pluviobyte/video-skill仓库将AI视频制作流程拆解为多个可安装的skill模块,涵盖视频创作、复刻、动效、片头包装、质检等环节。每个skill独立可用,降低视频制作门槛。项目长期维护,持续更新。技巧video-skillPluviobyte视频制作工作流开源项目推荐理由:这个仓库把视频创作、动效、包装等技能打包成模块,装一个就能用,做视频更轻松。原文
12:39IT之家(博客/媒体)精选6月29日,北京太空算力创新中心在全球数字经济大会太空算力论坛上揭牌成立。该中心采用“公司+联盟”双轮驱动模式,运营主体为北京天算星联科技有限公司,将围绕星载AI芯片、太空大模型等关键环节组织联合研发。中心还承担公共平台服务、标准制定与生态引领、成果转化与场景变现等职能。此前4月,业界首个太空算力产业协同平台“太空算力专业委员会”已在北京成立,该创新中心将聚焦五大方向打造太空算力原生产业体系。行业北京太空算力创新中心星载AI芯片太空大模型太空算力算力基础设施推荐理由:北京新成立的太空算力创新中心,专门组织搞星载AI芯片和太空大模型的联合研发,还提供地面测设平台,推动太空算力落地商用。原文
12:24Shashikant Kore@kshashi谷歌在AI竞赛中看似落后,但根源可能是内部资源分配问题。现有产品的算力需求与DeepMind对前沿模型(如Gemini系列)的研发需求产生竞争。这种内耗导致谷歌难以集中资源冲刺顶级模型,而非技术能力不足。行业GoogleDeepMindAI竞赛算力资源分配推荐理由:一句话解释谷歌为什么没跑赢AI竞赛——不是技术不行,是自家产品抢算力。内耗比对手更头疼。原文
11:51Browser Use@browser_useBrowser Use 团队对 Opus 4.7 和 GLM 5.2 进行前端设计基准测试。测试使用 Browser Use v4 工具,从 LLM Arena 数据集中选取一个 prompt。每个模型根据该 prompt 生成网站并自动评分。结果对比了这两款模型在代码生成和界面设计上的能力。AI模型Opus 4.7GLM 5.2Browser UseLLM Arena前端生成推荐理由:Browser Use 团队拿 Opus 4.7 和 GLM 5.2 比前端设计,一个 prompt 生成网站打分,看看谁画页面更强。原文
11:27Yangyi@YangyixxxxTango在2023年就实现了浏览器录制功能,但AI降低了实现门槛。NewMax的录制比Codex更强,不仅能学习操作,还能将workflow沉淀为Playwright脚本,减少二次开发消耗。该功能速度更快,结合vibecoding理念让用户仅凭想法即可编码。功能将在下个版本发布。AI产品NewMaxCodexPlaywright浏览器录制vibecoding推荐理由:NewMax的录制比Codex实用,能把操作直接变成Playwright脚本,省去重复工作,下个版本就能体验。原文
11:20AI产品黄叔@PMbackttfuture这篇推文列出了关于 Agent(智能体)使用 QQ 邮箱的 10 条观察。核心观点包括:邮箱是 Agent 的数字身份证,与个人邮箱隔离;收邮件是杀手级场景;Agent 发邮件前需用户确认,这是信任训练;最终局是 A2A 通信。文章认为 QQ 邮箱此举抢的是通信层,真正的对手是 Cloudflare。行业QQ Mail智能体A2A通信数字身份推荐理由:看看这篇对 Agent 与 QQ 邮箱结合的犀利分析,10 条观察直击本质,尤其是把邮箱当作数字身份证和 A2A 通信的终局思考。原文
11:19IT之家(博客/媒体)芬兰财政部常务秘书Juha Majanen宣布,计划到2031年将全国公共部门改造为以人工智能为基础的模式,为各级政府打造共享AI平台并导入最强AI模型。该改革目标将公共部门生产力提升至少20%,节省人力资源开支以应对人口和财政挑战。裁员部分通过自然退休实现,但仍有部分员工被AI智能体取代。工会代表反对将AI作为裁员借口,认为可能削弱公共服务。行业芬兰AI改造公共部门生产力裁员推荐理由:芬兰政府计划2031年前用AI改造公共部门,目标提效20%,部分岗位将被AI取代,工会表示担忧。原文
11:16IT之家(博客/媒体)吉姆·凯勒(Jim Keller)6月25日接受《EE Times》采访,回应旗下公司Tenstorrent的收购传闻。他确认已与英特尔、高通两家公司CEO会面,希望达成重大合作,强调其RISC-V CPU IP非常优秀。凯勒同时提及竞争对手Cerebras上市,称将全面击败对方,并表示一家超大规模云服务商正评估Tenstorrent的AI IP用于开发小型AI芯片。行业TenstorrentJim Keller英特尔高通RISC-VAI芯片推荐理由:Jim Keller聊了Tenstorrent的收购进展,说跟英特尔和高通CEO都见过面了,还怼了一把刚上市的Cerebras,想看看RISC-V AI芯片的路怎么走。原文
11:00IT之家(博客/媒体)由中国科学院计算机网络信息中心等单位联合研发的“异算方舟”平台正式上线,旨在解决国产算力下软件适配难、代码迁移难等问题。平台底层搭载“九衍枢算法库”,汇集16款高性能计算工具,核心运算性能可实现十倍以上提速。同时,平台内置代码转换大模型BoundX,可自动适配多种国产算力环境,替代人工改写工作。该平台实现了算法、代码、应用的全链条打通,助力国产算力从硬件领先走向软硬件协同成熟。AI产品异算方舟BoundX九衍枢算法库代码迁移国产算力推荐理由:中科院他们搞的“异算方舟”平台,专门帮你把代码自动迁移到国产算力上,性能还能快十倍,省去手写适配的麻烦。原文
10:49Geek@geekbblanshu 是一个基于 Python 3.10+ 和 Pillow 库的开源绘图工具,专为技术博客、系统架构图和流程图设计。用户编辑一份 JSON 配置文件后,可同时导出 .excalidraw 源文件、高清 PNG(最高 4K)以及逐帧动画 GIF(支持 24fps)。所有渲染在本地运行,无需浏览器或远程 API 调用。视觉效果采用深色背景、手写风格标题、流动光效和脉冲高亮,类似 DailyDoseOfDS 的黑底技术手稿。项目已在 GitHub 上开源,提供 pip 快速安装。AI产品lanshuPythonPillowExcalidraw技术绘图推荐理由:技术博主画架构图常用 Excalidraw,但导出 GIF 和 PNG 还得手动转。这个工具改一份 JSON 就能同时拿到三种格式,本地渲染还快,风格也很酷。原文
10:48向阳乔木@vista8腾讯云EdgeOne发布了新产品EdgeOne Makers,旨在简化AI Agent的开发和部署流程。通过执行三条命令即可完成从安装到本地测试的全过程,包括`npm install -g edgeone`、`edgeone makers create --template openai-agents-starter-node`等。本地测试网站可直接观察Agent对话和工具调用细节,线上支持绑定域名和关联Github持续迭代。当前处于Beta内测阶段,注册可免费领取50万Token。AI产品腾讯云EdgeOneEdgeOne Makers智能体部署工具10 个信源在谈推荐理由:腾讯云EdgeOne出了个Makers,几行命令就能把AI Agent框架跑起来,不用自己折腾环境,节省大量时间。原文
10:29pandaily@contact@pandaily.com (Pandaily)光本微科技与东方天璇公司联合发射了全球首颗基于光计算的太空卫星。该卫星利用光信号替代传统电子芯片,可抵御太空辐射、解决散热和电力限制。相比传统电子芯片,光计算芯片更轻、更冷,且具备辐射免疫特性。该卫星计划于2026年6月发射。AI产品光计算卫星GuangbenweiDongfang Tianxuan抗辐射推荐理由:光本微和东方天璇搞了一颗太空光计算卫星,用光代替电来干活,不怕辐射、散热好还省电,比传统宇航芯片轻巧耐造。原文
10:28Pandaily@contact@pandaily.com (Pandaily)vivo推出X Fold6,搭载行业首个针对折叠屏优化的AI操作系统。该系统将大屏体验从单应用使用转变为多窗口AI任务工作流。用户可通过语音或手势协同运行多个AI应用,提升折叠屏生产力。X Fold6标志着折叠屏从硬件迭代进入AI驱动的第二阶段。AI产品vivoX Fold6折叠屏AI操作系统AI工作流推荐理由:vivo 为折叠屏做了专属AI系统,X Fold6能同时跑多个AI任务,不再是单应用放大,办公效率直接拉满。原文
10:15arXiv cs.LG@Shai Ben-David, Farnam Mansouri, Anay Mehrotra, Manolis Zampetakis精选揭示了仅从正样本进行二分类的proper可学习性的完整刻画:一个概念类可proper学习当且仅当其VC维有限且满足新引入的组合条件“均匀外部可分离性”。该研究证明proper与improper学习在此设定下可分离,随机与确定性proper学习间也存在分离。存在概念类无ERM可作为学习器,且有限VC维对非一致学习不足。这些结果通过新组合维度得到,丰富了学习理论。论文正样本学习PAC学习proper学习VC维均匀外部可分离性推荐理由:这篇论文搞清楚了只给正样本时proper学习到底能学啥,发现了VC维不够用,还新造了个叫“均匀外部可分离性”的条件,搞理论的人值得看。原文
10:15arXiv cs.LG@Shuang Li, Zhihui Zhu, Qiuwei Li该论文分析了Bregman ADMM在非凸线性约束问题上的收敛性,采用两侧相对光滑性假设替代标准Lipschitz梯度条件。该方法适用于矩阵和张量模型中的多项式目标,全局Lipschitz梯度常数可能不存在。论文证明,在不变开状态空间域上,Bregman ADMM的一步迭代定义了光滑原始-对偶不动点映射,其严格鞍点KKT点是不稳定不动点,因此从随机初始化出发以概率零收敛到严格鞍点。结合已有的一阶收敛结果,这给出了极限KKT点几乎必然二阶平稳性。数值实验在分布式矩阵分解和对称张量分解上验证了理论。论文Bregman ADMMKKT优化算法非凸优化分布式优化推荐理由:这篇论文证明了Bregman ADMM在非凸非Lipschitz优化中几乎必然收敛到二阶KKT点,解决了传统方法无法处理多项式目标的问题,对矩阵分解等应用有实际指导意义。原文
10:15arXiv cs.LG@Kijung Jeon, Thuy-Duong Vuong, Molei TaoMDM-VGB是一种面向掩码扩散模型的高效采样器,在推理时通过奖励引导的重新掩码机制来增强生成质量。理论证明MDM-VGB对过程验证器噪声具有鲁棒性,计算复杂度为二次方,而best-of-N方法可能因误差累积达到指数复杂度。在Sudoku和QM9等约束满足与科学基准上,MDM-VGB实现了强实证性能,同时支持高奖励生成与低奖励样本的有效修复。AI模型MDM-VGBMasked Diffusion Model推理缩放奖励引导生成约束满足推荐理由:这篇论文给掩码扩散模型加了重新掩码机制,像有个纠错开关,Sudoku和QM9上效果很好,值得做推理优化的读者看看。原文
10:14arXiv cs.LG@Kevin Kingslin, Anish Natekar, Ashutosh Ranjan, Vivek Srivastava, Savita Bhat, Shirish KarandeDemocratic ICAI 通过结构化角色辩论收集多种竞争性理由,用于从人类偏好中提取自然语言原则。在创意偏好基准 MuCE-Pref 和 LiTBench 上,该方法在多种创意任务类别中提高了偏好预测准确性。与 deliberative prompting 和基于原则的基线相比,Democratic ICAI 产生了更忠实的偏好结构。LLM 标注者更偏好其生成的宪法。论文Democratic ICAIICAIMuCE-PrefLiTBench偏好对齐推荐理由:这篇论文用辩论方式来搞AI对齐,比单次解释更细致,在创意任务上预测偏好更准,搞对齐研究的值得看看。原文
10:14arXiv cs.LG@Phong Dang, Evander Espinoza, Xiaoliang Wan, Michela Negro, Jerry P. Draayer, Feng Pan, Tomas Dytrych, Daniel Langr, David Kekejian这篇论文研究SU(3)和SU(4)对称性是否支配整个核素图的核结合能。作者构建了三种神经网络质量模型:FINN(点预测)、GINN(不确定性量化)和WINN(以Casimir算子为基的质量公式)。训练数据为AME2016,验证于AME2020新增核。SU(4)算子单独使均方根误差(RMSE)相较液滴基线在训练和测试集上降低近一半,在外推上降低约五分之一。WINN达到最低验证RMSE为0.430 MeV,与顶级质量模型竞争力相当。WINN还揭示中子滴线附近SU(4)二次Casimir增强(对称性恢复)和超重区四次算子意外增益。论文SU(3)SU(4)WINN神经网络核质量推荐理由:这篇论文用可解释神经网络从对称性角度预测原子核质量,WINN模型精度0.430 MeV,还揭示了中子滴线和超重区的新现象,值得搞核物理或AI的人看看。原文
10:14arXiv cs.LG@Domagoj Herceg该论文将PAC-Bayesian有限样本保证应用于线性系统的二次轨迹代价控制问题。通过System Level Synthesis参数化显式暴露闭环轨迹映射,使二次代价可证。针对高斯扰动推导了精确单边高斯变换和基于闭环灵敏度的可处理二次上界,并提出了后验局部替代证书。在双积分器数值实验中,该算法作为灵敏度感知的有限样本正则化器,有效降低持有代价和闭环灵敏度。论文PAC-BayesianSystem Level Synthesis闭环控制有限样本保证二次代价推荐理由:想给控制系统加安全证书?这篇用SLS参数化搞定了二次代价,数值实验还比传统方法更稳。原文
10:14arXiv cs.LG@Akshay Bhagwan Sonawane, Sophie Choe, Lakshman Tamil该研究针对资源受限环境中口腔癌早期检测需求,提出混合经典-连续变量(CV)量子分类器。管道结合MobileNetV1特征提取器、PCA降维至16维及含位移、干涉仪和Kerr门的CV-QNN。简化Φ∘D∘U1架构比标准Killoran层减少40-45%可训练参数,并通过降维与编码策略将损失梯度方差提升约58个数量级。四qumode简化CV-QNN仅用18个参数,验证AUC最高,以67%更少参数超越55参数经典基线,达到100%校准测试准确率。结论支持CV光子量子机器学习用于室温、参数高效的医学图像分类,推动边缘量子AI发展。论文Continuous-VariablePhotonic QuantumQuantum Neural Network口腔癌检测边缘AI推荐理由:这篇论文用仅18个参数的室温光量子模型在口腔癌检测上做到100%准确率,参数比经典模型少67%,特别适合边缘设备。原文
10:13arXiv cs.LG@Yuanyuan Wang, Wenjie Wang, Haoxuan Li, Mingming Gong, Kun Zhang精选研究团队在连续时间潜在随机微分方程(SDE)模型中提出了基于环境诱导的扩散协方差偏移的可识别性方法。在共享漂移但环境特定扩散协方差条件下,两个具有成对坐标方差比不同的对角扩散机制可将潜在坐标识别至置换和缩放。该结果首先在线性Ornstein-Uhlenbeck系统中证明,然后推广至一般加性噪声潜SDE。在温和光滑性下,瞬时漂移-雅可比因果图也可识别至相同置换。实验在合成系统和Hardanger大桥监测数据上验证了理论。论文可识别性SDE因果表示学习扩散偏移时间序列推荐理由:这篇论文用扩散偏移解决了连续时间潜变量因果模型的可识别性难题,不需要稀疏性假设,还拿真实桥梁数据做了验证,做时间序列因果推断的值得看看。原文
10:13arXiv cs.LG@Aniq Ur Rahman研究人员在二元逻辑模型中发现,最大化Fisher信息与参数可恢复性的区域同时也是熵最高的区域,导致即使在完美参数恢复下个体预测也固有困难。他们提出一个因果概率框架,用于生成具有瞬态边和已知因果结构的时间图。推导了Cramér-Rao界,验证了参数估计误差与不可减少的预测损失之间的权衡。结果表明,仅靠预测准确性可能无法反映模型是否学习了潜在因果机制。论文时间链接预测因果推断估计-预测权衡二元逻辑模型推荐理由:这篇论文解释了为什么时间链接预测中准确率高不一定代表模型学对了因果关系,还给出了数学上的权衡证明。原文
10:13arXiv cs.LG@Gift Modekwe, Qiugang Lu本研究提出一种迁移学习框架,用于基于单粒子模型含电解质(SPMe)的物理信息神经网络(PINN)训练。模型首先在通用电化学动力学数据上预训练,然后通过权重迁移、冻结部分层并微调剩余参数适配目标电池。使用PyBaMM验证表明,该方法能准确预测电压,保持电化学一致性。相比从头训练,迁移学习显著减少训练时间,实现跨电池高效泛化。论文PINNSPMePyBaMM锂离子电池迁移学习推荐理由:这篇论文讲怎么用迁移学习加速电池PINN模型训练,能跨电池用,省时间还准,做电池仿真的可以看看。原文
10:12IT之家(博客/媒体)76°高德正在内测一款名为“袋马”的 Vibe Coding 产品,用户通过自然语言描述功能即可生成微信小程序或 iOS 原生应用。该产品无需专业编程知识或开发环境,能快速生成可直接上线的 App。主要面向无研发团队的个人从业者与中小主体,降低应用开发门槛。生成后可获取真机体验二维码,在微信端测试,并通过自然语言提出修改需求由 AI 迭代。高德暂未公布“袋马”的上线时间与商业化细节。AI产品高德袋马Vibe Coding微信小程序iOS原生App自然语言编程推荐理由:高德出了一个叫“袋马”的产品,用自然语言就能生成微信小程序和 iOS App,不会写代码也能做应用,适合小团队和个人尝尝鲜。原文
10:12arXiv cs.LG@Jack Geary, Boyan Gao, Henry Gouk该论文提出一种利用拉格朗日对偶性近似策略分类中最佳响应的方法,将策略行为重构为约束优化问题,使得一阶优化方法可直接适用。在线性分类器上能复现封闭解,并自然扩展到非线性分类器。作者进一步结合隐函数定理,在分类器训练中计算损失的全梯度,从而将模型参数与策略行为直接关联。在多个常见机器学习数据集上,新方法训练出的模型显著提升了策略准确率(strategic accuracy)。论文Strategic Classification拉格朗日对偶隐函数定理非线性分类器机器学习推荐理由:这篇论文解决了非线性策略分类的计算难题,用拉格朗日对偶和隐函数定理做出了实用算法,比线性方法更准,值得做对抗性机器学习的人看。原文
10:12arXiv cs.LG@David Steinmann, Antonia Wüst, Kristian Kersting, Wolfgang StammerCOCOLogic-V2 是一个面向现实图像的对象中心数据集,覆盖一阶逻辑的广泛子集,用于视觉归纳推理评估。它将样本分为正变体、近边界和远边界负例三类,实现对模型可解释性的细粒度诊断。实验表明,模型能很好区分正样本和远边界负例,但在近边界负例上表现失败。此外,感知噪声和大规则搜索空间在少样本场景下构成额外挑战。该数据集为推进视觉归纳推理提供了具体基础。论文COCOLogic-V2推理模型视觉理解逻辑推理可解释性推荐理由:COCOLogic-V2 这个新数据集专测视觉推理,正反例分类特别细,模型在近边界上直接翻车,做可解释 AI 的可以看看。原文
10:11arXiv cs.AI@Dihong Huang, Zhenyu Wei, Zhuxiu Xu, Yunchao Yao, Sikai Li, Mingyu DingDexCompose提出一种角色感知残差组合框架,通过显式手指级动作所有权解决多任务操作中的动作冲突。在16个复合任务(4项物体保持技能与4项下游交互)上测试,平均复合成功率达77.4%。该方法训练两个不对称残差模块:一个用于维持已有技能状态,另一个在新任务分配的子空间中调整下游策略。结果表明,结构化动作所有权与双重残差是超越传统策略链的灵巧技能组合方向。论文DexCompose灵巧操作多任务机器人策略重用推荐理由:想用一只机械手同时完成多个操作任务?DexCompose通过手指级分工和残差模块,在16项任务中达到77.4%成功率,解决了策略冲突问题。原文
10:11arXiv cs.AI@Luis Leal精选这篇论文研究双人零和博弈中纳什均衡的算法依赖性选择。在六个可精确求解的博弈(包括二维纳什多面体和Kuhn扑克)中,R-NaD和磁镜下降等正则化最后迭代方法总是选择最大熵成员(在二维多面体上精确,在Kuhn中达到99.7%最大熵)。而CFR、CFR+和虚拟博弈等遗憾平均方法则漂移到低熵面。在180个随机博弈的实验中,R-NaD在100%收敛的博弈中达到最大熵,而CFR+在94%的博弈中严格低于该值(配对Wilcoxon p<10^-27)。论文还报告了两个否定结果:去除CFR的投影未消除边界漂移;R-NaD的选择依赖初始锚点。论文R-NaDCFR+纳什均衡博弈论多智能体系统推荐理由:这篇论文用严格实验告诉你:不同博弈算法选出的纳什均衡不一样,R-NaD倾向最大熵,CFR+倾向低熵,这会影响你对付弱对手的鲁棒性。原文