arXiv cs.AI@Yoshia Abe, Tatsuya Daikoku, Yasuo Kuniyoshi精选73该研究提出了一种结合深度学习与大型语言模型(LLM)的系统,用于个性化图像审美评估。系统通过LLM进行半结构化访谈主动收集用户的审美偏好,并提取图像的高层语义特征与低层特征进行预测。实验表明,该系统在预测个体审美评价上优于传统模型、人类预测者,甚至目标个体自身的重新评估。尤其在高评分图像上表现突出,且预测误差小于个体自身的时间波动。研究暗示AI可能比他人或未来的自己更能捕捉特定时刻的个体审美偏好,引发AI能否成为比人类更深刻审美解释者的新问题。论文LLM图像审美评估个性化推荐深度学习语义特征推荐理由:这项研究解决了AI审美评估中主观性强的痛点,做个性化推荐、图像编辑或用户体验优化的团队值得关注——它用LLM访谈替代了传统问卷,效果甚至超过本人复评,建议点开看看实验设计。
Andrew Ng@AndrewYNg53Andrew Ng 推出新课程《Transformers in Practice》,与 AMD 合作,由 Sharon Zhou 主讲。课程提供基于 Transformer 的 LLM 的实用视角,帮助理解其行为、诊断推理缓慢等问题,并做出更明智的部署决策。课程包含交互式可视化,而非纯视频,让学员动手探索概念。学员将掌握 LLM 幻觉原因、注意力机制、推理瓶颈诊断及 GPU 加速技术。AI模型TransformerLLM课程推理优化AMD推荐理由:想真正理解 LLM 内部机制、诊断推理问题的开发者,这门课能帮你从黑盒用户变成懂原理的实践者,建议直接报名。
Andrej Karpathy@karpathy精选67Karpathy 在 Sequoia Ascent 2026 炉边谈话中分享了三个核心主题。首先,LLM 远不止是加速现有工作(如编程),他举了三个新例子:menugen 应用完全由 LLM 驱动无需传统代码、用 .md 技能替代 .sh 脚本安装软件、以及基于 LLM 的知识库处理非结构化数据。其次,他深入解释了 LLM 的“锯齿状能力”模式——为何同一个模型既能重构十万行代码,又会建议你去洗车——这源于领域可验证性和经济因素(收入/TAM 决定训练数据分布)。最后,他展望了智能体原生经济,包括产品服务分解为传感器、执行器和逻辑,以及如何让信息对 LLM 更可读,并暗示了全神经计算的未来。行业LLM智能体Karpathy智能体原生经济能力边界推荐理由:Karpathy 把 LLM 的“锯齿状能力”和智能体原生经济讲透了,做 AI 产品、搞智能体开发的团队看完会对能力边界和落地方向有全新认知,值得点开细品。
Andrej Karpathy@karpathy精选40AI 研究员 Andrej Karpathy 在 X 上分享了一个实用技巧:在对话结束时让 LLM 将回答结构化为 HTML,然后在浏览器中查看生成的文件。他认为,音频是人类偏好的输入方式,而视觉(图像/动画/视频)是偏好的输出方式。他预测 AI 输出将从纯文本、Markdown 向 HTML 演进,最终走向交互式神经视频/模拟。他还指出,输入方面需要增加指向/手势等交互方式。目前阶段,他建议尝试让 LLM 输出 HTML 以提升信息接收效率。技巧LLMHTML视觉输出交互Karpathy推荐理由:Karpathy 的这个技巧让 AI 输出从枯燥文本变成可视化页面,做演示、写文档或做数据分析的团队可以直接用,省去手动排版时间。
arXiv: OpenAI@Andreas Maier, Jeta Sopa, Gozde Gul Sahin, Paula Perez-Toro, Siming Bayer精选75一项研究复现了 Wu 等人(2026)的发现:多数前沿大语言模型在系统提示中包含软赞助线索时,会推荐价格约两倍的赞助航班。研究者对 10 个开源聊天模型和 2 个 OpenAI 模型(gpt-3.5-turbo、gpt-4o)进行了评估,发现原文的结论具有普遍性——例如 gpt-3.5-turbo 的赞助推荐率与原报告接近。关键发现是:一个仅 30 个 token 的用户提示(要求模型先提供中立对比表格)可将开源模型的赞助推荐率从 46.9% 降至 1.0%,OpenAI 模型从 53.0% 降至 0%。研究还揭示了复现过程中的三个隐性实现错误,表明仅靠文字描述不足以准确复现。论文LLM赞助推荐提示工程复现研究AI 安全推荐理由:这篇论文揭示了 LLM 推荐中的赞助偏见,并提供了一个极简的对抗方法——用 30 token 提示词就能大幅降低推荐偏差。做 AI 安全、推荐系统或 LLM 应用的开发者值得一看,可以直接复现实验。
arXiv cs.AI@Or Ordentlich, Yury Polyanskiy精选55本文是量化矩阵乘法研究的第二部分,探讨在第二因子列协方差矩阵已知时的量化策略,该场景常见于大语言模型的权重量化后训练。作者展示了经典的水填充法(waterfilling)如何改进现有LLM量化算法(如GPTQ),后者目前均匀分配比特率。分析表明,仅使用标量INT量化器的WaterSIC方案在高率下性能与信息论极限相差仅0.25比特/条目,且不受随机旋转影响。而GPTQ在随机旋转下与WaterSIC差距在0.1比特以内,表明其在高率下也接近最优。论文量化LLM水填充法GPTQ权重量化推荐理由:做LLM量化的开发者终于有了理论指导——水填充法比均匀分配更优,GPTQ加随机旋转就能接近极限,建议做权重量化的团队点开看看具体实现。
arXiv cs.AI@Mohammad Reza Mousavi精选45一项新研究测试了 Gemini-3、GPT-5.4 和 Qwen-3.6 三个大模型对高级消息序列图(HMSC)语义的理解能力。HMSC 是 UML 序列图的基础,具有严格的形式语义。研究设计了 129 个语义任务,涵盖基本语义查询、抽象与组合、迹与标签转移系统计算。结果显示,LLM 整体准确率仅约 52%,其中基本语义理解较好(88%),但抽象与组合任务(36%)和迹与 LTS 任务(42%)表现很差。所有模型都未能理解共区域和显式因果依赖等概念。这表明 LLM 在形式化软件工程任务上仍有显著局限。论文LLM形式语义软件工程UML序列图推荐理由:做形式化方法或软件建模的开发者会发现,LLM 对 UML 序列图语义的理解远不如预期,依赖 LLM 生成设计文档时需谨慎验证。
arXiv cs.LG@Deepak Pandita, Flip Korn, Chris Welty, Christopher M. Homan精选50生成式AI模型(如LLM)的普及使系统安全性和可信度评估变得至关重要,但当前AI领域面临可重复性危机,主要源于不可靠的评估和不可重复的实验结果。人类评估者引入的偏见和主观意见加剧了这一问题,而现有评估实践通常每个项目仅使用3-5个标注,且缺乏持久评估者标识。该研究提出一种多级自助法(bootstrapping)来建模标注者行为,利用大量标注数据和持久评估者标识,分析项目数量(N)与每个项目响应数(K)之间的权衡,以达成统计显著性。这项工作为改进评估可重复性提供了方法论基础。论文可重复性评估方法标注者偏差统计建模LLM推荐理由:做AI评估和模型安全测试的团队,终于有了量化标注者偏差的方法论——多级建模直接告诉你需要多少标注才能得到可靠结论,建议做实验设计的点开看看。
Simon Willison’s Weblog(博客/媒体)40Simon Willison 分享了一个技巧:在脚本的 shebang 行中直接调用 LLM,让自然语言文本文件像可执行脚本一样运行。最简单的用法是 `#!/usr/bin/env -S llm -f`,后面跟自然语言指令即可生成内容(如 SVG)。还可以通过 `-T` 选项调用工具(如获取当前时间写俳句),甚至嵌入 YAML 模板定义 Python 函数作为工具,实现复杂计算。这个模式让 AI 模型无缝融入 Unix 脚本生态,开发者可以直接用自然语言编写可执行脚本。技巧LLMshebang脚本技巧自然语言编程工具调用推荐理由:这个技巧把 LLM 变成了 Unix 脚本的一等公民,做自动化或 CLI 工具的开发者可以直接用自然语言写可执行脚本,省去解析参数的麻烦。
Simon Willison’s Weblog(博客/媒体)40LLM 命令行工具发布 0.32a2 版本,核心更新是支持 OpenAI 最新的 /v1/responses 端点,替代旧的 /v1/chat/completions。这意味着 GPT-5 等推理模型可以在工具调用时展示推理过程,用户运行提示时能看到彩色推理 token。新增 -R 或 --hide-reasoning 参数可隐藏推理输出。该版本还包含其他多项改进,适合使用 LLM 与 OpenAI 模型交互的开发者。AI产品LLMOpenAI推理模型命令行工具GPT-5推荐理由:LLM 用户终于能直观看到 GPT-5 等模型的推理过程了,做 AI 工具链和命令行调用的开发者值得升级体验。
Anthropic: Research(资讯)70Anthropic 发布了一项新研究,提出利用大型语言模型(LLM)作为自动化对齐研究者,以解决 AI 对齐中的可扩展监督问题。该方法通过让 LLM 自动生成和测试对齐假设,减少对人类研究者的依赖,从而加速对齐研究进程。实验表明,自动化对齐研究者能够发现一些人类可能忽略的漏洞,并生成有效的对齐策略。这项研究为未来更安全的 AI 系统开发提供了新思路,尤其适用于需要大规模监督的复杂场景。论文AnthropicAI 对齐可扩展监督自动化研究LLM推荐理由:Anthropic 用 LLM 自动化对齐研究,解决了可扩展监督的人力瓶颈,做 AI 安全和对齐的团队值得关注,可以直接参考其方法加速自己的研究。
arXiv cs.AI@Yuxiao Yang, Xiaoyun Wang, Weitong Zhang精选65本文研究了在线策略自蒸馏(OPSD)方法,即语言模型通过在其自身生成的轨迹上蒸馏特权教师分布来提升推理能力。作者发现OPSD存在一个常见但常被忽视的问题:教师响应中的自我反思偏差和模板会导致token级监督校准错误。为此,他们提出OGLS-SD框架,利用可验证的结果奖励对比成功与失败的在线轨迹,并通过logit引导校准教师logits。该方法结合结果级正确性与密集的token级引导,在多个基准上稳定了自蒸馏过程并提升了推理性能。论文自蒸馏推理模型logit校准结果引导LLM推荐理由:如果你在做LLM推理优化或自蒸馏训练,OGLS-SD解决了教师-学生分布不匹配的痛点,用结果奖励校准logits的思路直接可复用,值得仔细看方法细节。
arXiv cs.AI@Haoyu Wang, Yuliang Song, Tao Li, Zhiwei Deng, Yaqing Wang, Deepak Ramachandran, Eldan Cohen, Dan Roth精选60该研究提出CP-SynC-XL基准(100个组合问题,4577个实例),评估三种求解器构建范式:原生Python算法搜索、Python+OR-Tools约束建模、MiniZinc+OR-Tools声明式建模。结果显示,Python+OR-Tools正确率最高,而原生Python易产生格式正确但验证失败的方案。提示模型进行搜索优化仅带来1.03-1.12倍的中位加速,但许多实例反而变慢,且正确率在长尾问题上显著下降。代码审计发现,优化提示会导致模型用局部近似替代完整搜索、注入未验证的边界或添加冗余声明式机制,陷入“启发式陷阱”。研究建议:LLM应主要用于形式化变量、约束和目标,而搜索优化需单独验证。论文LLM组合优化求解器约束建模启发式陷阱推荐理由:做组合优化或约束求解的开发者,这篇论文用实验数据告诉你为什么别让LLM碰搜索优化——它可能让你的求解器变慢还出错。建议读读,避免踩坑。
arXiv: DeepSeek@Ali Karakoc, H. Birkan Yilmaz精选65该论文提出两种基于大语言模型(LLM)的对抗性SQL注入生成系统:RADAGAS(检索增强生成)和RefleXQLi(反思链式推理),用于自动化测试Web应用防火墙(WAF)的防御能力。研究使用GPT-4o、Claude 3.7 Sonnet和DeepSeek R1,在10种WAF(包括规则型、AI/ML型和商业型)上进行了240次实验,生成了24万个payload并执行了220万次测试。结果显示,RADAGAS-GPT4o以22.73%的绕过率领先基线模型,对AI/ML型WAF(如WAF-Brain和CNN-WAF)的绕过率高达92.49%和80.48%,但对规则型WAF(如ModSecurity和Coraza)的绕过率仅0-5.70%。研究还发现,多样性较低的payload更容易绕过,但若初始payload失败则效果不佳。这项工作为安全测试中LLM的应用提供了全面视角。论文SQL注入LLM对抗性攻击WAF绕过安全测试推荐理由:安全工程师和渗透测试人员可以借鉴RADAGAS和RefleXQLi的思路,自动化生成对抗性SQL注入payload来评估自家WAF的盲区,尤其是AI/ML型WAF的脆弱点值得重点关注。
arXiv: DeepSeek@Erfan Loweimi, Sofia de la Fuente Garcia, Saturnino Luz精选60研究团队利用大语言模型(LLM)从自发语音中零样本预测Ryff心理幸福感(PWB)分数。基于PsyVoiD数据库中111名参与者的几分钟语音录音,评估了12种指令微调LLM(包括Llama-3、Ministral、Mistral、Gemma-2/3、Phi-4、DeepSeek和QwQ-Preview)。与临床心理学和语言学专家合作开发了领域提示词。结果显示,LLM能从语音中提取语义线索,在80%的数据上达到最高0.8的Spearman相关性。研究还通过统计分析解释预测变异性和偏差,并用词云突出驱动预测的语言特征。论文LLM心理幸福感语音分析零样本预测临床心理学推荐理由:这项研究为心理健康评估提供了非侵入式新方法——用几分钟语音就能预测幸福感,做临床心理学或语音分析的团队值得关注,零样本方案降低了部署门槛。
arXiv cs.AI@ Gunjan, Sidahmed Benabderrahmane, Talal Rahwan精选65该研究从计算社会科学视角,构建了包含178万条帖子的配对语料库,覆盖新冠疫情、国会山骚乱、美国大选等9次危机事件。通过比较真实社交媒体话语与LLM生成的合成话语,发现合成话语在情绪、结构、词汇和事件依赖四个维度上表现出“群体级不真实”:情绪更负面且分散度低、结构更规则、词汇更抽象。这种差异在快速演变的去中心化危机中尤为明显,而在制度性事件中较小。研究提出了“漫画差距”指标,认为合成政治话语的主要问题不是语法或流畅度,而是缺乏群体层面的社会真实性。论文LLM政治话语虚假信息计算社会科学群体审计推荐理由:做AI安全、虚假信息检测或计算社会科学的研究者值得关注——这篇论文把LLM生成文本的检测从句子级提升到群体级,提供了可量化的审计框架,建议做内容审核或舆情分析的团队点开看看。
arXiv: DeepSeek@Jinyuan Wang, Ningyuan Deng, Yi Yang精选45大型语言模型(LLM)越来越多地被用于社会科学研究,将非结构化文本转换为可进入实证设计的变量。但研究发现,LLM的置信度与真实正确率严重不匹配,导致基于置信度过滤会扭曲下游回归估计。研究对GPT-5-mini、DeepSeek-V3.2等14个社会科学构念进行审计,发现所有模型都存在校准偏差。作为解决方案,提出软标签蒸馏管道,将LLM得分和置信度转化为软目标分布,训练小型判别分类器,平均降低ECE 43.2%和Brier 34.0%。研究呼吁将校准视为测量有效性的组成部分,而非可选的后期处理。论文LLM社会科学校准置信度软标签蒸馏推荐理由:做社会科学量化分析的团队终于有了校准LLM输出的实操方案——软标签蒸馏能显著降低置信度偏差,建议做文本编码和实证研究的点开看看具体方法。
arXiv cs.LG@Nikita Kezins, Urbas Ekka, Pascal Berrang, Luca Arnaboldi65红队测试在实际中表现良好的护栏分类器无法提供形式化保证,因为“有害行为”缺乏离散输入空间中的自然规范。研究者提出将验证从离散输入空间转移到分类器的预激活空间,通过定义包含已知有害提示表示的有害区域,并利用sigmoid分类头的单调性,能在O(d)时间内给出封闭形式的可靠性证明。该框架应用于三种毒性护栏分类器,所有超矩形配置均返回SAT(即存在安全漏洞),而概率性高斯混合模型证书则揭示了模型表示危害的结构稳定性差异:GPT-2和Llama-3.1-8B保持90%和80%的覆盖率,但BERT的安全保证在最优阈值下覆盖率骤降至55%。这些方法提供了超越传统红队测试的护栏分类器有效性新见解。论文AI安全形式化验证护栏分类器红队测试LLM推荐理由:该研究首次为LLM护栏分类器提供了形式化验证方法,揭示了高经验指标下隐藏的安全漏洞,对AI安全领域具有重要指导意义。
AK@_akhaliq55Soohak是由数学家精心策划的基准测试,旨在评估大型语言模型(LLM)在科研级别数学问题上的能力。该基准涵盖高等数学的多个领域,包括代数、几何、分析等,要求模型不仅具备计算能力,还需展现推理和创新解题能力。这为评估LLM在专业数学研究中的应用潜力提供了更严格的测试标准。论文推理模型LLM数学评测基准测试Soohak推荐理由:Soohak填补了现有数学评测基准在科研深度上的空白,为AI在数学领域的前沿应用提供了更精确的评估工具,有助于推动模型在数学推理和问题解决上的进步。
arXiv cs.AI(学术论文)55本文针对当前AI评估中普遍存在的“苹果与橙子”式比较问题,提出了一种可重复的流程,将高层级AI使用用例转化为详细评估场景。该方法通过结构化的AI用例工作表(包含用例、行业、用户、预期结果、预期影响和关键绩效指标六大要素)从领域专家处获取用例,并结合LLM提示与人工审核的三阶段扩展管线,将用例扩展为107个场景。文中以美国金融服务业为例,展示了网络防御、开发者生产力、金融犯罪聚合等用例的转化过程。核心贡献在于通过人工检查点确保场景的操作基础性和人类中心设计原则,为更一致、有意义的AI评估范式提供支持。论文AI评估方法论金融服务业LLM人类中心设计推荐理由:该研究直面AI评估领域的方法论碎片化问题,提出的结构化流程和人类中心设计原则为业界提供了可操作的标准化评估框架,尤其对金融等高风险行业的AI系统评估具有直接参考价值。
arXiv cs.AI(学术论文)65论文提出PACS(概率常识溯因推理)框架,解决神经符号系统中形式逻辑求解器缺乏常识的问题。传统方法假设常识事实普遍一致,但实际中个体常识存在差异。PACS通过LLM和形式求解器对个体常识信念进行抽样证明,并聚合结论,在多个基准测试中优于思维链、先前神经符号方法和搜索式方法。该工作首次将概率建模引入常识溯因推理,为处理主观常识提供了新思路。论文推理模型常识推理神经符号LLM概率建模推荐理由:通过概率建模处理常识变异,PACS提升了神经符号推理的鲁棒性,对增强LLM在开放世界推理中的常识能力有实际价值。