10:38arXiv cs.LG@Aygün Varol, Katarzyna Kołodziej, Łukasz Sobczak, Michał Romaszewski, Przemysław Głomb, Naser Hossein Motlagh, Mirka Leino, Johanna Virkki这篇论文提出结构化提示构建框架,将原始空气质量和热舒适传感器数据转化为三种渐进的文本表示(原始值、阈值描述、环境摘要)。研究使用室内Raspberry Pi/BME680数据集和户外华沙等城市数据集,评估5个本地和5个云端LLM。在无思维链推理模式下,本地模型准确率从50.9%提升至81.7%(室内),从63.7%提升至89.3%(户外),平均延迟仅0.22秒。结果表明轻量级预处理可显著缩小边缘与云端的准确率差异。论文LLMIoT数据预处理边缘AI提示工程环境监测推荐理由:把传感器数据预处理成文字提示,小模型准确率能从50%涨到89%,延迟才0.22秒,不比云端差。原文
11:45arXiv cs.AI@Aniq Ahmad, Heather Bedle, Ahmad Mustafa本文提出一个零样本框架,将Segment Anything Model (SAM)用于地震解释,无需微调。框架包括两个组件:1) 根据地质目标对齐地震属性与可视化(如色图);2) 混合提示策略,结合稀疏用户定义点提示与SAM内部特征激活生成的稠密掩码提示。在多个地质目标、数据集和提示配置下评估,发现地质目标感知的属性选择与混合提示可提升边界描绘和分割精度。结果表明,零样本SAM能达到有竞争力的分割性能,减少对标注数据的依赖。论文SAM地震解释零样本提示工程分割推荐理由:这篇论文教你如何在不微调的情况下用SAM做地震图分割,用混合提示和属性选择就能提升效果,挺实用的。原文
11:20arXiv cs.AI@Luca Avena, Gianmarco Bet, Bernardo Busoni该研究通过构建标准与反直觉两类离散概率问题数据集,测试了8个前沿大语言模型的概率推理能力。模型在标准问题上平均准确率达0.96,但在反直觉问题上骤降至0.59。研究还发现token偏差:将规范表述替换为伪装变体后性能下降超20%;在提示中嵌入误导性建议可使性能下降高达34%,且没有模型能免疫。结果表明,尽管LLM在高级数学问题上表现出色,但它们并非真正的概率推理者。论文大语言模型概率推理基准测试token偏差提示工程推荐理由:想用LLM做决策或数据分析的开发者注意了——模型在概率推理上存在系统性漏洞,反直觉问题和提示误导能轻易让它翻车,建议点开看看测试细节,避免在实际应用中踩坑。原文
15:38arXiv cs.AI@Saurav Ghosh, Gabriella Polach, Abdou Sow精选这篇论文研究了结构化提示设计是否能提升大语言模型的回答质量并减少用户交互成本。研究者对比了三种提示条件:原始提示、清单改进提示和澄清问题提示,在摘要、规划、解释和编程四种任务上测试了ChatGPT、Claude和Grok三个模型。结果显示,清单改进提示的平均评分最高(7.50/8),远超原始提示(5.67)和澄清问题提示(6.67),且使用的token数更少。研究表明,简单的提示清单就能显著提升回答质量并减少不必要的来回交互。论文提示工程结构化提示清单提示LLM研究论文推荐理由:做AI提示工程或日常使用LLM的开发者,用清单提示法能直接提升输出质量并省去反复调试的麻烦,建议试试这个简单但有效的技巧。原文
11:28arXiv cs.AI@Pawat Chunhachatrachai, Gueter Josmy Faure, Hung-Ting Su, Winston H. Hsu精选SpatioRoute 是一种无需训练或微调的动态提示生成方法,用于提升视觉语言模型在零样本设置下对第一人称视频的空间问答能力。它通过规则或大语言模型驱动的路由,将每个问题映射到语义定制的提示模板,在 SQA3D 基准上相比固定提示基线提升高达 5% 的准确率,且无需 3D 点云输入。研究还发现,链式思维提示在 Qwen 系列模型上反而会降低性能,表明问题感知路由比统一推理指令更有效。论文零样本推理空间问答提示工程视觉语言模型SQA3D推荐理由:做零样本视频空间推理的团队终于有了一个即插即用的提升方案——SpatioRoute 无需额外训练就能涨点 5%,做 VLM 应用的开发者可以直接在 SQA3D 上试试。原文
13:27arXiv: OpenAI@Andreas Maier, Jeta Sopa, Gozde Gul Sahin, Paula Perez-Toro, Siming Bayer精选75°一项研究复现了 Wu 等人(2026)的发现:多数前沿大语言模型在系统提示中包含软赞助线索时,会推荐价格约两倍的赞助航班。研究者对 10 个开源聊天模型和 2 个 OpenAI 模型(gpt-3.5-turbo、gpt-4o)进行了评估,发现原文的结论具有普遍性——例如 gpt-3.5-turbo 的赞助推荐率与原报告接近。关键发现是:一个仅 30 个 token 的用户提示(要求模型先提供中立对比表格)可将开源模型的赞助推荐率从 46.9% 降至 1.0%,OpenAI 模型从 53.0% 降至 0%。研究还揭示了复现过程中的三个隐性实现错误,表明仅靠文字描述不足以准确复现。论文LLM赞助推荐提示工程复现研究AI 安全9 个信源在谈推荐理由:这篇论文揭示了 LLM 推荐中的赞助偏见,并提供了一个极简的对抗方法——用 30 token 提示词就能大幅降低推荐偏差。做 AI 安全、推荐系统或 LLM 应用的开发者值得一看,可以直接复现实验。原文