16:36Pandaily@contact@pandaily.com (Pandaily)76°北京大学与DeepSeek联合开源了投机解码框架DSpark,该框架无需修改模型即可将LLM推理速度提升60-85%。在严格延迟约束下,吞吐量增益最高达661%。DSpark通过高效的投机解码策略显著降低推理延迟。这一成果已在GitHub上开源。AI模型Peking UniversityDeepSeekDSparkLLM推理优化推荐理由:北大和DeepSeek搞的DSpark,不用改模型就能让推理快80%,吞吐量翻好几倍,适合做部署的试试。原文
18:31Decoder@Maximilian SchreinerMeta计划到2025年用大语言模型取代约一半的人工审核请求,对某些类型内容,年底前这一比例将超过90%。公司内部员工对此快速部署表达担忧,认为可能增加误判和内容风险。该策略旨在降低人工审核成本,但引发对安全性和可靠性的质疑。行业Meta内容审核员工警告LLMAI安全推荐理由:Meta要用AI替代大半人工审核,员工都觉得太快了,看看他们担心什么原文
02:54Simon Willison’s Weblog(博客/媒体)Tom MacWright 观察到近期不少求职者的简历、作品集及GitHub项目完全由LLM生成,包括commit消息。他认为这些材料缺乏个人真实信息,无法展现求职者的实际能力。这种泛化、机器生成的简历显得空洞且无从判断。MacWright 指出,这样的求职方式反而掩盖了候选人的真实特质。行业Tom MacWrightAI求职LLM简历GitHub推荐理由:Tom MacWright 指出用LLM写简历和GitHub项目只会让HR觉得你不真实。求职千万别这么干。原文
02:52Cloudflare Blog@Grant Bourzikas精选Cloudflare博客详解其多阶段漏洞发现工具的技术架构,包括状态控制机制、通过对抗性审查将误报率降低90%的方法,以及如何绕过LLM上下文长度限制(如4k token限制)。该工具实现自动化分类,每日可处理超过10万条告警。文章还公开了其基于GPT-4的分阶段提示词模板和缓存策略。技巧Cloudflare漏洞检测自动化LLM推荐理由:Cloudflare公开了他们内部用的漏洞检测工具怎么做,从状态管理到对抗审查都讲了,想自己搭自动化安全工具的可以抄作业。原文
03:07GitHub Blog@Natalie Guevara精选GitHub 博客介绍了如何通过上下文感知的 LLM 推理来改进秘密扫描的验证步骤,从而大规模减少误报。这一改进使得安全警报更加可信和可操作,降低了开发者的噪音负担。通过利用 LLM 理解代码上下文,GitHub 能够更准确地识别真正的秘密,避免对非敏感信息的误报。这对于依赖 GitHub 进行代码托管和 CI/CD 的团队来说,是一个重要的安全增强。AI产品GitHub秘密扫描LLM误报安全推荐理由:GitHub 用 LLM 解决了秘密扫描的误报痛点,做安全运维或使用 GitHub 的开发者可以直接减少噪音,提升警报可信度。原文
22:33Hugging Face: Blog(博客/媒体)精选IBM研究指出,当前企业AI采用率低的关键原因在于过度关注大型语言模型(LLM)本身,而忽视了智能体逻辑(Agent Logic)的重要性。智能体逻辑包括任务分解、工具调用、状态管理和错误处理等结构化流程,这些才是实现可靠、可扩展企业AI应用的核心。文章提出,企业应构建基于智能体逻辑的架构,而非单纯追求更强大的LLM,以实现AI的规模化落地。行业企业AI智能体逻辑LLMAI架构IBM推荐理由:企业AI团队常陷入“换更大模型”的误区,IBM这篇分析点出了真正瓶颈——智能体逻辑。做企业AI落地的架构师和决策者值得一读,能帮你重新思考技术选型方向。原文
11:17pandaily@contact@pandaily.com (Pandaily)卡内基梅隆大学和马里兰大学的研究人员发现,大型语言模型(LLM)在模拟“睡眠”机制后,能够更好地整合长上下文信息,从而提升复杂推理任务的性能。该研究通过让模型在训练或推理过程中插入类似睡眠的“巩固”阶段,有效减少了信息遗忘,并增强了模型对长文本的理解能力。这一发现为优化LLM的长期记忆和推理能力提供了新思路,可能对需要处理大量上下文的应用场景产生重要影响。论文LLM推理模型长上下文睡眠机制CMU推荐理由:做LLM推理优化或长上下文应用的团队值得关注——这项研究用“睡眠”机制解决了模型信息遗忘的痛点,直接提升复杂推理表现,建议点开看看具体实现。原文
08:48IT之家(博客/媒体)精选三星电子宣布向全球主要客户交付业界首批 12 层 HBM4E 样品,这是高带宽内存领域的重要进展。HBM4E 提供 14Gbps 引脚速度并可扩展至 16Gbps,带宽达 3.6 TB/s,相比 HBM4 提升 20%。它结合 1c nm DRAM 和 4nm 逻辑裸晶,能效提升 16%,热阻改进 14%。单堆栈容量 48GB,未来还将推出 8Hi 32GB 和 16Hi 64GB 版本。三星计划根据客户进度开始批量生产,这将加速 LLM 和下一代 AI 系统的性能提升。行业三星HBM4E高带宽内存AI 算力LLM推荐理由:HBM4E 是 AI 算力的关键瓶颈突破,做大规模模型训练和推理的团队值得关注——带宽提升 20% 直接缩短训练时间,能效改进还能降低数据中心成本。原文
13:33marktechpost@Asif Razzaq精选来自新加坡国立大学、MIT和A*STAR的研究人员提出了MEMO框架,该框架将语料库知识编码到一个独立的可训练记忆模型中,无需修改大语言模型(LLM)的参数。MEMO通过模块化设计,让LLM能够动态访问外部记忆,从而高效学习新知识,同时保持原有模型能力不变。这一方法解决了LLM在持续学习中的灾难性遗忘问题,并降低了更新成本。实验表明,MEMO在知识注入任务上表现优异,且不影响模型原有性能。论文记忆模型模块化框架持续学习LLM知识注入推荐理由:MEMO解决了LLM持续学习中的核心痛点——无需重训模型就能注入新知识,做知识密集型应用(如问答、检索增强生成)的团队可以直接参考,值得关注。原文
17:57Decoder@Matthias Bastian精选著名程序员 George Hotz 在测试 AI 编程智能体六个月后发出警告,认为它们将成为软件开发行业最昂贵的错误之一。他指出,LLM 能快速生成原型,但在细节上漏洞百出,产生的错误越来越难以发现。这一观点反映了 AI 社区在 LLM 角色问题上存在的深刻分歧。Hotz 的批评提醒开发者,在依赖 AI 编程工具时需谨慎评估其长期影响。行业AI 编程智能体LLM软件开发George Hotz推荐理由:Hotz 的警告戳中了 AI 编程工具的痛点——快速原型掩盖了难以调试的细节错误,做软件开发的团队在引入 AI 智能体前值得认真读一读。原文
08:01Simon Willison’s Weblog(博客/媒体)Mike Veerman 开发了一个 HTML 应用,模拟从 5 到 800 tokens/s 的 LLM 输出速度,帮助用户直观感受不同 token 速率下的文本生成效果。当看到模型宣传“30 tokens/s”时,可以用这个工具快速理解实际体验。该工具通过 Hacker News 传播,对评估和比较不同 LLM 的响应速度很有帮助。AI产品LLMtoken 速率可视化工具模型评估开源推荐理由:选模型时经常被 token 速率数字搞晕?这个工具让你直接看到不同速度下的文本生成效果,做模型选型或写提示词优化的开发者值得一试。原文
08:00Simon Willison’s Weblog(博客/媒体)精选datasette-llm 0.1a8 版本发布,主要修复了 llm_prompt_context() 钩子未能完整收集链式响应的 Bug。该问题影响使用 LLM 链式调用场景的用户,导致上下文信息丢失。此次更新确保了链式响应能被正确聚合,提升了数据完整性和可靠性。对于依赖 datasette 进行 LLM 交互的开发者来说,这是一个关键修复。AI产品datasetteLLMBug修复链式调用工具更新推荐理由:如果你在用 datasette 做 LLM 链式调用,这个修复能避免上下文丢失导致的错误输出,建议升级。原文
08:00Simon Willison’s Weblog(博客/媒体)datasette-llm-accountant 是一个用于追踪 LLM API 调用成本的 Datasette 插件。最新 0.1a4 版本修复了追踪响应链时的一个 bug,该 bug 影响了对连续对话或链式调用的成本统计准确性。此更新确保用户能正确核算多轮交互的 token 消耗和费用。对于依赖 Datasette 管理 LLM 使用成本的团队,这是一个重要的修复。AI产品LLMDatasette成本追踪插件bug修复推荐理由:用 Datasette 管理 LLM 成本的用户终于不用被链式调用的账单搞糊涂了——这个修复让多轮对话的费用统计更准确,建议升级。原文
08:00Simon Willison’s Weblog(博客/媒体)76°llm-gemini 插件更新至 0.32 版本,新增了对 Gemini 3.5 Flash 模型的支持。该模型是 Google 最新推出的轻量级模型,旨在提供更快的推理速度和更低的成本。作者还分享了使用该模型绘制鹈鹕的示例,展示了其生成能力。对于使用 LLM 命令行工具的用户,这次更新意味着可以更方便地调用 Gemini 3.5 Flash 进行文本生成和创意任务。AI产品GeminiLLM模型更新命令行工具Google推荐理由:LLM 命令行用户可以直接升级体验 Gemini 3.5 Flash 的快速推理,做创意生成或快速原型验证的开发者值得一试。原文
08:22Simon Willison’s Weblog(博客/媒体)精选llm-gemini 0.32a0 版本发布,与 llm>=0.32a0 alpha 兼容。新版本增加了流式传输推理令牌的能力,让用户能实时看到模型的思考过程。这对于需要理解模型推理逻辑的开发者来说是一个重要更新。该版本主要面向使用 Gemini 模型的 LLM 命令行工具用户。AI产品GeminiLLM流式推理命令行工具推理令牌推荐理由:流式推理令牌让开发者能实时观察模型思考过程,做 AI 调试或教学演示的团队可以直接升级体验。原文
10:49Simon Willison’s Weblog(博客/媒体)精选Simon Willison 在 PyCon US 2026 上用五分钟闪电演讲总结了 LLM 领域过去六个月的发展。他重点介绍了 2025 年 11 月的“拐点”,当时最佳模型在三大提供商间易手五次,最终 Claude Opus 4.5 胜出。更关键的是,编码代理从“偶尔可用”跨越到“日常可用”,显著减少了人工修复错误的时间。他还分享了个人项目 micro-javascript,一个用 Python 实现的 JavaScript 解释器,展示了多语言嵌套运行的技术趣味。演讲通过“鹈鹕骑自行车”SVG 测试直观对比模型能力,强调编码代理的进步是最大亮点。行业LLM编码代理模型对比PyConSimon Willison推荐理由:Simon 用五分钟讲清了 LLM 过去半年的关键转折——编码代理从玩具变成生产力工具,做 AI 开发或重度使用编程助手的团队值得花五分钟了解这个趋势,看完会对模型选择和工具策略有更清晰的判断。原文
11:40Simon Willison’s Weblog(博客/媒体)Simon Willison 发布了 datasette-llm-limits 0.1a0 插件,与 datasette-llm 和 datasette-llm-accountant 配合使用,可为 Datasette 中的 LLM 调用设置按用户或全局的每日消费限额。配置示例显示,可以设置每个用户每天 1 美元的滚动 24 小时预算。这解决了多用户场景下 LLM 费用失控的问题,让 Datasette 管理员能精细控制 AI 功能的使用成本。AI产品DatasetteLLM插件/工具成本控制预算管理推荐理由:做 Datasette 数据应用的管理员终于能控制 LLM 调用成本了——按用户设每日预算,防止 AI 查询烧光 API 额度,值得一试。原文
21:36Simon Willison’s Weblog(博客/媒体)Simon Willison 分享了一个技巧:在脚本的 shebang 行中直接调用 LLM,让自然语言文本文件像可执行脚本一样运行。最简单的用法是 `#!/usr/bin/env -S llm -f`,后面跟自然语言指令即可生成内容(如 SVG)。还可以通过 `-T` 选项调用工具(如获取当前时间写俳句),甚至嵌入 YAML 模板定义 Python 函数作为工具,实现复杂计算。这个模式让 AI 模型无缝融入 Unix 脚本生态,开发者可以直接用自然语言编写可执行脚本。技巧LLMshebang脚本技巧自然语言编程工具调用推荐理由:这个技巧把 LLM 变成了 Unix 脚本的一等公民,做自动化或 CLI 工具的开发者可以直接用自然语言写可执行脚本,省去解析参数的麻烦。原文
21:36Simon Willison’s Weblog(博客/媒体)LLM 命令行工具发布 0.32a2 版本,核心更新是支持 OpenAI 最新的 /v1/responses 端点,替代旧的 /v1/chat/completions。这意味着 GPT-5 等推理模型可以在工具调用时展示推理过程,用户运行提示时能看到彩色推理 token。新增 -R 或 --hide-reasoning 参数可隐藏推理输出。该版本还包含其他多项改进,适合使用 LLM 与 OpenAI 模型交互的开发者。AI产品LLMOpenAI推理模型命令行工具GPT-52 个信源在谈推荐理由:LLM 用户终于能直观看到 GPT-5 等模型的推理过程了,做 AI 工具链和命令行调用的开发者值得升级体验。原文