AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:小语言模型×
6月23日
10:48
10:48arXiv cs.LG@Despina Christou, Grigorios Tsoumakas
论文对比了5个小型语言模型(360M至3B参数)在通用域和文学域关系抽取上的表现。在通用域,Qwen2.5-0.5B经过微调后达到0.83 micro-F1,超过零样本的GPT-5.4(0.69)和Claude Sonnet 4.6(0.66)。在文学域,调优后的SLM在Biographical基准上达0.92,GPT-5.4为0.83,文学均值0.833 vs 0.578。结果表明,任务特定调优的SLM可在单张消费级GPU上部署,提供准确、隐私且硬件高效的关系抽取。
AI模型Qwen2.5-0.5BGPT-5.4Claude Sonnet关系抽取小语言模型

推荐理由:Qwen2.5-0.5B调优后,在关系抽取任务上干掉了GPT-5.4和Claude Sonnet,而且模型很小,单卡就能跑,适合隐私敏感场景。
原文
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
10:46
10:46arXiv: DeepSeek@Sen Xu, Shixi Liu, Wei Wang, Jixin Min, Yingwei Dai, Zhibin Yin, Yirong Chen, Xin Zhou, Junlin Zhang
VibeThinker-3B是一个3B参数的小型稠密模型,基于Spectrum-to-Signal后训练范式,通过课程监督微调、多域强化学习和离线自蒸馏提升。在AIME26上达到94.3分(测试时扩展至97.1),LiveCodeBench v6上Pass@1为80.2,最新LeetCode竞赛接受率96.1%。其性能与DeepSeek V3.2、GLM-5和Gemini 3 Pro等旗舰大模型相当或超越。IFEval得分为93.4,表明强推理未损害指令遵循能力。该工作提出了参数压缩-覆盖假说:可验证推理可压缩为紧凑推理核心,而开放域知识需宽参数覆盖。
AI模型VibeThinker-3B推理模型可验证推理小语言模型基准成绩

推荐理由:想看看3B小模型怎么打平千亿级大模型?VibeThinker-3B用AIME 94.3分、LiveCodeBench 80.2%的成绩告诉你,小模型也能杀进顶级推理梯队。
原文
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
6月2日
09:39
09:39arXiv cs.AI@Ranulfo Bezerra, Satoshi Tadokoro, Kazunori Ohno
这篇综述论文系统梳理了人工智能、物联网与机器人三者融合的现状与挑战。尽管AIoT和IoRT(物联网机器人)已有进展,但缺乏统一的设计框架。论文强调了小语言模型(SLM)在边缘端和大语言模型(LLM)在云端的协同作用,用于分布式认知与自主决策。作者提出模块化系统架构,分析了互操作性和反馈控制方面的持续缺口,并按集成深度对现有工作分类。该工作为构建下一代模块化、可解释、能动态学习的AI-IoT-机器人生态系统提供了概念和技术路线图。
论文AI-IoT-机器人融合小语言模型大语言模型边缘计算连接机器人

推荐理由:做机器人或物联网系统架构的开发者,这篇综述帮你理清AI、IoT和机器人三者如何真正融合,避免重复造轮子,值得收藏作为技术路线参考。
原文
5月26日
12:36
12:36arXiv: DeepSeek@Andrey Kozachok, Anatoliy Bakaev, Aleksandr Kozachok, Shamil Magomedov, Artem Noev
精选
该论文提出一种名为“上下文工具数据蒸馏”的方法,专门用于让小语言模型(SLM,参数最多 4B)生成 Kubernetes YAML 等 DSL 工件。方法通过合成生成和反向指令生成构建语料,并仅将通过外部验证器且匹配领域上下文的样本加入训练。在资源受限条件下,使用 DeepSeek-V4 Flash 作为教师模型,微调 Qwen2.5-Coder-1.5B-Instruct,在 K8s-Distill-Pilot 数据集上达到 91.5% 的完全通过率。关键发现是:输出格式的严格约束比增加训练样本数对结果质量影响更大。
论文Kubernetes小语言模型数据蒸馏YAML 生成DeepSeek

推荐理由:K8s 运维和平台工程团队终于有了一个轻量级方案来生成 YAML 清单——1.5B 模型就能跑出 91.5% 的通过率,做基础设施自动化的开发者可以直接参考其数据蒸馏思路。
原文
5月14日
13:27
13:27arXiv: OpenAI@Anuj Sadani, Deepak Kumar
精选
本文提出一种完全在设备端运行的 PII 替换流水线,使用 1.5B MoE 分类器检测实体、1-bit Bonsai-1.7B 小语言模型生成上下文相关的假名,以及规则生成器处理模式化字段。研究发现,小模型在少样本提示下会逐字复读演示输出,而非根据输入生成。通过引入基于语言环境的旋转演示池和 MD5 哈希采样,成功消除了 482/482 次调用中的复读现象。尽管生成的假名更自然,但在下游 NER 任务中,规则生成的多样性优于小模型的自然性,这是一个诚实的负面发现。
论文小语言模型PII替换少样本提示设备端推理隐私保护

推荐理由:做设备端隐私处理或小模型应用的团队,这篇论文揭示了少样本提示中一个容易被忽视的陷阱——模型会复读演示而非推理,并给出了一个简单有效的修复方案,值得点开看看。
原文
精选全部日报登录