AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:视觉语言模型×
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
16:13
16:13marktechpost@Asif Razzaq
Zyphra 发布了 Zamba2-VL 系列开源视觉语言模型,包含 1.2B、2.7B 和 7B 三个参数版本。该模型采用混合 Mamba2 状态空间和 Transformer 骨干架构,在 Apache 2.0 许可下发布。与同类 Transformer 视觉语言模型相比,Zamba2-VL 在保持竞争力的同时,将首 token 生成时间降低了约一个数量级。这标志着在高效视觉语言推理方面的重要进展,尤其适合对延迟敏感的应用场景。
AI模型视觉语言模型Mamba2Transformer开源/仓库低延迟

推荐理由:做视觉语言模型部署或实时推理的开发者,Zamba2-VL 的首 token 延迟优势能显著提升用户体验,值得直接尝试。
原文
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
5月30日
05:27
05:27marktechpost@Asif Razzaq
StepFun 发布了 Step 3.7 Flash,一个 198B 参数的 MoE(混合专家)视觉语言模型,原生支持视觉理解、256k 上下文窗口和 Advisor Mode(顾问模式)。该模型针对编程智能体和搜索工作流进行了优化,能够在复杂任务中提供高效推理和代码生成能力。Step 3.7 Flash 的发布标志着多模态大模型在专业领域应用的重要进展,尤其适合需要长上下文理解和视觉-语言联合推理的场景。
AI模型Step 3.7 FlashMoE视觉语言模型编程智能体搜索工作流

推荐理由:做 AI 编程智能体或搜索应用的团队可以直接用上 256k 上下文和视觉能力,Step 3.7 Flash 的 Advisor Mode 能显著提升复杂任务处理效率,值得关注。
原文
5月20日
09:43
09:43IT之家(博客/媒体)
精选
微信AI团队模式识别中心在ICASSP 2026上凭借论文《Less Redundancy: Boosting Practicality of Vision Language Model in Walking Assistants》获得最佳工业论文奖,这是该奖项自2016年设立以来首次颁给中国企业团队。论文提出WalkVLM-LR模型,专为视障人士行走辅助设计,核心创新在于减少输出冗余和时间冗余,解决“何时该提醒”的问题。目前延迟控制在百毫秒量级,实时性已较可用,但仍有优化空间。该成果标志着中国企业在信号处理领域的技术突破。
论文视觉语言模型信号处理微信AIICASSP视障辅助

推荐理由:微信AI团队解决了视障辅助场景中VLM“说太多”和“说太频繁”的痛点,做AI助残或边缘端VLM的开发者可以关注其减少冗余的思路,实时性已接近可用,值得点开了解技术细节。
原文
精选全部日报登录