13:01arXiv: DeepSeek@Zihang Li, Rui Zhou, Yingcheng Shi, Wenhan Yu, Zhewen Tan, Zixiang Liu, Zeming Li, Binhua Li, Yongbin Li, Tong Yang, Jieping Ye72°ESPO(Early-Stopping Proximal Policy Optimization)是一种针对大语言模型强化学习训练的新方法,能在推理轨迹中早期检测到错误步骤并提前终止生成。传统PPO算法在模型犯错后仍会强制生成直到最大步长,浪费计算资源并污染优势估计。ESPO通过实时计算基于logits的代理遗憾值,在累积遗憾显著超过估计值时终止轨迹,并将截断轨迹视为吸收失败状态,无需额外奖励模型或人工标注。在DeepSeek-R1-Distill-Qwen-7B的数学推理训练中,ESPO在AIME 2024、AMC 2023和MATH-500上均超越PPO,同时累计节省超过20%的生成token。论文强化学习PPO数学推理训练效率DeepSeek推荐理由:做LLM强化学习训练的团队终于有了一个能省算力又提效果的方法——ESPO在数学推理任务上不仅性能更好,还省了20%的token,训练成本敏感的团队值得一试。原文
17:55IT之家(博客/媒体)5月28日上午,DeepSeek 出现服务故障,网页对话和API均受影响,官方状态页面显示为“部分中断”。故障于10:21被定位,10:50修复,持续约半小时。这是DeepSeek本月第五次服务问题,其中两次为完全中断。频繁故障可能影响用户信任和日常使用体验。行业DeepSeek服务故障API稳定性行业动态推荐理由:DeepSeek 本月已崩五次,做AI应用开发的团队需要评估其稳定性,建议关注官方后续的改进措施。原文
11:55arXiv: DeepSeek@Zhaoyang Jiang, Xuanqi Peng, Fei Teng, Zhizhong Fu, Yunsoo Kim, Jiacong Mi, Zicheng Li, Honghan Wu一项针对医疗问答链式推理(CoT)蒸馏的研究发现,蒸馏后的小模型在最终答案准确率上显著提升(MedQA-USMLE从74.7%到84.4%),但推理步骤的错误率却从30.6%上升到50.3%。研究使用Qwen3-8B作为学生模型,蒸馏自DeepSeek-V3系列教师模型,并通过Kimi-K2.6等LLM裁判和临床专家盲审验证了这一反向趋势。问题根源在于:当答案选项简短、无法约束完整推理时,学生模型能模仿专家风格的推理过程,但无法确保每一步的局部事实正确。标准答案指标和整体回避率无法揭示这一风险。该发现提醒,在医疗等高风险领域,仅用答案准确率评估蒸馏模型是不够的,推理步骤的事实性必须单独审计。论文链式推理模型蒸馏医疗QA推理审计DeepSeek推荐理由:做医疗AI或模型蒸馏的团队注意了:答案准不等于推理对,蒸馏后步骤错误率反而飙升,临床场景下这是致命隐患。建议点开看看审计方法,避免踩坑。原文
06:13rohanpaul_ai@rohanpaul_ai本期新闻简报涵盖多项AI与芯片领域重要进展:华为公布芯片设计新突破,有望缩小与台积电、英特尔的差距;阿里巴巴与南京大学联合论文提出通过选择性稀疏注意力机制,使标准LLM高效处理超长上下文;深度分析DeepSeek的真正优势不在于廉价聊天机器人,而在于将硬件稀缺转化为策略的架构创新;Meta、斯坦福与伊利诺伊大学联合调研论文主张AI智能体在代码作为主要工作层时表现更佳;Anthropic联合创始人警告AI导致的失业将引发历史性道德危机;xAI向SuperGrok和X Premium+用户推出终端原生智能体“Grok Build”。行业华为芯片设计长上下文DeepSeek智能体Grok BuildAI失业10 个信源在谈推荐理由:芯片开发者、长上下文研究者、智能体实践者都能从中找到硬核洞察——华为的突破可能重塑竞争格局,阿里论文直接解决长文本推理痛点,DeepSeek的架构思路值得借鉴。建议花5分钟扫读,挑与自身领域相关的深度内容细看。原文
11:31Geek@geekbbDeepSeek 在 X 平台发文感谢小米 MiMo,宣布 MiMo-V2.5 系列 API 价格永久降低,最高降幅达 99%,并统一了所有上下文长度的定价。同时,MiMo Token 计划升级,同等价格下可用 token 数量增加 5-8 倍,计费规则更简单透明。现有用户的 Token Plan 积分将全部重置,MiMo-V2.5-TTS 在限定时间内免费。这些改进得益于 MiMo 堆栈的推理优化和服务效率提升,相关技术博客后续发布。AI产品DeepSeek小米 MiMoAPI 降价推理优化语音合成推荐理由:API 价格直降 99% 对开发者是实打实的成本利好,做 AI 应用集成或语音合成的团队可以直接切换,省下预算做更多实验。原文
22:59Decoder@Matthias Bastian据报道,中国现在要求阿里巴巴、DeepSeek等私营企业的顶尖AI研究员在离开中国前必须获得官方批准。此举旨在防止数据泄露、技术窃取和人才挖角,反映了北京对国内AI行业加强管控。这一政策可能影响中国AI人才的国际流动和合作,对全球AI竞争格局产生潜在影响。行业中国AI政策人才流动数据安全阿里巴巴DeepSeek推荐理由:这一政策直接关系到AI人才的国际流动,从事跨境AI合作或关注中国AI发展的从业者值得关注,它可能重塑全球AI人才市场。原文
16:11AI Will@FinanceYF5DeepSeek 宣布将 V4-Pro 模型的 API 价格永久下调 75%,降至原价的 25%。此举被认为与中国 AI 基础设施从受限的 NVIDIA GPU 转向华为昇腾 950 芯片有关,供应链改善推动了推理成本下降。路透社报道指出,虽然 DeepSeek 未明确确认昇腾 950 供应增加是降价主因,但时间点暗示了中国 AI 成本曲线正在持续下移。这一变化意味着中国 AI 模型在价格竞争力上进一步逼近甚至超越国际对手。AI产品DeepSeekV4-Pro华为昇腾推理成本API降价推荐理由:DeepSeek 把 V4-Pro 价格砍到原价四分之一,做 API 调用的开发者和企业可以直接省下大笔推理成本,建议关注华为昇腾生态的性价比变化。原文
14:24AI Will@FinanceYF5路透社报道,DeepSeek 已将其 V4-Pro 模型的 API 价格永久下调至原价的 25%。此前该模型曾推出限时降价,如今转为长期政策。DeepSeek 未确认此次降价是否与华为昇腾 950 芯片供应改善有关。这一举措将大幅降低开发者调用该模型的成本,可能引发更多 AI 应用采用。AI产品DeepSeekAPI 降价V4-Pro成本优化华为昇腾推荐理由:API 价格降至四分之一,调用 DeepSeek V4-Pro 的开发者成本直接砍半以上,做推理或批量任务的团队值得立刻关注。原文
12:36arXiv: DeepSeek@Andrey Kozachok, Anatoliy Bakaev, Aleksandr Kozachok, Shamil Magomedov, Artem Noev精选该论文提出一种名为“上下文工具数据蒸馏”的方法,专门用于让小语言模型(SLM,参数最多 4B)生成 Kubernetes YAML 等 DSL 工件。方法通过合成生成和反向指令生成构建语料,并仅将通过外部验证器且匹配领域上下文的样本加入训练。在资源受限条件下,使用 DeepSeek-V4 Flash 作为教师模型,微调 Qwen2.5-Coder-1.5B-Instruct,在 K8s-Distill-Pilot 数据集上达到 91.5% 的完全通过率。关键发现是:输出格式的严格约束比增加训练样本数对结果质量影响更大。论文Kubernetes小语言模型数据蒸馏YAML 生成DeepSeek推荐理由:K8s 运维和平台工程团队终于有了一个轻量级方案来生成 YAML 清单——1.5B 模型就能跑出 91.5% 的通过率,做基础设施自动化的开发者可以直接参考其数据蒸馏思路。原文
09:58Viking@vikingmute精选Reasonix 是一个针对 DeepSeek 的 prefix cache 优化工具,近期在开发者社区走红。它通过优化缓存机制,在长会话场景下能将缓存命中率保持在 90% 以上,从而将输入 token 成本降低到原来的五分之一。对于高频使用 DeepSeek 的重度用户,这是一个值得尝试的实用工具,能显著降低 API 调用成本。AI产品DeepSeekprefix cache成本优化开源/仓库Reasonix推荐理由:DeepSeek 重度用户每月 API 账单能省一大截——长会话场景下缓存命中率 90%+,输入成本直接砍到 1/5,做对话应用或批量推理的团队建议立刻试试。原文
17:38AI Will@FinanceYF5DeepSeek 放弃编程套餐、多模态等热门方向,坚持开源策略,看似自废武功,实则意在构建一个 10 万亿美元的中国 AI 硬件生态。它不追求短期几亿美元的生意,而是通过开源降低门槛,吸引更多硬件厂商和开发者加入,形成以中国为核心的 AI 硬件产业链。这一战略若成功,将重塑全球 AI 硬件格局,让中国在 AI 基础设施层面占据主导地位。行业DeepSeek开源AI 硬件中国 AI 生态战略分析推荐理由:做 AI 硬件或关注中国 AI 生态的开发者,DeepSeek 的开源战略可能改变你的技术选型和商业机会,值得深入理解其背后的逻辑。原文
04:36rohanpaul_ai@rohanpaul_ai路透社报道,DeepSeek 将其旗舰模型 V4-Pro 的 API 价格永久下调75%,降至原价的25%。虽然 DeepSeek 未确认降价与华为 Ascend 950 芯片供应改善直接相关,但时机表明,随着中国 AI 基础设施从受限的英伟达芯片转向华为硬件,成本曲线正在下移。这一降价将使更多开发者和企业能够以更低成本使用高性能 AI 模型,推动中国 AI 生态的普及。AI产品DeepSeekV4-ProAPI降价华为芯片成本优化推荐理由:DeepSeek V4-Pro 永久降价75%意味着调用成本降至原来的四分之一,做 AI 应用开发或依赖 API 的团队可以直接降低运营成本,值得关注这一价格变动对模型选型的影响。原文
02:06berryxia@berryxia83°DeepSeek 是一家中国 AI 公司,面对美国 GPU 禁运,没有堆算力,而是通过算法创新(如 KV Cache 压缩 90%、MoE 极致优化、Engram 模块)大幅降低训练和推理成本。其 V4 Pro 模型在 1M 上下文下仅需 5.48GB HBM,远低于竞品。这些技术不仅让长时序 Agent 经济可行,还盘活了中国 NAND 和 LPDDR 资源,缓解 HBM 依赖。DeepSeek 开源了整个框架,旨在打造 10 万亿美元的 AI 硬件新生态,估值目标 1 万亿美元。AI产品DeepSeekMoEKV Cache开源/仓库硬件生态推荐理由:DeepSeek 用算法创新打破了 GPU 禁运的困局,做长上下文 Agent 的开发者可以直接用 V4 Pro 体验成本暴降的效果,做硬件生态的团队值得研究其开源架构。原文
19:34Geek@geekbbDeepSeek GUI 是DeepSeek TUI的桌面图形界面版本,支持多会话聊天、流式输出和工具调用审批。用户可审查智能体修改的文件,每次改动显示diff。该项目已在GitHub开源,提供更直观的AI交互体验。AI产品DeepSeek开源/仓库智能体MCP/工具推荐理由:把终端AI搬到桌面,支持diff审查原文
18:07IT之家(博客/媒体)长安第四代逸动蓝鲸超擎车型上市,共三款车,抢购价7.99-8.99万元。新车长宽高4785/1840/1460mm,轴距2765mm,内饰配备10.25英寸仪表和14.6英寸中控屏。全系标配内置DeepSeek的AI大模型语音系统,搭载天枢智慧座舱和天枢OS车机系统。配置方面,悦享型新增256色氛围灯、ACC自适应巡航等,智享型增加50W无线快充、全景天窗等。AI产品大模型DeepSeek智能座舱车机系统推荐理由:长安新车7.99万起,语音接入DeepSeek原文
15:34orange.ai@oran_geDeepSeek V4 Pro模型在性能上并非最佳,但其缓存技术几乎免费,可大幅降低推理成本。Opus模型应用该技术后成本下降10倍。V4.1版本将使用真实harness数据训练,有望快速提升性能。AI模型大模型DeepSeek缓存成本优化推荐理由:缓存技术让成本降10倍原文
13:52rohanpaul_ai@rohanpaul_ai精选75°DeepSeek 通过 MoE、DSA 和 V4-Pro 的 CSA/HCA 技术,将 1M-token 单 token 推理 FLOPs 降至 V3.2 的 27%,KV 缓存降至 10%。其 Engram 研究线利用可扩展查找内存替代密集计算。Reuters 报道 V4-Pro 永久降价 75%,同时面临华为昇腾供应限制。这些举措旨在减少对 HBM 和高端 GPU 的依赖,使中国内存、加速器和系统适用于前沿 AI。AI模型DeepSeekMoEDSA推理模型大模型推荐理由:DeepSeek 用架构创新绕过硬件瓶颈原文
13:46宝玉的分享@宝玉DeepSeek 提出了一项雄心勃勃的 10 万亿美元战略,旨在通过 AI 模型和基础设施实现巨大收益。该战略涉及开发 DeepSeek-R1 等模型,并计划在 2026 年部署 100 万个 GPU 集群。DeepSeek 预计其 AI 服务将覆盖 50 亿用户,每用户年收入 200 美元。这一目标基于对 AI 市场增长和成本下降的预测,但面临技术挑战和竞争压力。行业DeepSeek大模型AI战略GPU集群推荐理由:DeepSeek 的万亿级赚钱蓝图原文
21:18IT之家(博客/媒体)DeepSeek 宣布其 API 已完成输出速度提升和服务扩容,默认支持 500 并发同时在线,企业用户可申请更大并发。此前,DeepSeek-V4-Pro 模型 API 价格将于 2026 年 5 月 31 日结束 2.5 折优惠,正式调整为原价的 1/4,大幅降低使用成本。此次升级旨在提升开发者体验,满足高并发场景需求。AI产品DeepSeekAPI服务扩容并发降价2 个信源在谈推荐理由:DeepSeek API 提速扩容后,默认 500 并发对高流量应用开发者是直接利好,配合即将到来的降价,做 AI 应用或服务的团队值得关注。原文
09:17OpenRouter@OpenRouterAIWarp 终端宣布支持 OpenRouter,用户可以直接在 Warp 中连接遵循 OpenAI Chat Completions API 的推理端点,包括 OpenRouter、LiteLLM、Zai_org、DeepSeek 等。工程师 Dagm Assefa 演示了如何连接 DeepSeek 和 OpenRouter。这一集成让开发者无需离开终端即可调用多种 AI 模型,简化了 AI 编程工作流。相关文档已在 Warp 官网更新。AI产品WarpOpenRouterDeepSeek终端集成AI 编程10 个信源在谈推荐理由:终端用户终于可以在 Warp 里直接调用 OpenRouter 和 DeepSeek 等模型,省去切换窗口的麻烦。做 AI 编程或频繁测试模型的开发者,建议试试这个集成,能显著提升效率。原文
02:23rohanpaul_ai@rohanpaul_ai72°据彭博社报道,DeepSeek 正在进行 102.9 亿美元的融资谈判,创始人梁文锋明确表示将优先推进 AGI(通用人工智能)研发,而非追求短期商业化。梁文锋承诺继续开发开源 AI 模型,这一战略与当前许多 AI 公司追求快速盈利的趋势形成鲜明对比。该融资若完成,将成为 AI 领域最大规模融资之一,凸显 DeepSeek 在开源 AGI 路线上的坚定决心。行业DeepSeekAGI开源融资AI 战略推荐理由:DeepSeek 在巨额融资中坚持开源 AGI 优先,这对关注 AI 长期发展的开发者和研究者是个重要信号——开源路线并未被资本裹挟,值得持续关注其模型进展。原文
01:06Geek@geekbbDeepSeek-V4-pro 模型 API 价格将在 2026年5月31日 23:59 结束 2.5 折优惠活动后,正式调整为原定价的 1/4。这意味着长期使用成本大幅降低,对开发者和大模型应用团队是重大利好。该调整是永久性的,而非短期促销。消息来自社区分享,引发广泛关注。AI产品DeepSeekAPI价格模型调用成本优化开发者2 个信源在谈推荐理由:DeepSeek-V4-pro API 价格直接降到原价1/4,做 AI 应用开发和模型调用的团队成本压力骤减,建议关注并提前规划迁移或扩容。原文
22:50IT之家(博客/媒体)DeepSeek 官方宣布,DeepSeek-V4-Pro 模型 API 将于 2026 年 5 月 31 日结束 2.5 折优惠活动后,正式调整为原定价的 1/4,即永久保持当前折扣水平。原价输入(缓存命中)0.1 元/百万 Tokens、输入(缓存未命中)12 元/百万 Tokens、输出 24 元/百万 Tokens,降价后相当于缓存未命中输入降至 3 元/百万 Tokens,输出降至 6 元/百万 Tokens。这一调整意味着开发者可以长期享受低成本调用高性能模型的便利,无需担心优惠到期后价格反弹。AI产品DeepSeekAPI降价大模型开发者2 个信源在谈推荐理由:DeepSeek 把 API 价格直接砍到 1/4 并永久生效,做 AI 应用开发或高频调用大模型的团队可以放心接入,不用再盯着优惠截止日期了。原文
16:34阿里云 Alibaba Cloud@alibaba_cloud阿里云发布了在PAI-EAS平台上部署DeepSeek V4-Flash的成本效益分析,通过实际基准测试和定价数据比较了不同部署选项。该分析旨在帮助用户找到每美元性能最佳的方案,适合需要优化AI模型部署成本的开发者和企业。视频演示了具体对比结果,为选择最经济的部署方式提供参考。AI产品DeepSeek阿里云PAI-EAS模型部署性价比推荐理由:做AI模型部署的团队终于有了明确的性价比参考——阿里云用真实数据告诉你DeepSeek V4-Flash怎么部署最省钱,建议做成本优化的点开看看。原文
14:00OpenRouter@OpenRouterAI精选DeepSeek V4 Flash 在 OpenRouter 每周排行榜中登顶,获得 1196 次浏览和 38 个点赞。该模型是 DeepSeek V4 的轻量版本,表现出色。OpenRouter 排行榜基于用户使用量和反馈,V4 Flash 的领先显示了其在开发者中的受欢迎程度。AI模型DeepSeek V4 FlashDeepSeekOpenRouter推理模型推荐理由:DeepSeek新模型登顶社区排行榜原文
13:06IT之家(博客/媒体)DeepSeek 正进行 700 亿元人民币融资谈判,估值约 450 亿美元,腾讯、IDG 资本等接近参投。创始人梁文锋在投资者会议上承诺,公司将继续开发开源 AI 模型,而非追求短期商业化,主要目标是推动技术升级和实现通用人工智能。若融资落地,将创中国科技初创公司首轮融资纪录,国家队参与凸显政府重视。梁文锋个人可能注资约 200 亿元,公司正扩展至 AI 智能体领域。行业DeepSeek开源模型融资通用人工智能AI 智能体推荐理由:DeepSeek 用 700 亿融资证明开源路线在中国 AI 赛道依然能拿到顶级支持,关注开源模型生态的开发者可以看看这家公司如何平衡技术理想与资本压力。原文
11:38arXiv: OpenAI@Andrii Kryshtal精选72°一项新研究测试了 OpenAI、Anthropic、DeepSeek、xAI 的九款模型在 90 个多轮冲突场景中的表现,发现模型在涉及战争罪行、种族灭绝否认、种族歧视等敏感话题时,输出可能加剧社会分裂。失败率从 6% 到 47% 不等,当用户要求“平衡”报道时,五款模型在 80%-100% 的情况下失败。研究首次提出针对冲突场景的评估框架,呼吁将此类测试纳入模型安全评估体系。论文AI安全冲突场景模型评估OpenAIAnthropicDeepSeekxAI10 个信源在谈推荐理由:做 AI 安全评估或部署在敏感地区的团队,这篇论文给出了第一个可复用的冲突场景测试框架,能直接用来检查模型是否会在关键议题上“和稀泥”——看完你会重新审视“中立”输出的代价。原文
10:44arXiv: DeepSeek@Yuxuan Sun, Yuze Zhao, Yufeng Wang, Yao Du, Zhiyuan Ma, Jinbo Wang, Mengdi Zhang, Kai Zhang, Zhenya Huang精选SWE-Mutation 是一个新基准,用于评估大语言模型(LLM)生成的测试套件的质量。它通过引入系统性的变异解决方案来“欺骗”测试套件,从而衡量测试套件的判别能力。该基准包含从800个原始实例衍生的2,636个变异变体,并覆盖九种编程语言。实验表明,即使是DeepSeek-V3.1,其验证率也仅为10.20%,检测率为36.15%,暴露了当前LLM在生成可靠测试套件方面的严重不足。该研究还提出了一种智能体驱动的变异策略,使测试套件更难被欺骗,从而更真实地反映LLM的能力缺陷。论文LLM评估测试套件软件工程变异测试DeepSeek推荐理由:软件工程团队和AI研究者终于有了一个严谨的测试套件质量评估工具——SWE-Mutation能帮你判断LLM生成的测试是否真的可靠,做自动化测试或代码修复的开发者值得关注。原文
11:39Tw93@HiTw93精选Kaku 终端发布 V0.11.0 版本,这是一款为 AI 编程设计的快速、开箱即用的终端。新版本增加了对 DeepSeek、GLM、Kimi、Fireworks 等模型的隐藏推理支持,改进了会话恢复和初始化设置体验。同时修复了全屏标签、标题栏拖拽、光标渲染、低 DPI 文本和彩色 emoji 大小等细节问题。AI 流式传输、输入法输入、代理处理和多提供商传输也更加稳定。AI产品AI 编程终端KakuDeepSeekGLM推荐理由:Kaku 把 AI 作为终端的一等公民,做 AI 编程的开发者可以直接用它替代传统终端,体验更流畅的 AI 交互。原文
10:14Pandaily@contact@pandaily.com (Pandaily)83°据知情人士透露,中国 AI 实验室 DeepSeek 正在组建一个名为 Harness 的新团队,专注于开发编程智能体产品,直接与 Anthropic 的 Claude Code 竞争。该团队目前在北京开放招聘岗位。此举表明 DeepSeek 正加速布局 AI 编程工具领域,意图在开发者市场中占据一席之地。Claude Code 是 Anthropic 推出的 AI 编程助手,能够理解代码库并自动生成代码,而 DeepSeek 的 Harness 团队将开发类似产品。AI产品编程智能体DeepSeekClaude CodeAI 编程助手团队组建10 个信源在谈推荐理由:DeepSeek 正式入局 AI 编程智能体赛道,做开发工具或使用 Claude Code 的团队值得关注——这可能会带来新的选择或竞争格局变化。原文
08:00IT之家(博客/媒体)83°DeepSeek 已内部组建全新 Harness 团队,主攻代码智能体产品,直接对标 Anthropic 的 Claude Code。该团队由资深研究员陈德里证实,将专注研发 DeepSeek Code Harness,旨在将前沿模型能力转化为领先的 Agent 产品。目前开放 Harness 产品经理和研发工程师两个关键岗位,工作地点限北京。此举标志着 DeepSeek 正式进入代码智能体赛道,与 Claude Code 等产品展开竞争。AI产品代码智能体DeepSeekClaude CodeAgent 产品编程助手10 个信源在谈推荐理由:代码智能体是 AI 编程的下一个战场,DeepSeek 直接对标 Claude Code 组建 Harness 团队,做 AI 编程工具或 Agent 产品的开发者值得关注其后续动作。原文
07:59IT之家(博客/媒体)DeepSeek 就用户反馈输入“<think>”等特殊字符后模型返回异常内容发布声明,称该现象属于特殊字符引发的模型幻觉,不涉及数据安全或隐私泄露。技术团队已排查确认问题,将通过针对性训练增强模型对特殊字符的识别与处理能力。官方强调始终重视用户数据安全与使用体验,并欢迎用户继续反馈问题。AI产品DeepSeek模型幻觉数据安全特殊字符官方回应推荐理由:如果你在用 DeepSeek 做对话或开发,这个说明打消了隐私泄露的顾虑——模型幻觉不是数据泄露,但建议留意特殊字符输入,官方后续会修复。原文
17:12AlphaSignal@AlphaSignalAI76°本周(5月11日至17日)GitHub 热门仓库包括 DeepSeek 4 Flash 本地推理引擎(支持 Metal 和 CUDA)、更稀疏快速的 Transformer 语言模型、利用 WiFi 信号实现空间感知的 RuView、面向法律工作流的 Claude 插件套件,以及 X 平台开源的 feed 排序算法。这些项目覆盖了模型推理、架构优化、环境感知、行业应用和算法透明化等多个方向,值得开发者关注。AI产品DeepSeek本地推理TransformerWiFi感知开源推荐理由:做本地推理或模型优化的开发者可以看看 DeepSeek 4 Flash 和稀疏 Transformer 项目,前者直接提升 Metal/CUDA 部署效率,后者可能改变模型架构设计思路。法律从业者或对行业 AI 应用感兴趣的人,Claude 插件套件提供了现成的 workflow 参考。原文
22:58Yangyi@YangyixxxxDeepSeek 正在招聘 Agent Harness 产品经理,团队使命是“Model + Harness = Agent”,将前沿模型能力转化为领先的 Agent 产品。该职位将参与桌面端 Agent 产品全过程,定义 Harness 理念,要求候选人深度使用过 Claude Code、Cursor 等主流 Agent 产品,并具备数据分析、UI/UX 设计等能力。有评论认为桌面 Agent 潜力巨大,更期待 DeepSeek 直接做操作系统,挑战将完全不同。这标志着 DeepSeek 正从模型公司向 Agent 平台转型,对 AI 产品经理和 Agent 生态开发者是重要信号。行业DeepSeekAgent产品经理桌面端Harness3 个信源在谈推荐理由:DeepSeek 正式进军桌面 Agent 领域,做 Agent 产品经理或关注 Agent 生态的开发者值得关注——这可能是定义下一代人机交互范式的机会。原文
19:58宝玉@doteyDeepSeek 正在招聘 Agent Harness 产品经理,负责将前沿模型能力转化为领先的 Agent 产品。该职位属于 Harness 团队,涵盖模型之外的所有工作,包括产品路线规划、用户需求分析、与研究员协作实现模型与 Harness 共同进化,以及维护用户社群。任职要求包括 2 年以上产品经验、能使用 vibe coding 写代码、是 Agent 产品的高强度用户,并熟悉 LLM 及 Agent 技术原理。这标志着 DeepSeek 正式加速 Agent 产品化,为 AI 产品经理提供了参与定义下一代人机交互范式的机会。行业DeepSeekAgent产品经理招聘Harness推荐理由:DeepSeek 首次公开招募 Agent 产品经理,把模型能力转化为可用产品的关键岗位,做 AI 产品经理或想切入 Agent 赛道的开发者值得关注,这可能是定义未来 Agent 交互范式的机会。原文
15:16IT之家(博客/媒体)精选DeepSeek 专家模式在网页端和 App 已下线文件上传功能,官方提示“资源紧张,不支持文件上传”。快速模式仍可上传文件与图片,但仅识别图片中文字。同时,DeepSeek 正在灰度测试历史聊天记录查询,支持关键词搜索。AI产品DeepSeek专家模式产品更新资源限制聊天记录搜索推荐理由:DeepSeek专家模式文件上传被砍了原文
13:37深度求索 DeepSeek@deepseek_ai78°DeepSeek 正式发布 V3.2 和 V3.2-Speciale 两个新模型。V3.2 是 V3.2-Exp 的正式继任者,已在 App、Web 和 API 上线;V3.2-Speciale 则专注于极致推理能力,目前仅通过 API 提供。这两个模型以推理优先为设计理念,旨在更好地支持智能体(agent)场景。技术报告已同步公开。AI模型DeepSeek推理模型智能体模型发布API推荐理由:做智能体开发或需要强推理能力的团队,DeepSeek 这次直接给了两个新选择——V3.2 可立即上手,Speciale 适合追求极致推理的 API 用户,值得关注技术报告里的细节。原文
01:10DeepSeek: GitHub 新仓库(资讯)75°DeepSeek 开源了 DeepEP,这是首个专为 MoE(混合专家)模型设计的专家并行(EP)通信库。它提供了高吞吐、低延迟的 GPU 内核,支持训练和推理中的全到全通信。DeepEP 还支持低精度操作,如 FP8,并引入了高效的稀疏通信技术。该库已开源在 GitHub 上,开发者可以访问其 Pull Requests 页面了解更多。AI模型DeepSeekMoEEP通信库开源/仓库分布式训练推荐理由:MoE 模型的通信瓶颈一直是训练和推理的痛点,DeepEP 专为此优化,做大规模分布式训练的团队值得关注。原文
00:33DeepSeek: GitHub 新仓库(资讯)精选DeepSeek发布了DeepEP通信库,专为MoE模型的all-to-all通信优化。该库支持FP8计算和低延迟,在MoE训练和推理中提升效率。DeepEP已在GitHub开源,提供高性能通信接口。AI产品DeepEPDeepSeekMoE通信库开源推荐理由:DeepSeek开源MoE通信库原文
00:33DeepSeek: GitHub 新仓库(资讯)精选DeepSeek 宣布开源 DeepEP 项目,截至发稿在 GitHub 上获得 9,617 个星标。DeepEP 是一个用于高效专家并行(Expert Parallelism)的通信库,旨在降低 MoE 模型推理中的通信延迟。该项目基于 DeepSeek 内部实践,可帮助开发者优化大规模 MoE 部署。AI产品DeepEPDeepSeek开源推理优化MoE推荐理由:DeepSeek 开源了高效推理库原文