03:08@koltregaskes@koltregaskes78°GPT-5.6 Sol Preview 出现在 Cursor 的内部测试中,据称支持 100 万 token 上下文窗口。该发现来自 X 用户 koltregaskes 的截图,暗示 OpenAI 正在推进超长上下文能力。若属实,这将远超 GPT-4 的 128K 上下文上限。目前 OpenAI 尚未官方确认此模型的存在。AI模型GPT-5.6 Sol PreviewCursor上下文窗口1M上下文8 个信源在谈推荐理由:OpenAI 的 GPT-5.6 Sol Preview 悄悄在 Cursor 里测试,上下文直接拉到 1M,能一口气吞整本小说了。原文
03:07@koltregaskes@koltregaskesEthan Mollick根据Artificial Analysis的AA-Briefcase分数,绘制了AI模型在复杂多周咨询任务上的表现趋势。AA-Briefcase测试模型处理电子表格和策略规划等可交付成果。GLM-5.2等开源模型目前达到的水平,与闭源模型三个月前的分数一致。高端闭源模型仍保持明显领先,但差距在缩小。AI模型GLM-5.2AA-Briefcase开源模型智能体基准测试推荐理由:开源模型GLM-5.2在AA-Briefcase智能体基准上只差闭源三个月了,做复杂任务时值得试试看。原文
03:06@koltregaskes@koltregaskes79°DeepSeek v4 将于 7 月中旬进入通用可用(GA)阶段,部分用户已收到相关邮件通知。该版本带来更多功能优化和性能改进。具体改进细节尚未完全公开,但用户可期待更优的模型能力。AI模型DeepSeek v4DeepSeek开源模型推理模型推荐理由:DeepSeek v4 马上 GA 了,7 月中旬上线,性能有优化,想尝鲜的可以关注。原文
02:49Hugging Face: Blog(博客/媒体)精选Allen AI 发布 DiScoFormer,一种基于 Transformer 的架构,同时学习任意数据分布的密度函数和得分函数。传统方法如 NICE、MAF、ResFlow 需分别建模或使用归一化流,DiScoFormer 通过单一模型完成且无需显式归一化。在 2D 环形、高维高斯混合等多个基准分布上,DiScoFormer 的密度估计和得分误差均低于这些基线。该论文已被 NeurIPS 2024 接收,代码和预训练模型已在 GitHub 开源。AI模型DiScoFormerAllen AITransformer密度估计生成模型推荐理由:Allen AI 搞了个新模型 DiScoFormer,一个 Transformer 既能算密度又能算得分,比 NICE 这些老方法误差更低。想省事搞密度估计的可以看看。原文
01:17Simon Willison’s Weblog(博客/媒体)精选DeepReinforce 发布 Ornith-1.0,一款 MIT 许可的开源模型,基于 Gemma 4 和 Qwen 3.5 预训练。提供 9B Dense、31B Dense、35B MoE 和 397B MoE 四种规格。在编码基准上达到同尺寸开源模型 SOTA。作者在 LM Studio 上测试 35B Q4_K_M GGUF 版本,能流畅运行代理工具调用并处理代码定位任务。AI模型Ornith-1.0DeepReinforceGemma 4Qwen 3.5开源模型1 个信源在谈推荐理由:DeepReinforce 新出的开源编码模型,基于 Gemma 4 和 Qwen 3.5,在代理编码任务上表现不错,LM Studio 就能跑,值得试试。原文
00:17Hunyuan@TXhunyuan12款中国AI模型对世界杯32强比赛结果进行了预测。首轮榜单显示,腾讯混元(Tencent Hy)成功预测29场,以29/32的准确率排名第一。其他11款模型的具体准确率未在文中列出。现在比赛进入淘汰赛阶段,后续预测将更具挑战性。AI模型腾讯混元世界杯预测AI模型推荐理由:腾讯混元29/32比其他AI猜得准,看看淘汰赛还能不能撑住。原文
23:49阶跃星辰 Stepfun@Stepfun_AI精选StepFun 的 Step 3.7 Flash 模型在 Claw-Eval General 基准测试中取得第二名的成绩,该基准用于评估自主智能体。模型在多步执行和长程任务鲁棒性上表现强劲,排名仅次于 Claude Opus 4.6。这一结果显示其在真实世界智能体工作负载中的潜力。AI模型Step 3.7 FlashClaw-Eval General智能体推理模型推荐理由:StepFun 的 Step 3.7 Flash 在智能体基准 Claw-Eval General 排第二,仅次于 Claude Opus 4.6,多步执行和长程任务都强,感兴趣可以看看。原文
19:47eric zakariasson@ericzakariasson73°Elon Musk在推文中透露,Cursor团队为v9模型的SFT和RL训练做出了重要的工程贡献。当前1.5T参数量的模型已通过补充训练加入Cursor数据。而两周前开始的2T参数量训练在数据范围和规模上大幅改进,训练配方也获得多项升级,预计7月底完成,8月发布。AI模型Elon MuskCursorv9SFTRL5 个信源在谈推荐理由:Elon Musk说他们和Cursor团队合作训练v9模型,2T参数量的版本数据更全,8月就能见到,值得关注。原文
17:55Yangyi@Yangyixxxx用户认为FunASR模型在大部分场景下可用,精度偶尔不足。建议套用LLM进行修复,可解决绝大多数问题。其被评价为中国版Whisper中性价比最高的方案。AI模型FunASRASR语音识别LLM开源模型推荐理由:有实测用户说FunASR比Whisper更值,精度不够时加个LLM就能补上,做中文语音识别可以试试。原文
17:45Browser Use@browser_useBrowser Use 团队使用 v4 版本构建 QA 基准测试,将 GLM 5.2、Opus 4.7、GPT 5.5 和 Minimax M3 四个模型在 LLM Arena 数据集上的任务进行对比。每个模型生成网站后由人工评估打分,测试涵盖多个任务类型。结果揭示了开源权重模型在特定场景下的表现差异。AI模型GLM 5.2Opus 4.7GPT 5.5Minimax M3基准测试3 个信源在谈推荐理由:他们用 Browser Use v4 搞了个新基准,测了 GLM 5.2、Opus 4.7、GPT 5.5 和 Minimax M3,人工打分告诉你谁在 QA 任务上更强。原文
17:03IT之家(博客/媒体)小鹏集团正式发布X-Mind技术框架,通过内嵌预测性世界模型,将12帧未来世界推演压缩至仅96个Token。相比传统VLA模型,X-Mind在复杂长尾场景下轨迹预测误差(ADE)显著降低。该框架通过深度压缩自编码器(DC-AE)和循环块扩散机制,在车规级芯片上实现低推理延迟。小鹏宣称X-Mind赋予自动驾驶“预见未来”的能力,可实现防御性驾驶。AI模型X-Mind小鹏自动驾驶视觉思维链预测世界模型推荐理由:小鹏在自动驾驶上搞了一个新招:X-Mind能用96个Token推演未来12帧,比传统模型更准更快,还能跑在车规芯片上。原文
16:27Pandaily@contact@pandaily.com (Pandaily)精选73°DeepSeek 与北京大学联合开发的 DSpark 推理系统获得 PyTorch 核心维护者 Dmytro Dzhulgakov 的详细技术分析。他重点称赞 DSpark 的半并行草稿(semi-parallel drafting)机制,能提升推理吞吐量。分析指出该系统达到生产级工程水平(production-grade engineering),在特定负载下相比基线有显著加速。这一评测为开源推理系统提供了高含金量的第三方验证。AI模型DeepSeekDSparkPyTorch推理模型开源模型推荐理由:PyTorch 核心大佬亲自下场拆解 DeepSeek 的 DSpark,说它半并行草稿很牛、工程落地扎实,搞推理优化的必看。原文
16:17小互@imxiaohu据社交平台爆料,OpenAI 可能在今晚发布 GPT 5.6 模型。该推文已有 10 条评论、7 个点赞和 886 次查看。目前尚无官方确认或具体参数信息。AI模型GPT 5.6OpenAI模型发布4 个信源在谈推荐理由:OpenAI 可能要发 GPT 5.6 了,虽然没有细节,但可以蹲一下今晚的更新。原文
15:41@koltregaskes@koltregaskes商汤推出了U1 Pro图像思考模型,该模型在图像生成能力上与GPT Image 2持平甚至更优。U1 Pro支持高达8K分辨率输出,专为设计场景优化。内部测试将于7月启动,之后计划公开发布。AI模型U1 ProSenseTimeGPT Image 2图像生成推理模型推荐理由:商汤新模型U1 Pro据说能和GPT Image 2比一比,还支持8K图,设计师7月就能内测了。原文
15:38@koltregaskes@koltregaskes91°OpenAI 开放了 GPT-5.6 模型家族的有限预览,包括旗舰版 Sol、性价比版 Terra 和快速版 Luna。Sol 引入最大推理努力和超模式,使用子代理加速复杂任务,在 Terminal-Bench 2.1 上领先,并在网络安全基准上匹配 Mythos Preview 性能,仅用三分之一输出令牌。系统卡将网络和生物能力评为高,但低于自主全链利用的关键阈值。更广泛可用性计划在未来几周内推出。AI模型OpenAIGPT-5.6Sol推理模型智能体7 个信源在谈推荐理由:OpenAI 终于放出 GPT-5.6 预览,Sol 在编程和网络安全测试上效率高,Terra 半价达 GPT-5.5 水平,想尝鲜可以关注。原文
15:19Geek@geekbb推文作者分享了使用 Qwen3-8B 模型与 DSpark 工具进行本地部署的体验。该推文获得 737 次查看,反映了用户对消费级显卡运行大模型的渴望。当前消费级显卡显存普遍不足,难以直接运行 8B 参数模型。AI模型Qwen3-8BDSpark本地部署消费级显卡推荐理由:有人实测了 Qwen3-8B 配合 DSpark 本地跑,说能流畅运行但显存不够,感觉消费级显卡该升级了。原文
13:51Together AI@togethercompute在 aiDotEngineer World's Fair 上,James Zou 将展示 EinsteinArena 和 DSGym 两项工作。EinsteinArena 用于多智能体数学发现,DSGym 则为数据科学智能体提供更好的评估。这两项基准旨在推动 AI 在科学协作中的能力。AI模型EinsteinArenaDSGymTogether AI多智能体数据科学智能体推荐理由:想知道多智能体怎么一起搞科研、怎么评估数据科学智能体?James Zou 分享了两个新基准,很实用。原文
13:51Together AI@togethercompute精选Together Compute推出ParallelKernelBench开放基准测试,专门评估LLM编写多GPU内核的难度。该基准基于50个真实CUDA通信问题,性能取决于通过NVLink高效移动数据。测试结果将于6月30日在aiDotEngineer World's Fair上由Simran Arora分享。AI模型ParallelKernelBenchTogether ComputeCUDANVLink基准测试推荐理由:Together Compute搞了个ParallelKernelBench,专门测LLM能不能写好复杂的多GPU内核,比单GPU难多了,感兴趣的话可以去现场听分享。原文
13:51Together AI@togethercomputeTogether AI 构建了基于 Parakeet 的语音转文本堆栈,每秒可处理约 302 秒音频,这是 Artificial Analysis 报告中最高速度因子。该堆栈在 Together 平台上运行,通过系统级优化实现低延迟转录。文章由 @FeelTheBeurn 详细拆解了背后的工程工作。AI模型ParakeetTogether AI语音识别推理优化速度基准推荐理由:Together AI 把 Parakeet 优化到每秒转写 302 秒音频,比别的服务快一大截,想搞语音识别的可以看看这篇系统调优拆解。原文
13:51Together AI@togethercomputeGLM-5.2模型在Together AI平台上运行,生成精美Web应用的成本仅需几美分。开发者可以以极低开销探索多个方向、比较不同版本,并保留最佳结果。这显著改变了传统的构建迭代循环,降低了实验门槛。AI模型GLM-5.2Together AI编程助手推荐理由:GLM-5.2在Together AI上几美分就能生成网页应用,开发者可以随便试不同版本,挑最好的,省钱又高效。原文
13:51Together AI@togethercompute精选ParallelKernelBench评估了LLMs编写多GPU内核的能力,包含87个来自Megatron-LM、DeepSpeed、DeepEP、TensorRT-LLM、NeMo-RL等真实代码库的问题。测试结果显示LLMs在单GPU内核上表现良好,但在多GPU场景下完全失败。该研究由Willy Chan等人完成,揭示了当前LLM在多GPU编程中的核心缺陷。AI模型ParallelKernelBenchMegatron-LMDeepSpeed多GPU基准测试推荐理由:新基准ParallelKernelBench发现,LLM写单GPU代码还行,但多个GPU一起就瞎了。想看看AI编程到底卡在哪?原文
13:51Together AI@togethercomputeGLM-5.2 现已上线,用户可通过 Together Chat 免费体验。无需 API 设置,直接选择模型即可开始使用。Together AI 在安全的北美基础设施上提供服务,方便开发者快速测试。该模型免费试用的入口已公开,降低了体验门槛。AI模型GLM-5.2Together AITogether Chat免费试用推荐理由:想试试GLM-5.2?现在Together Chat上就能免费用,不用搭API,选模型直接开聊。原文
13:51Together AI@togethercompute精选智谱AI的GLM-5.2模型在Together AI平台展示了端到端代码修复能力,可读取issue、推理场景并自动生成补丁。一年前这类任务还被认为是闭源模型(如GPT-4)的专属领域,如今开源模型已能胜任。该模型未公布具体基准分数,但实际演示表明其编程推理能力接近闭源水平。AI模型GLM-5.2Together AI推理模型编程助手开源模型推荐理由:开源模型GLM-5.2能自己读代码问题、推理并修复,以前只有闭源模型才能做到,现在用Together AI就能跑。原文
13:50阿里云 Alibaba Cloud@alibaba_cloud阿里云宣布 HappyHorse 1.1 即日起作为 Creative Fabrica Studio 的默认 AI 视频生成模型上线。新模型提供更快的生成速度和更高的视频质量。为庆祝升级,所有使用 HappyHorse 1.1 的视频生成享 50% 折扣,优惠持续一周。该模型面向设计师、营销人员和内容创作者开放。AI模型HappyHorse 1.1Creative Fabrica StudioAlibaba Cloud视频生成推荐理由:阿里云升级了HappyHorse 1.1,现在Creative Fabrica Studio默认用它生成视频,速度更快画质更好,而且这周所有视频生成都打五折。原文
13:50阿里云 Alibaba Cloud@alibaba_cloud精选在 Flink Forward Asia Shenzhen 2026 上,阿里巴巴云研究员冯王提到,AI 时代模型与数据共同决定智能体质量。Apache Flink 升级为 Agentic Streaming for AI,并与 Agentic Lake 协同,构建面向 AI 的原生数据基础设施。该架构支持实时代理工作流,为下一代智能体提供统一数据底座。AI模型Apache FlinkAgentic StreamingAgentic Lake阿里巴巴流处理推荐理由:阿里巴巴把 Apache Flink 改造成专门给 AI 智能体用的实时流处理引擎,和 Agentic Lake 搭着用,比传统批处理更适合 Agent 场景。原文
13:50阿里云 Alibaba Cloud@alibaba_cloud阿里云推出HappyHorse 1.1视频生成模型,已在ComfyUI、runware、fal、replicate、Picsart等平台集成。开发者可通过阿里云Model Studio直接调用模型进行创作。该版本优化了视频生成质量和效率。AI模型HappyHorseAlibaba CloudComfyUI视频生成open source推荐理由:阿里云最新的视频生成模型HappyHorse 1.1,ComfyUI和Fal这些平台都已经接上了,想试试直接去Model Studio玩。原文
13:50阶跃星辰 Stepfun@Stepfun_AIStepFun宣布与Cline合作,将其Step 3.7 Flash模型集成到Cline中。该模型专为代理式编程工作流设计,具备能力、速度和可靠性。从即日起,Cline用户可免费使用Step 3.7 Flash一个月。用户只需在Cline中输入'/model → Step 3.7 Flash'即可切换。AI模型Step 3.7 FlashCline编程助手智能体推荐理由:StepFun把自家Step 3.7 Flash模型免费给Cline用一个月,写代码的代理工作流更稳更快了,试试看。原文
13:50阶跃星辰 Stepfun@Stepfun_AI精选StepFun 发布 Step 3.7 Flash 模型,专为高效智能体工作负载设计。该模型具备原生多模态理解、强智能体编程能力、可靠工具调用以及网页与视觉搜索工作流。模型已通过 Novita Labs 在 OpenRouter 平台上提供。StepFun 称这是为生产级 AI 智能体打造的高效方案。AI模型Step 3.7 FlashStepFunNovita LabsOpenRouter智能体推荐理由:StepFun 刚出了 Step 3.7 Flash,专为智能体打造的模型,多模态、能编程、会搜图搜网页,现在就能在 OpenRouter 上试。原文
13:49阶跃星辰 Stepfun@Stepfun_AI精选Step 3.7 Flash 是开源多模态推理模型,现已在 DeepInfra API 上线。该模型支持私有端点部署,适用于专用负载场景。它专为智能体编码、工具使用、搜索和视觉工作流设计。开发者可通过 DeepInfra 的 API 直接调用。AI模型Step 3.7 FlashDeepInfra多模态推理模型开源模型推荐理由:Step 3.7 Flash 开源多模态推理模型刚上线 DeepInfra,支持私有部署,适合智能体编程和视觉任务,开发者可以试试。原文
13:49Microsoft AI@MicrosoftAI微软宣布MAI-Code-1-Flash模型现已面向GitHub Copilot Business和Enterprise用户全面开放。该模型专注于代码生成,强调速度和效率,旨在帮助开发者用更少资源构建更多功能。MAI-Code-1-Flash是微软内部开发的轻量级代码模型,针对商业和企业级使用场景优化。通过集成到GitHub Copilot,用户可直接在代码编辑器中获得实时补全和建议。AI模型MAI-Code-1-FlashGitHub CopilotMicrosoft编程助手代码生成推荐理由:微软把自家MAI-Code-1-Flash模型放进GitHub Copilot了,写代码更快更省资源,Business和Enterprise用户赶紧试试。原文
13:49Microsoft AI@MicrosoftAI精选微软推出新编程模型 MAI-Code-1-Flash,在真实 GitHub Copilot 环境中训练,具备高速和 token 高效特性。该模型可通过 VS Code 的 Copilot Chat 完成规划、构建、运行和测试。演示中,它从单个 frost banner 生成完整季节性快照并通过测试,耗时几分钟,成本仅几美分。AI模型MAI-Code-1-FlashMicrosoft编程助手代码生成GitHub Copilot推荐理由:微软出了个新模型 MAI-Code-1-Flash,直接在 Copilot 里跑,能自动把草图变成完整测试通过的代码,又快又便宜。原文
13:49Microsoft AI@MicrosoftAI微软的 MAI-Image-2.5 在 Artificial Analysis 的文本到图像榜单中排名第2,图像编辑排名第3。该模型能对图像进行精确编辑,例如将雨窗模糊场景转换为清晰街景,同时保持物体一致性、光照、反射和场景几何。模型现已通过 Foundry API、MAI Playground 和 OpenRouter 提供使用。AI模型MAI-Image-2.5Microsoft图像生成图像编辑多模态推荐理由:微软 MAI-Image-2.5 图像生成排第2、编辑排第3,还能把雨窗变清晰,想用去 Foundry API 或 OpenRouter 试试。原文
13:49Microsoft AI@MicrosoftAI微软AI在推文中介绍了构建编码模型的全流程,包括训练阶段的优化策略、评估方法、性能调优、安全性考量以及收集真实开发者反馈。文章深入展示了从模型设计到部署的每个环节,帮助理解如何让编码模型适配开发者的实际工作场景。AI模型微软AI编码模型模型训练AI安全编程助手推荐理由:微软AI分享了他们训练编码模型的实战细节,从评估到安全都有,做编程助手的人值得看看。原文
13:49阶跃星辰 Stepfun@Stepfun_AIStepFun 的 Step 3.7 Flash 模型已在 AI 平台 ZenMuxAI 上架。该模型支持多模态输入,针对实际工作流优化,推理速度较快。用户可在 ZenMuxAI 上免费使用该模型30天。AI模型Step 3.7 FlashZenMuxStepFun多模态免费试用推荐理由:StepFun 的新模型 Step 3.7 Flash 上线 ZenMux,多模态且快,还能免费用一个月,想试试的别错过。原文
13:49Jasper AI@heyjasperai精选72°Jasper Research 宣布推出 MONET 数据集,从 29 亿张图片中精炼出 1.049 亿张高质量样本,成为全球最大的开放文本-图像数据集。该数据集采用 Apache 2.0 许可,可免费商用。同时发布的 nano-t2i 方案支持在单张 GPU 上训练有竞争力的文生图模型。AI模型MONETJasper Researchnano-t2iApache 2.0多模态推荐理由:Jasper Research 放出了 MONET 数据集,有 1 亿多张图,免费商用,还能用 nano-t2i 在单卡上训练模型,做文生图的值得试试。原文
13:49Together AI@togethercomputeGLM-5.2模型已在Together AI平台上架,并通过OpenRouter快速提供服务。Together AI优化推理路径,使模型在长上下文编码和智能体工作负载中每GPU能处理更多token,同时保持低延迟。该模型展现出强劲性能,适合需要高吞吐的复杂任务。AI模型GLM-5.2Together AIOpenRouter推理模型长上下文推荐理由:GLM-5.2跑得快,长上下文和智能体场景下Together的优化让token更多更流畅,试试看。原文
13:49Ethan Mollick@emollickAA-Briefcase评分由@ArtificialAnlys发布,用于衡量AI完成多周复杂咨询任务的能力。最新得分曲线显示,AI模型在短期内取得了快速进步。开放权重模型与封闭模型之间存在明显的差距,封闭模型整体表现更优。该评测揭示了当前AI在多步骤复杂任务中的能力差异。AI模型AA-Briefcase开放模型封闭模型AI基准推荐理由:新评测让AI做多周复杂咨询,结果看到开放模型和封闭模型差距挺大,进步也很快。原文
13:49Ethan Mollick@emollickGLM-5.2是一款开源模型,其性能不及GPT-5.5和Opus 4.8,更远不及Mythos。但它表现扎实,表明开源模型持续追赶前沿。当前开源权重已触及GPT-5.2水平,在该能力区间表现显著。这一进展说明开源模型正在缩小与闭源前沿的差距。AI模型GLM-5.2GPT-5.5Opus 4.8Mythos开源模型推荐理由:GLM-5.2虽然没追上GPT-5.5,但开源模型又往前迈了一大步,能力提升明显,值得关注。原文
13:48Ethan Mollick@emollick一项实验测试了AI在端到端编码任务中的能力。Opus 4.7在14小时内构建了一个软件包,相当于人类工程师2-17周的工作量,总花费251美元。虽然模型仍不完美,但进步速度显著。AI模型Opus 4.7编程助手编码能力AI基准测试推荐理由:Opus 4.7只用14小时和251块就干完了人类几周的活,虽然还有瑕疵,但进步真的快。原文
13:48岚叔@lufzzlizGPT-5.5-Cyber 在安全基准 CyberGym 上击败了 Mythos 5,取得领先成绩。使用该模型需向官方申请权限,个人和企业均可,用途限定为授权防御场景,如漏洞研究、红队、渗透测试、恶意软件分析、威胁情报、事件响应。此外,Codex 推出了新插件,可利用 gpt-5.5(reasoning 设 high/xhigh)进行代码安全扫描与修复。AI模型GPT-5.5-CyberMythos 5CyberGym安全模型Codex2 个信源在谈推荐理由:GPT-5.5-Cyber 在安全基准 CyberGym 上直接碾压了 Mythos 5,想搞红队或漏洞分析的话可以申请权限试试。原文