03:08@koltregaskes@koltregaskes78°GPT-5.6 Sol Preview 出现在 Cursor 的内部测试中,据称支持 100 万 token 上下文窗口。该发现来自 X 用户 koltregaskes 的截图,暗示 OpenAI 正在推进超长上下文能力。若属实,这将远超 GPT-4 的 128K 上下文上限。目前 OpenAI 尚未官方确认此模型的存在。AI模型GPT-5.6 Sol PreviewCursor上下文窗口1M上下文8 个信源在谈推荐理由:OpenAI 的 GPT-5.6 Sol Preview 悄悄在 Cursor 里测试,上下文直接拉到 1M,能一口气吞整本小说了。原文
03:07@koltregaskes@koltregaskesEthan Mollick根据Artificial Analysis的AA-Briefcase分数,绘制了AI模型在复杂多周咨询任务上的表现趋势。AA-Briefcase测试模型处理电子表格和策略规划等可交付成果。GLM-5.2等开源模型目前达到的水平,与闭源模型三个月前的分数一致。高端闭源模型仍保持明显领先,但差距在缩小。AI模型GLM-5.2AA-Briefcase开源模型智能体基准测试推荐理由:开源模型GLM-5.2在AA-Briefcase智能体基准上只差闭源三个月了,做复杂任务时值得试试看。原文
03:06@koltregaskes@koltregaskes79°DeepSeek v4 将于 7 月中旬进入通用可用(GA)阶段,部分用户已收到相关邮件通知。该版本带来更多功能优化和性能改进。具体改进细节尚未完全公开,但用户可期待更优的模型能力。AI模型DeepSeek v4DeepSeek开源模型推理模型推荐理由:DeepSeek v4 马上 GA 了,7 月中旬上线,性能有优化,想尝鲜的可以关注。原文
03:05@koltregaskes@koltregaskes精选前沿模型成本上升、令牌使用量攀升以及近期禁令,使企业自建AI变得更加必要。通过下载Llama或Qwen等开源模型,使用LoRA在自有数据上微调,部署在自有基础设施,可一次性计算成本取代按席收费。Hugging Face和LoRA已降低技术门槛,关键在于管理层是否将其视为基础设施投资而非普通软件开支。行业LlamaQwenLoRAHugging Face微调推荐理由:前沿模型越来越贵还被禁,自己微调Llama或Qwen更可控,一次性投入省月费,数据也安全。原文
01:01Vercel AI@vercelVercel 宣布其 AI Gateway 新增实时语音和转录能力,开发者可使用 useRealtime、generateSpeech 和 transcribe 三个工具。该功能基于 AI SDK 7 构建,支持实时语音交互、语音合成和语音识别。无需从零搭建基础设施,即可快速为应用加入语音代理功能。AI产品VercelAI Gatewayvoice agents语音识别实时交互推荐理由:Vercel 把语音代理直接做到 AI Gateway 里了,用 useRealtime 就能接入实时对话,省掉搭服务器。原文
00:17Hunyuan@TXhunyuan12款中国AI模型对世界杯32强比赛结果进行了预测。首轮榜单显示,腾讯混元(Tencent Hy)成功预测29场,以29/32的准确率排名第一。其他11款模型的具体准确率未在文中列出。现在比赛进入淘汰赛阶段,后续预测将更具挑战性。AI模型腾讯混元世界杯预测AI模型推荐理由:腾讯混元29/32比其他AI猜得准,看看淘汰赛还能不能撑住。原文
23:49阶跃星辰 Stepfun@Stepfun_AI精选StepFun 的 Step 3.7 Flash 模型在 Claw-Eval General 基准测试中取得第二名的成绩,该基准用于评估自主智能体。模型在多步执行和长程任务鲁棒性上表现强劲,排名仅次于 Claude Opus 4.6。这一结果显示其在真实世界智能体工作负载中的潜力。AI模型Step 3.7 FlashClaw-Eval General智能体推理模型推荐理由:StepFun 的 Step 3.7 Flash 在智能体基准 Claw-Eval General 排第二,仅次于 Claude Opus 4.6,多步执行和长程任务都强,感兴趣可以看看。原文
23:12berryxia@berryxiaMargot Van Laar在Code with Claude大会上分享提示词工程实战,核心观点是生产提示词调试维护比从零写更重要。她展示客服机器人场景:团队发现旧模型遗留的'禁止列表'指令导致新模型过度拟合,以及'请仔细计算'无效需提供计算器工具。在零售排班Agent场景中,她将复杂提示词拆成三个简单提示词(生成、评估、修复)组成循环,比单一大提示词更稳定。她强调可用Opus等更强推理模型加自适应思考来简化提示词,并务必建立量化评估基准验证改动效果。技巧AnthropicClaude提示词工程评估提示词维护8 个信源在谈推荐理由:Anthropic工程师手把手教你维护生产提示词,从客服机器人到排班Agent,拆成小提示词更靠谱,还有评估妙招。原文
23:10berryxia@berryxia精选Anthropic工程师Margot Van Laar在Code with Claude分享提示词工程最佳实践,强调通过评估(Eval)而非直接修改提示词来优化。她用客服机器人和零售排班两个案例演示:使用XML标签结构化提示词、移除旧模型遗留的禁止列表(如Claude 3 Opus)、用工具替代指令处理计算任务。拆解复杂任务为生成-评估-修复循环,并建议用更强推理模型(如Opus)加自适应思考替代小模型复杂提示词。技巧提示词工程Claude评估Claude Opus工作流8 个信源在谈推荐理由:Anthropic工程师手把手教你怎么调客服提示词和搭Agent,用Opus加循环拆解比堆复杂指令更管用,核心就一句话:先搞评估原文
20:17@elonmusk@elonmusk特斯拉AI团队在AI3计算机上取得了良好成果。AI3的有效内存带宽仅为AI4的约15%,这使得任务极具挑战性。马斯克在X平台上发帖称赞团队工作。AI产品TeslaAI3AI4特斯拉芯片推荐理由:看看特斯拉怎么用只有AI4 15%带宽的AI3完成高难度任务,挺有参考价值。原文
20:16@elonmusk@elonmusk特斯拉FSD v14 Lite版本开始向搭载AI3硬件的车主推送,Elon Musk在X上确认了这一更新。该版本是FSD系统的轻量化版本,专注于优化性能和响应速度。目前暂无详细功能变更列表,但用户可期待更流畅的自动驾驶体验。AI产品TeslaFSDv14 LiteAI3智能驾驶推荐理由:特斯拉FSD v14 Lite来了,AI3老车主快检查更新,看看自动驾驶有什么改进。原文
20:05@zarazhangrui@zarazhangrui一位创业者分享经验:每花1小时构建产品,应投入2小时用于解释、演示、销售和教学。这一比例强调产品需要持续向外界传达并基于用户反馈迭代。指出将时间优先花在传播和沟通上,是产品成功的关键。该观点源自与现实的接触和不断打磨。技巧产品开发推广技巧创业经验时间管理推荐理由:别只顾码代码,花两倍时间去推销和教学,这才是让产品落地的硬道理。原文
19:47eric zakariasson@ericzakariasson73°Elon Musk在推文中透露,Cursor团队为v9模型的SFT和RL训练做出了重要的工程贡献。当前1.5T参数量的模型已通过补充训练加入Cursor数据。而两周前开始的2T参数量训练在数据范围和规模上大幅改进,训练配方也获得多项升级,预计7月底完成,8月发布。AI模型Elon MuskCursorv9SFTRL5 个信源在谈推荐理由:Elon Musk说他们和Cursor团队合作训练v9模型,2T参数量的版本数据更全,8月就能见到,值得关注。原文
18:57vLLM@vllm_project精选NVIDIA 与 vLLM 合作发布 step-by-step 指南,教你用四台 DGX Spark 盒子组建私有集群,自托管 550B 参数的 Nemotron-3-Ultra 模型。指南基于 vLLM 官方容器,可提供兼容 OpenAI 的端点。无需数据中心,适合构建私有 agent 工作流。技巧Nemotron-3-UltraNVIDIADGX SparkvLLM自托管4 个信源在谈推荐理由:想不依赖数据中心自己跑 550B 模型?NVIDIA 出了详细教程,四台 DGX Spark 就能拼出 OpenAI 兼容的端点。原文
18:22阿里云 Alibaba Cloud@alibaba_cloud阿里云举办Qwen全球AI黑客马拉松,总奖金池超过70,000美元。参赛者需在Devpost平台注册,选择5条赛道之一,利用Qwen API构建Agent并提交作品。赛事面向全球开发者,旨在推动基于Qwen模型的创新应用开发。行业Qwen阿里云黑客马拉松Agent推荐理由:阿里云拿出7万美元办黑客马拉松,五条赛道任选,用Qwen API搭Agent就能参赛。动手能力强的话值得一试。原文
18:21阿里云 Alibaba Cloud@alibaba_cloudIDC最新报告显示,阿里云在中国关系型数据库市场连续7年排名第一,整体份额达26.1%,公有云市场份额38.1%。本地部署收入同比增长25.4%,增速远超市场平均水平。进入Agentic AI时代,ApsaraDB将集成AI技术构建AI-Native数据库服务,加速向多模态数据基础演进。PolarDB等产品已覆盖政府核心业务和AI原生应用。行业Alibaba CloudApsaraDBPolarDB关系型数据库IDC报告推荐理由:阿里云数据库连续7年拿第一,份额26.1%,公有云更是38.1%,本地收入暴涨25.4%。还搞了AI-Native数据库,以后数据+AI一条龙。做云数据库的值得看看。原文
17:55Yangyi@Yangyixxxx用户认为FunASR模型在大部分场景下可用,精度偶尔不足。建议套用LLM进行修复,可解决绝大多数问题。其被评价为中国版Whisper中性价比最高的方案。AI模型FunASRASR语音识别LLM开源模型推荐理由:有实测用户说FunASR比Whisper更值,精度不够时加个LLM就能补上,做中文语音识别可以试试。原文
17:52AI Will@FinanceYF5这条推文仅提及“最终确定 OpenAI”,未包含任何具体模型名、版本号、数字或基准名称。内容来自社交媒体用户,缺乏可验证的细节。无法确认涉及具体的产品或事件。行业OpenAI9 个信源在谈推荐理由:内容太少了,就几个字,没法给你推荐具体的点。等官方消息吧。原文
17:47阿里云 Alibaba Cloud@alibaba_cloud阿里云推出新的AI零售解决方案,基于Qwen模型,可跨所有触点理解客户,将碎片化洞察转化为个性化沉浸式体验,驱动可量化的零售增长。该方案已在大规模场景验证。AI产品QwenAlibaba CloudAI零售零售解决方案推荐理由:阿里云出了个新零售AI方案,基于Qwen模型,能跨各触点理解顾客,把零散数据变成个性化体验,还能量化增长效果。原文
17:45Browser Use@browser_useBrowser Use 团队使用 v4 版本构建 QA 基准测试,将 GLM 5.2、Opus 4.7、GPT 5.5 和 Minimax M3 四个模型在 LLM Arena 数据集上的任务进行对比。每个模型生成网站后由人工评估打分,测试涵盖多个任务类型。结果揭示了开源权重模型在特定场景下的表现差异。AI模型GLM 5.2Opus 4.7GPT 5.5Minimax M3基准测试3 个信源在谈推荐理由:他们用 Browser Use v4 搞了个新基准,测了 GLM 5.2、Opus 4.7、GPT 5.5 和 Minimax M3,人工打分告诉你谁在 QA 任务上更强。原文
17:44AI Will@FinanceYF5阿里巴巴推出 Wan Streamer,这是一个支持实时视频交互的 AI 智能体,能够通过摄像头看见用户、听取语音并实时回应。该功能突破了传统语音模式,实现了更自然的面对面交互。目前该产品已通过 Twitter 视频演示,获得 446 次浏览。AI产品阿里巴巴Wan Streamer视频交互智能体推荐理由:阿里这个 Wan Streamer 能实时看脸听声音回话,不再是纯语音,交互感拉满。原文
17:42AI Will@FinanceYF5Anthropic 的顶级网络安全模型 Mythos 5 于6月12日被美国政府以出口管制为由强制下线。15天后,该模型部分恢复使用,但仅限美国关键基础设施机构。另一模型 Fable 5 面向普通用户仍未解禁,相关谈判仍在进行。此次解禁涉及美国网络安全和出口管制政策,直接影响模型可用范围。行业AnthropicMythos 5Fable 5出口管制AI安全7 个信源在谈推荐理由:Anthropic 的 Mythos 5 是最强的网络安全模型,但被美国政府管制,现在只给关键机构用,普通人还用不了Fable 5,这事挺有意思。原文
17:13阿里云 Alibaba Cloud@alibaba_cloud阿里云CTO李飞飞在推文中表示,向Agentic Cloud的转型已经开始。他认为未来三年将由Agentic Cloud的崛起定义。智能体将利用阿里云的产品和基础设施执行复杂任务。行业Alibaba CloudAgentic Cloud智能体云基础设施推荐理由:阿里云CTO李飞飞说未来三年是Agentic Cloud的天下,智能体会用云产品干更复杂的事。原文
16:54AI Will@FinanceYF5AGI Summit SF 2026 将于2026年7月18-19日在旧金山举行,预计吸引15,000人、200+演讲嘉宾、500+风投和30+国家参与者。OpenAI、Anthropic、Google DeepMind、BlackRock等公司确认出席。第二天恰逢世界杯决赛日,增加活动热度。行业AGI Summit SF 2026OpenAIAnthropicGoogle DeepMindAI峰会10 个信源在谈推荐理由:硅谷最密集的AI现场!OpenAI、Anthropic、DeepMind全到场,15000人大会议还撞上世界杯决赛,想凑热闹的快关注。原文
16:53AI Will@FinanceYF5AGI Summit SF 2026 公布第二波嘉宾,包括 Vishal Vasishth、Fan-Yun Sun、Daksh Gupta、Alberto Taiuti、Gavin Zheng、Raymond Chen、Joshua McKibben。他们将围绕世界模型、AI信任、代码安全、基础设施扩展、影响力投资等7个议题展开讨论。峰会旨在促进AGI领域的深度交流与合作。行业AGI Summit SF 2026AI信任代码安全基础设施扩展世界模型推荐理由:AGI Summit SF 2026 第二波嘉宾名单来了,7位专家聊AI信任、代码安全和基础设施,看点十足。原文
16:32coderabbitai@coderabbitaiCodeRabbit发布了其AI代码审查Agent的Discord集成。原本用于审查GitHub PR的代码审查工具现在可以直接在Discord社区内部使用。这一更新让团队无需切换平台即可获得自动代码审查反馈。CodeRabbit Agent能够分析代码变更、提供建议并在Discord中实时讨论。AI产品CodeRabbitDiscord代码审查编程助手AI Agent推荐理由:CodeRabbit把PR审查机器人搬进Discord了,你们社区可以直接在聊天里审代码,不用来回切窗口。原文
16:23Geek@geekbb该项目用 SwiftUI 开发原生 macOS 应用,为 Apple silicon 上的容器 CLI 提供图形界面。支持容器生命周期管理、七个详情标签页、镜像拉取构建推送、卷和网络管理、注册表登录、Compose 导入、模板库等功能。对标 Docker Desktop 交互体验,目标平替 OrbStack。开源地址 github.com/tdeverx/contai…AI产品SwiftUImacOSApple silicon容器管理OrbStack1 个信源在谈推荐理由:如果你用 Apple silicon Mac 平时要管容器,这个原生图形界面比命令行方便多了,直接对标 Docker Desktop 和 OrbStack,开源自已能改。原文
16:17小互@imxiaohu据社交平台爆料,OpenAI 可能在今晚发布 GPT 5.6 模型。该推文已有 10 条评论、7 个点赞和 886 次查看。目前尚无官方确认或具体参数信息。AI模型GPT 5.6OpenAI模型发布4 个信源在谈推荐理由:OpenAI 可能要发 GPT 5.6 了,虽然没有细节,但可以蹲一下今晚的更新。原文
16:12ElevenLabs@elevenlabsioEmployment Hero是一个服务超过35万家企业的AI驱动HR、薪资和招聘平台。该公司使用ElevenLabs的ElevenAgents在几天内成功部署了AI招聘外呼语音代理。首次营销活动实现了33%的接听率和超过3%的激活率。这证明了ElevenAgents能够快速落地并带来可衡量的转化效果。AI产品ElevenLabsElevenAgentsEmployment Hero智能体AI招聘推荐理由:嘿,ElevenLabs的新工具真牛,Employment Hero几天就搭好了AI招聘电话代理,接通率33%,激活率3%+,搞自动化招聘的可以看看。原文
15:52@koltregaskes@koltregaskes评论指出,自GPT-2以来,模型安全审查不可避免,当前GPT-5.6和Fable 5等前沿模型需通过美国政府的逐客户审批,导致付费用户被延迟访问数天至数月。作者支持审查但反对永久封锁和基于公民身份的准入限制,认为政府应建立白名单机制加速预览阶段。已有用户因延迟起诉政府,国际用户可能被限制使用低规格模型。行业GPT-5.6Fable 5AI监管模型审查3 个信源在谈推荐理由:聊聊GPT-5.6和Fable 5的审查闹剧:政府逐单审批不合理,付费用户可能白花钱,国际用户可能被抛弃。原文
15:44@koltregaskes@koltregaskes有观点认为,某些前沿模型(如GPT-6 vs GPT-5.8)可能只在美国首发,欧洲和英国已等待数周至数月。若版本差距拉大到多个月,中国模型(如DeepSeek、Qwen等)在欧洲市场将更具竞争力。这一趋势源于美国政策或公司策略导致的地区延迟发布。行业GPT模型欧洲中国模型模型发布延迟版本差距推荐理由:担心在美国以外拿不到最新模型?这篇讨论GPT版本差距和中国模型的机会,尤其是欧洲用户的备选方案。原文
15:42@koltregaskes@koltregaskes精选Nature Medicine论文对GPT-5、Gemini 2.5 Pro等前沿模型进行了医学视觉推理压力测试,通过移除图像、替换图像、调整问题格式来检验模型是否真正理解。结果显示,在标准基准上表现优异的模型在条件变化时出现推理不稳、幻觉视觉细节等问题。作者将测试框架开源,随后有人用GPT-5.5 Pro重新运行,得分从之前最好的67-70%提升至79%,约10个百分点的进步。这解决了论文发表时模型已过时的问题,使评估能随模型更新而保持时效性。论文GPT-5Gemini 2.5 Pro医学视觉推理压力测试开源推荐理由:Nature Medicine那篇论文把模型考倒了,但作者直接把考卷开源了。后来GPT-5.5 Pro重新考,分数涨了10%!原文
15:41@koltregaskes@koltregaskes商汤推出了U1 Pro图像思考模型,该模型在图像生成能力上与GPT Image 2持平甚至更优。U1 Pro支持高达8K分辨率输出,专为设计场景优化。内部测试将于7月启动,之后计划公开发布。AI模型U1 ProSenseTimeGPT Image 2图像生成推理模型推荐理由:商汤新模型U1 Pro据说能和GPT Image 2比一比,还支持8K图,设计师7月就能内测了。原文
15:38@koltregaskes@koltregaskes91°OpenAI 开放了 GPT-5.6 模型家族的有限预览,包括旗舰版 Sol、性价比版 Terra 和快速版 Luna。Sol 引入最大推理努力和超模式,使用子代理加速复杂任务,在 Terminal-Bench 2.1 上领先,并在网络安全基准上匹配 Mythos Preview 性能,仅用三分之一输出令牌。系统卡将网络和生物能力评为高,但低于自主全链利用的关键阈值。更广泛可用性计划在未来几周内推出。AI模型OpenAIGPT-5.6Sol推理模型智能体7 个信源在谈推荐理由:OpenAI 终于放出 GPT-5.6 预览,Sol 在编程和网络安全测试上效率高,Terra 半价达 GPT-5.5 水平,想尝鲜可以关注。原文
15:19Geek@geekbb推文作者分享了使用 Qwen3-8B 模型与 DSpark 工具进行本地部署的体验。该推文获得 737 次查看,反映了用户对消费级显卡运行大模型的渴望。当前消费级显卡显存普遍不足,难以直接运行 8B 参数模型。AI模型Qwen3-8BDSpark本地部署消费级显卡推荐理由:有人实测了 Qwen3-8B 配合 DSpark 本地跑,说能流畅运行但显存不够,感觉消费级显卡该升级了。原文
14:57阿里云 Alibaba Cloud@alibaba_cloud阿里云国际宣布与AI公司NovaxAI建立战略合作。通过整合阿里云的全球云基础设施和AI能力,以及NovaxAI的独特技术,双方将助力AI企业实现更快、更稳定、更高效的全球扩张。合作未透露具体技术细节或金额。行业阿里云NovaxAI合作AI基础设施推荐理由:阿里云联手NovaxAI,帮AI公司出海更稳更快,云服务加AI能力的新组合。原文
14:55宝玉@dotey有用户发现,在 Codex 应用中将模型选为 GPT-5.5 并设置推理为 xhigh 后,运行 Juice 测试 Prompt 若返回 128 则实际使用的是 GPT 5.6 Sol,否则返回 768 就是 GPT 5.5。该 Prompt 要求模型输出 Juice 数除以2乘10再除以5的结果。目前测试仍返回 768,说明多数用户尚未灰度到 GPT 5.6 Sol。技巧GPT 5.6 SolGPT 5.5提示词工程推理模型推荐理由:想提前知道自己的 GPT 5.5 是不是偷偷升级了?用这个 Juice 测试 Prompt 一试便知,很简单。原文
14:21Richard Socher@RichardSocherRichard Socher指出,随着越来越多的人使用AI,对幻灯片、电子表格、文档等工作成果的可接受标准将上升。目前多数管理者尚未精通AI,因此低质量结果尚未普遍受到惩罚。未来,达不到AI辅助水平的工作者可能难以保住职位,顶级人才借助AI会变得更加出色。行业Richard SocherAI工作质量行业趋势推荐理由:Richard Socher的观点很直接:以后用AI做不好工作的人会很难混,顶尖的人会更强。原文
13:59Ate-a-Pi@svpino中国AI公司纷纷发布自己的SOTA(State-of-the-Art)模型,但所有公司都选择将其开源。与美国的封闭模式不同,中国企业在激烈竞争的同时,将模型权重和代码公开分享给全球社区。这种独特的生态让外界看到中国AI发展的另一条路径。行业中国开源模型SOTAAI生态推荐理由:中国AI公司都在卷开源,跟美国完全不一样,看看他们怎么一边竞争一边分享的。原文
13:58Ate-a-Pi@svpino这个开源项目允许你录制浏览器操作,系统会自动清理录制内容,移除重试、死路和页面特定细节。然后它只保留任务逻辑而非具体点击,将其转化为可复用的技能。最后这些技能被组织成技能图谱,智能体可检索用于相关新任务。整个过程完全开源。技巧开源浏览器自动化智能体技能图谱工作流推荐理由:有个开源项目能录制你在浏览器里做的事,自动变成可复用的技能,还能让智能体直接调用,省去重复劳动。原文