09:50rohanpaul_ai@rohanpaul_ai《自然医学》一项研究对比了OpenEvidence、UpToDate Expert AI与GPT-5.2、Gemini 3.1 Pro、Claude Opus 4.6在医学考试题、临床风格回答及医生真实提问上的表现。在100个脱敏临床问题中,盲审医生更偏好前沿通用模型,尤其在完整性和清晰度上胜出。结果显示通用LLM在医生评审的临床任务中已超越专用医疗AI产品。论文GPT-5.2Gemini 3.1 ProClaude Opus 4.6Nature Medicine医疗AI推荐理由:通用模型在医疗任务上反超专用AI原文
12:49arXiv: OpenAI@Varun Aggarwal, Kay Kobak, John Howarter精选普渡大学暑期本科研究项目(SURF)每年收到数千份申请,传统人工评审耗时数周。研究人员开发了基于GPT-4o、GPT-5-mini和GPT-5.2的LLM工具,对1200份个人陈述进行结构化评分(六项子标准,0-3分)。GPT-5.2处理全部申请仅需4.6小时,平均每份14秒,且评分一致性最高。项目协调员结合LLM输出的分数和理由,在4小时内完成终审,而此前需要数周协调。该工具在低分申请上评分分歧较大,但整体显著缩短了评审周期。AI产品LLM应用教育/评审GPT-5.2自动化工作流普渡大学推荐理由:高校行政人员或科研项目管理者终于有了可落地的AI用例——LLM自动评分+理由输出,把数周评审压缩到几小时,做大规模申请筛选的团队可以直接参考这套工作流。原文
02:27Ethan Mollick@emollick一项研究显示,GPT-5.2 在同行评审中达到专家水平。45 位科学家花费 469 小时,对 82 篇论文的人类和 AI 评审进行了评估。结果发现,当前 AI 评审者甚至能与 Nature 官方顶级评审员竞争,尽管仍存在弱点。这表明 AI 在学术评审领域有巨大潜力,可能改变科研出版流程。AI模型GPT-5.2同行评审学术出版科研工具AI 评估推荐理由:科研人员和学术编辑终于有了高效的评审助手——GPT-5.2 的评审质量已接近 Nature 顶级评审员,做论文审稿或投稿的团队值得关注这项进展。原文
16:33百川智能 Baichuan@BaichuanAI百川智能正式开源了新一代医疗大模型Baichuan-M3,该模型在HealthBench上取得65.1分,并在HealthBench Hard上以44.4分夺冠。在医疗领域,Baichuan-M3全面超越了GPT-5.2。这一开源举措将推动医疗AI的普及和进步,为医疗行业开发者提供强大的工具。AI模型百川智能Baichuan-M3医疗大模型开源GPT-5.2推荐理由:医疗AI开发者终于有了开源且超越GPT-5.2的模型——Baichuan-M3在HealthBench上夺冠,做医疗诊断或健康咨询的团队可以直接拿来用,建议点开看看具体性能。原文