19:56量子位@听雨由三位00后开发者耗时两个月打造的流式音视频社交模型,在推理速度上达到SOTA水平。相比谷歌的Veo 3,其速度提升7倍,成本降低至1/2000。模型支持实时音视频交互,适用于社交场景。AI模型Veo 3流式模型音视频社交SOTA推荐理由:三个00后做的音视频社交模型,速度比谷歌Veo 3快7倍,成本低到吓人,适合实时互动场景。原文
15:55marktechpost@Asif Razzaq精选NVIDIA发布了Nemotron 3.5 ASR,一个600M参数的流式语音识别模型。该模型采用cache-aware架构,可从单个检查点实时转录40种语言-区域。它针对低延迟场景优化,支持多种语言的实时语音转文字。AI模型Nemotron 3.5 ASRNVIDIA语音识别流式模型多语言10 个信源在谈推荐理由:600M模型转40语言实时原文