近日,多个与文本(text)相关的AI进展集中发布,涵盖文生视频、模型性价比、文本动画、多模态对齐和文本嵌入等方向。
- 主要进展:
- 阿里Wan2.7在LMSYS文生视频竞技场中登顶第三,显示出中国模型在文本到视频生成领域的快速进步(阿里Wan2.7登顶文生视频竞技场第三)。
- LMArena发布Text Arena价格-性能帕累托前沿分析,指出达到GPT-4级文本质量所需的成本已下降500倍,模型性价比大幅提升(Text Arena 价格-性能帕累托前沿:GPT-4 级质量成本下降 500 倍)。
- 一项名为"Animate Text Skill"的工作被提出,允许AI Agent创建24种文字动画,且不依赖特定库,通过规格驱动实现(Animate Text Skill:让 Agent 创建 24 种文字动画,库无关规格驱动)。
- 一篇预印本论文提出检索增强的多模态对齐方法,利用文本描述事件(what)和表格记录时间(when)重建临床时间线,弥合文本与结构化数据之间的鸿沟(Text Knows What, Tables Know When:检索增强多模态对齐重建临床时间线)。
当前焦点:
文本相关的AI发展正从单纯的生成质量竞争转向成本效率、多模态融合和实用技能(如动画生成)的多样化探索。LMArena的性价比分析提示,未来文本模型的选择将更注重实际应用场景的成本效益;而跨模态对齐研究则试图解决真实世界数据中文本与非结构化表格信息的整合难题。