AITOP6月11日 15:28
精选
过去 24 小时,从 747 条中筛出 38 条
6月11日
15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
15:07
AITOP6月11日 15:07
6月3日
10:01
10:01
arXiv: OpenAI@Muhammad Ali
精选
推荐理由:这是首个为巴尔蒂语打造的ASR系统,解决了低资源语言语音识别的空白,做多语言语音技术或濒危语言保护的团队可以直接用这个开源模型和语料库。
6月1日
00:09
AITOP6月1日 00:09
5月29日
5月22日
10:42
10:42
arXiv: DeepSeek@Md. Asaduzzaman Shuvo, Mahedi Hasan, Md. Tashin Parvez, Azizul Haque Noman, Md. Shafayet Hossain Ovi
精选
推荐理由:做低资源语言NLP或文化敏感对话系统的团队,这个数据集直接解决了敬语对齐的痛点,可以拿来微调自己的模型试试。
5月19日
14:03
14:03
arXiv: DeepSeek@Dylan Marx, Marcel Dunaiski
精选72°
推荐理由:安全团队和LLM开发者需要警惕:多语言安全漏洞远未被堵住,低资源语言成为新的攻击面。建议立即检查自家模型的多轮对话安全机制。
5月14日
13:36
13:36
EleutherAI@AiEleuther
精选
推荐理由:这项研究打破了多语言模型必须靠大参数量才能取得好效果的固有认知,做低资源语言 NLP 的团队可以直接参考其方法,用更小的成本覆盖更多语言。
13:27
13:27
arXiv cs.AI@Ziheng Zhang, Yunzhong Hou, Naijing Liu, Liang Zheng
精选
推荐理由:低资源语言处理是 NLP 的硬骨头,WARDEN 用两阶段设计+跨语言迁移+词典增强给出了可行方案,做低资源 ASR/NMT 的研究者可以直接参考其技术路线。
13:27
13:27
arXiv: DeepSeek@Ahmed Heakl, Youssef Mohamed, Abdullah Sohail, Rania Elbadry, Ahmed Nassar, Peter W. J. Staar, Fahad Shahbaz Khan, Imran Razzak, Salman Khan
精选
推荐理由:做多语言文档理解或 OCR 的团队终于有了一个覆盖 82 种语言的高质量基准和训练框架,低资源语言场景可以直接用 DPO 方法提升效果,建议点开看具体实现。
