SeamlessM4T是首个一体化AI翻译大模型,支持100种语音、语言翻译,可执行语音到文本、语音到语音、文本到语音和文本到文本的多模式翻译任务。
此外,SeamlessM4T集成了Meta之前发布的NLLB、MMS等翻译模型,并使用了270,000小时的语音和文本对齐数据。所以,这也是目前规模最大、功能最全的开源翻译模型。
目前,多数翻译产品只能翻译常规语音、语音,例如,中文、法语、德语、英语等,对于那些冷门使用较少的语言支持较差。
SeamlessM4T在技术层面实现了巨大突破,支持多达100种语音、语言,同时与单一翻译产品相比,翻译效率/质量、降低延迟方面更优秀,使得全球不同地区的人可以实现流程的交流。
Meta表示,SeamlessM4T能实现多模式翻译功能,主要由多款功能强大的翻译模型组合而成。
No Language Left Behind (NLLB):Meta在2022年7月6日发布的一款支持200种语言的翻译模型,对于一些冷门语言支持较好,平均翻译准确率提升了70%以上。该模型已经为维基百科提供翻译服务。
通用语音翻译器:Meta在2022年10月19日发布的一款语音到语音的通用翻译器,可翻译、识别多种地方口头语言,例如,闽南语,打破了不同地区之间的沟通障碍。
Massively Multilingual Speech(MMS):Meta在今年5月22日发布的超大规模语音、语言AI模型,可识别4,000多种口语,支持1,100多种文本转语音、语音转文本和语音合成。
从上述产品介绍不难看出,Meta将自己所有单领域最强AI翻译模型集成在一起,组合成了翻译界的“变形金刚”SeamlessM4T。
SeamlessM4T训练数据
SeamlessM4T能支持如此多的语音、语言翻译,主要得益于高质量训练数据集,包括语音到文本、语音到语音、文本到文本等。但仅靠人工翻译和转录的语音、文本数据根无法满足100种语言。
所以,Meta为200种语言构建了一个名为SONAR的,大规模多语言和模态文本嵌入空间。该方法在多语言相似性搜索中,大大优于LASER3或LaBSE 等。再将SONAR的方法同步扩展至语音模态,目前涵盖36种语言。
此外,Meta通过对公开网络数据(数百亿个句子)和语音存储库(400 万小时)进行数据挖掘,获得了443,000小时的语音与文本对齐数据,以及创建约29,000小时的语音到语音对齐数据。然后对SeamlessM4T进行预训练和微调。
评测结果
SeamlessM4T在100种语言中实现了最先进的翻译结果,并在自动语音识别、语音转文本、语音转语音、文本转语音和文本转语音等,实现了多任务支持、文本翻译全部在一个模型中完成。
为了在不依赖基于文本的指标的情况下更准确地进行评估,Meta将无文本指标扩展到 BLASER 2.0,可以跨语音和文本单元进行评估,其准确性与前身相似。
在进行鲁棒性测试时,与当前最先进的翻译模型相比,SeamlessM4T在语音转文本任务中针对背景噪声和说话人变化的表现更好,平均分别提高了37%和48%。
Meta还显着提高了所支持的中低资源语言的性能,并保持了高资源语言的强劲性能。