SeamlessM4T

SeamlessM4T是首个一体化AI翻译大模型，支持100种语音、语言翻译，可执行语音到文本、语音到语音、文本到语音和文本到文本的多模式翻译任务。

此外，SeamlessM4T集成了Meta之前发布的NLLB、MMS等翻译模型，并使用了270,000小时的语音和文本对齐数据。所以，这也是目前规模最大、功能最全的开源翻译模型。

目前，多数翻译产品只能翻译常规语音、语音，例如，中文、法语、德语、英语等，对于那些冷门使用较少的语言支持较差。

SeamlessM4T在技术层面实现了巨大突破，支持多达100种语音、语言，同时与单一翻译产品相比，翻译效率/质量、降低延迟方面更优秀，使得全球不同地区的人可以实现流程的交流。

Meta表示，SeamlessM4T能实现多模式翻译功能，主要由多款功能强大的翻译模型组合而成。

No Language Left Behind (NLLB)：Meta在2022年7月6日发布的一款支持200种语言的翻译模型，对于一些冷门语言支持较好，平均翻译准确率提升了70%以上。该模型已经为维基百科提供翻译服务。

通用语音翻译器：Meta在2022年10月19日发布的一款语音到语音的通用翻译器，可翻译、识别多种地方口头语言，例如，闽南语，打破了不同地区之间的沟通障碍。

Massively Multilingual Speech（MMS）：Meta在今年5月22日发布的超大规模语音、语言AI模型，可识别4,000多种口语，支持1,100多种文本转语音、语音转文本和语音合成。

从上述产品介绍不难看出，Meta将自己所有单领域最强AI翻译模型集成在一起，组合成了翻译界的“变形金刚”SeamlessM4T。

SeamlessM4T训练数据

SeamlessM4T能支持如此多的语音、语言翻译，主要得益于高质量训练数据集，包括语音到文本、语音到语音、文本到文本等。但仅靠人工翻译和转录的语音、文本数据根无法满足100种语言。

所以，Meta为200种语言构建了一个名为SONAR的，大规模多语言和模态文本嵌入空间。该方法在多语言相似性搜索中，大大优于LASER3或LaBSE 等。再将SONAR的方法同步扩展至语音模态，目前涵盖36种语言。

此外，Meta通过对公开网络数据（数百亿个句子）和语音存储库（400 万小时）进行数据挖掘，获得了443,000小时的语音与文本对齐数据，以及创建约29,000小时的语音到语音对齐数据。然后对SeamlessM4T进行预训练和微调。

评测结果

SeamlessM4T在100种语言中实现了最先进的翻译结果，并在自动语音识别、语音转文本、语音转语音、文本转语音和文本转语音等，实现了多任务支持、文本翻译全部在一个模型中完成。

为了在不依赖基于文本的指标的情况下更准确地进行评估，Meta将无文本指标扩展到 BLASER 2.0，可以跨语音和文本单元进行评估，其准确性与前身相似。

在进行鲁棒性测试时，与当前最先进的翻译模型相比，SeamlessM4T在语音转文本任务中针对背景噪声和说话人变化的表现更好，平均分别提高了37%和48%。

Meta还显着提高了所支持的中低资源语言的性能，并保持了高资源语言的强劲性能。

相关导航