全球最大开源翻译模型！Meta出品，支持100种语音、语言！

ChatGPT新手指南 3年前 (2023) MM

3,289 0 0

8月23日，全球社交、科技巨头Meta（Facebook、Instagram等母公司）在官网宣布，开源多语音、语言，翻译、转录大模型SeamlessM4T。

（开源地址：https://github.com/facebookresearch/seamless_communication）

据Meta介绍，SeamlessM4T是首个一体化AI翻译大模型，支持100种语音、语言翻译，可执行语音到文本、语音到语音、文本到语音和文本到文本的多模式翻译任务。例如，将一段英文语音，自动翻译成地方中文语音（如闽南话）。

此外，SeamlessM4T集成了Meta之前发布的NLLB、MMS等翻译模型，并使用了270,000小时的语音和文本对齐数据。所以，这也是目前规模最大、功能最全的开源翻译模型。

SeamlessM4T简单介绍

目前，多数翻译产品只能翻译常规语音、语音，例如，中文、法语、德语、英语等，对于那些冷门使用较少的语言支持较差。

SeamlessM4T在技术层面实现了巨大突破，支持多达100种语音、语言，同时与单一翻译产品相比，翻译效率/质量、降低延迟方面更优秀，使得全球不同地区的人可以实现流程的交流。

Meta表示，SeamlessM4T能实现多模式翻译功能，主要由多款功能强大的翻译模型组合而成。

No Language Left Behind (NLLB)：Meta在2022年7月6日发布的一款支持200种语言的翻译模型，对于一些冷门语言支持较好，平均翻译准确率提升了70%以上。该模型已经为维基百科提供翻译服务。

通用语音翻译器：Meta在2022年10月19日发布的一款语音到语音的通用翻译器，可翻译、识别多种地方口头语言，例如，闽南语，打破了不同地区之间的沟通障碍。

Massively Multilingual Speech（MMS）：Meta在今年5月22日发布的超大规模语音、语言AI模型，可识别4,000多种口语，支持1,100多种文本转语音、语音转文本和语音合成。

从上述产品介绍不难看出，Meta将自己所有单领域最强AI翻译模型集成在一起，组合成了翻译界的“变形金刚”SeamlessM4T。

SeamlessM4T训练数据

SeamlessM4T能支持如此多的语音、语言翻译，主要得益于高质量训练数据集，包括语音到文本、语音到语音、文本到文本等。但仅靠人工翻译和转录的语音、文本数据根无法满足100种语言。

所以，Meta为200种语言构建了一个名为SONAR的，大规模多语言和模态文本嵌入空间。该方法在多语言相似性搜索中，大大优于LASER3或LaBSE 等。再将SONAR的方法同步扩展至语音模态，目前涵盖36种语言。

此外，Meta通过对公开网络数据（数百亿个句子）和语音存储库（400 万小时）进行数据挖掘，获得了443,000小时的语音与文本对齐数据，以及创建约29,000小时的语音到语音对齐数据。然后对SeamlessM4T进行预训练和微调。

评测结果

SeamlessM4T在100种语言中实现了最先进的翻译结果，并在自动语音识别、语音转文本、语音转语音、文本转语音和文本转语音等，实现了多任务支持、文本翻译全部在一个模型中完成。

为了在不依赖基于文本的指标的情况下更准确地进行评估，Meta将无文本指标扩展到 BLASER 2.0，可以跨语音和文本单元进行评估，其准确性与前身相似。

在进行鲁棒性测试时，与当前最先进的翻译模型相比，SeamlessM4T在语音转文本任务中针对背景噪声和说话人变化的表现更好，平均分别提高了37%和48%。

Meta还显着提高了所支持的中低资源语言的性能，并保持了高资源语言的强劲性能。

资料来源：https://mp.weixin.qq.com/s/VkhzzdpiSIMLeO1l16KEzQ

2,584 0

2,439 0

4,593 4

2,170 0

3,724 0

2,494 0