导读 《自然》杂志发表的一篇论文介绍了Meta人工智能模型背后的技术,该模型可以翻译200种不同的语言。该模型扩大了可通过机器翻译进行翻译的语...
《自然》杂志发表的一篇论文介绍了Meta人工智能模型背后的技术,该模型可以翻译200种不同的语言。该模型扩大了可通过机器翻译进行翻译的语言数量。
神经机器翻译模型利用人工神经网络来翻译语言。这些模型通常需要大量可在线访问的数据进行训练,而对于某些语言(称为“低资源语言”),这些数据可能不公开、不便宜或不常见。增加模型的语言输出(即其翻译的语言数量)可能会对模型的翻译质量产生负面影响。
MartaCosta-jussà和NoLanguageLeftBehind(NLLB)团队开发了一种跨语言方法,该方法允许神经机器翻译模型学习如何利用其先前存在的翻译高资源语言的能力来翻译低资源语言。
因此,研究人员开发了一种名为NLLB-200的在线多语言翻译工具,它包含200种语言,其中低资源语言的数量是高资源语言的三倍,性能比现有系统高44%。
由于研究人员只能访问许多资源匮乏的语言的1,000-2,000个样本,为了增加NLLB-200的训练数据量,他们利用语言识别系统来识别更多给定方言的实例。该团队还从互联网档案中挖掘了双语文本数据,这有助于提高NLLB-200提供的翻译质量。
作者指出,该工具可以帮助那些很少翻译的语言的人访问互联网和其他技术。此外,他们强调教育是一个特别重要的应用,因为该模型可以帮助那些说资源匮乏的语言的人获得更多的书籍和研究文章。然而,Costa-jussà和合著者承认,误译仍可能发生。