百科知识

blog是什么意思网络语

blog是什么意思网络语

机器学习翻译系统通常需要大量的标注语言实例进行训练,包括书面和口头语言。像闽南语这样的无文字语言却缺乏这样的资源。为了解决这个问题,Meta的研究团队采用了一种创新的方法:利用普通话作为中间语言来建立伪标签。他们首先将英语(或闽南语)的语音翻译成普通话文本,然后再翻译回闽南语(或英语),并将其加入训练数据。

在全球已知的约7000种语言中,有近一半仍在被使用,其中40%没有广泛的书写系统。这些无文字的语言给现代机器学习翻译系统带来了独特的挑战。Meta公司最近宣布,他们已经通过最新的开源语言人工智能(AI)解决了这个问题。

作为Meta通用语音翻译器(UST)项目的一部分,Meta为闽南语建立了首个AI驱动的语音翻译系统,并展示了闽南语和英语之间的实时翻译视频。该项目的目标是开发更多实时语音到语音的翻译,以便在元宇宙中更方便地互动。

机器学习翻译系统的训练通常需要大量的标注语言数据,这对闽南语这样的无文字语言来说是一个难题。为了克服这一挑战,Meta研究团队采用了创新的解决方案。他们使用了一种名为UnitY的语音翻译系统模型架构,“这是一个双通解码机制”,第一通生成相关语言(普通话)的文本,第二通则将这些文本转化为单元,并最终转换为语音。这一过程利用普通话作为中间语言建立伪标签,将英语或闽南语的语音翻译成普通话文本后,再翻译回目标语言。通过这种方式,Meta的研究团队解决了缺乏足够的标注语言数据的问题。Meta强调,在收集数据以及评估低资源语言的语音翻译方面面临挑战。“我们的创新技术是通过利用类似的高资源语言的数据来建立伪标签和人工翻译的方法实现的。”研究人员表示。为了评估像闽南语这样的口头语言的语音翻译质量,他们开发了一个系统将闽南语转写为标准语音符号进行评估。最后值得一提的是Meta公司正在推动扩大无监督学习技术的应用,降低扩大低资源语言覆盖面的要求。这是因为许多语言并没有任何标注的数据可以利用无监督学习技术进行模型训练Meta宣布除了发布开源模型和训练数据外还将发布首个基于闽南语语料库的语音翻译基准系统和名为SpeechMatrix的大型语音到语音翻译语料库这将使得研究人员能够创建自己的语音到语音翻译系统将未来的挑战已经清晰可见对高质量翻译系统的需求变得愈发紧迫希望能够在不久的将来为更广泛的语言社区提供实时高质量的语音到语音翻译技术以消除全球各地的语言障碍真正实现人类间的无障碍交流Meta的研究团队相信无论人们身处何地口语交流都能将他们在一起即使是在元宇宙中他们的人工智能研究正在帮助打破物理世界和元宇宙的语言障碍以鼓励联系和相互理解期待扩大研究范围并在未来将该技术带给更多的人造福全人类


blog是什么意思网络语

你可能也会喜欢...