加入收藏 | 设为首页 | 会员中心 | 我要投稿 南通站长网 (https://www.0513zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 动态 > 正文

要传播“信息”而不是“病毒”!

发布时间:2021-02-25 13:12:30 所属栏目:动态 来源:互联网
导读:这种关于全球疫情的消息,肯定是希望能够覆盖到更多的人,但是目前很多地区面临语言障碍而导致信息的传播受阻,哪怕只是想告诉人们要勤洗手。 为了让更多的人能够了解洗手的重要性,一位名叫Daniel Whitenack的AI大佬用使用了多语言无监督方法来训练500多种

这种关于全球疫情的消息,肯定是希望能够覆盖到更多的人,但是目前很多地区面临语言障碍而导致信息的传播受阻,哪怕只是想告诉人们要勤洗手。

为了让更多的人能够了解洗手的重要性,一位名叫Daniel Whitenack的AI大佬用使用了多语言无监督方法来训练500多种语言的跨语言词向量,然后从现有目标语言文档中提取“洗”、“手”的部分,然后将这些部分组合起来,生成了510种语言中“洗手”的短语翻译。

Daniel用的是Facebook开发的MUSE(Multilingual Unsupervised and Supervised Embeddings)库,训练了544种语言和英语之间的跨语言词向量,而这些向量允许从现有文档中提取与目标短语“洗手”相似的短语。

Daniel与语言社区SIL International的同事合作完成了这项工作,他们的成果可以在Ethnologue指南页面上看到——一份有着454种译文的新冠病毒指南。

 

成了2000多种语言的语义工作,目前管理着1600多种语言项目文档。所以我想他们可能已经将“洗手”或类似的短语多次翻译成数百种语言,这个猜想得到了证实!

因此我能够从我们的900多种语言档案库中快速收集文档,主要是完整的教学材料和圣经等。这些文档中的每一个都有英文对照,其中必然包含短语“洗手”或类似的短语,例如“洗脸”。此外,这些文档的质量都很高,并与当地语言社区合作进行了翻译和核查。

语言数据集有了!

但是,这里有两个问题需要克服。首先,此数据只有大多数语言的数千个样本,这与用于训练机器翻译模型的数百万个样本相比还是太少;其次,即使文档中包含目标语言中的“洗手”一词,我们也不知道该词在周围文本中的确切位置。

对于低资源语言数据集,我们当然可以利用机器翻译中的一些最新技术,但是需要花费一些时间来调整自动化的方法,以快速适应每种语言配对中的翻译模型。此外,我们定位的许多语言都没有现有的基准,可以与之比较评估指标,例如BLEU得分。

于是我选择尝试通过在现有文档中找到短语本身或短语的组成部分(例如“洗手”或“你的手”)来构建“洗手”一词。


(编辑:南通站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!