数据学习
登录
注册
原创博客
期刊会议
学术世界
期刊出版社
领域期刊
SCI/SCIE/SSCI/EI简介
期刊列表
会议列表
所有期刊分区
学术期刊信息检索
JCR期刊分区查询
CiteScore期刊分区查询
中科院期刊分区查询
领域期刊分区
管理 - UTD24期刊列表
管理 - AJG(ABS)期刊星级查询
管理 - FMS推荐期刊列表
计算机 - CCF推荐期刊会议列表
高校期刊分区
南大核心(CSSCI)
合工大小核心
合工大大核心
AI资源仓库
AI领域与任务
AI研究机构
AI学术期刊
AI论文快讯
AI数据集
AI开源工具
AI模型
AI模型概览图
AI模型月报
AI基础大模型
AI预训练大模型
数据推荐
网址导航
我的网址导航
程序员必备网站
如何构建下一代机器翻译系统——Building Machine Translation Systems for the Next Thousand Languages
标签:
#工程实践#
#机器翻译系统#
#论文快讯#
时间:2022/05/12 23:15:05
作者:小木
本周,谷歌的研究人员在arXiv上提交了一个非常有意思的论文,其主要目的就是分享了他们建立能够翻译一千多种语言的机器翻译系统的经验和努力。 他们主要描述了三个研究领域的成果。(i) 通过利用半监督的语言识别预训练和开发数据驱动的过滤技术,为1500多种语言建立干净的网络挖掘数据集;(ii) 通过利用100多种高资源语言的监督平行数据训练的大规模多语言模型和另外1000多种语言的单语言数据集,为服务不足的语言开发实用的MT模型;(iii) 研究这些语言的评估指标的局限性,对我们MT模型的输出进行定性分析,强调这些类型模型的几种常见错误模式。我们希望我们的工作能够为致力于为目前研究不足的语言建立MT系统的从业人员提供有用的见解,并突出研究方向,以补充大规模多语言模型在数据稀少情况下的不足。 这篇论文最大的亮点是总结了谷歌在建立机器翻译系统上的一些工程实践:包括从网络爬取数据集,对于噪音的处理以及建立语料库的一些经验和技巧。同时,针对1500多个语言的大规模翻译系统面临很多长尾语言的匮乏,考虑如何去识别缺乏训练数据的长尾语言的识别与清洗,以最终获得对应的语言数据。 此外,谷歌还公布了他们的评估方法以及一些其它技巧。总之,这篇论文最主要的贡献是从工程实践角度描述谷歌如何从底层开始一步一步收集数据,克服各种困难最终建立了一个完整的可以处理长尾语言翻译的系统。对于数据处理相关应用的架构师和开发者来说是一个非常不错的经验总结。 正文38页,加上附件有75页。 论文地址:https://arxiv.org/abs/2205.03983
欢迎大家关注DataLearner官方微信,接受最新的AI技术推送
相关博客
最热博客