DataLearner 标志DataLearnerAI
AI技术博客
大模型评测排行
大模型评测基准
AI大模型大全
AI资源仓库
AI工具导航

加载中...

DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
  1. 首页/
  2. 博客列表/
  3. 博客详情

如何构建下一代机器翻译系统——Building Machine Translation Systems for the Next Thousand Languages

2022/05/12 23:15:05
906 阅读
工程实践机器翻译系统论文快讯

本周,谷歌的研究人员在arXiv上提交了一个非常有意思的论文,其主要目的就是分享了他们建立能够翻译一千多种语言的机器翻译系统的经验和努力。

他们主要描述了三个研究领域的成果。(i) 通过利用半监督的语言识别预训练和开发数据驱动的过滤技术,为1500多种语言建立干净的网络挖掘数据集;(ii) 通过利用100多种高资源语言的监督平行数据训练的大规模多语言模型和另外1000多种语言的单语言数据集,为服务不足的语言开发实用的MT模型;(iii) 研究这些语言的评估指标的局限性,对我们MT模型的输出进行定性分析,强调这些类型模型的几种常见错误模式。我们希望我们的工作能够为致力于为目前研究不足的语言建立MT系统的从业人员提供有用的见解,并突出研究方向,以补充大规模多语言模型在数据稀少情况下的不足。

这篇论文最大的亮点是总结了谷歌在建立机器翻译系统上的一些工程实践:包括从网络爬取数据集,对于噪音的处理以及建立语料库的一些经验和技巧。同时,针对1500多个语言的大规模翻译系统面临很多长尾语言的匮乏,考虑如何去识别缺乏训练数据的长尾语言的识别与清洗,以最终获得对应的语言数据。

此外,谷歌还公布了他们的评估方法以及一些其它技巧。总之,这篇论文最主要的贡献是从工程实践角度描述谷歌如何从底层开始一步一步收集数据,克服各种困难最终建立了一个完整的可以处理长尾语言翻译的系统。对于数据处理相关应用的架构师和开发者来说是一个非常不错的经验总结。

正文38页,加上附件有75页。

论文地址:https://arxiv.org/abs/2205.03983

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码
返回博客列表

相关博客

  • XLNet基本思想简介以及为什么它优于BERT
  • Unifying Language Learning Paradigms——谷歌的一个模型打天下
  • 正则化和数据增强对模型的影响并不总是好的:The Effects of Regularization and Data Augmentation are Class Dependent
  • 最近一段时间深度学习大模型的重要进展(2022年4月初)
  • Google最新超大模型Pathways:一个会讲笑话的6400亿参数的语言模型
  • 大型语言模型的新扩展规律(DeepMind新论文)——Training Compute-Optimal Large Language Models
  • 新的对话式语言模型可以将自然语言转换成可执行代码!
  • Deep Neural Networks and Tabular Data: A Survey——XGBoost依然是最优秀的算法模型

热门博客

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8H5文件简介和使用