囊括欧亚非大陆多种语言的25个平行语料库数据集

与大部分机器学习模型一样，有效的机器翻译系统需要大量的训练数据才能产生可读性强的结果。平行文本翻译语料库是两种语言之间的结构化翻译文本集。此类平行语料库对训练机器翻译算法至关重要。但从哪里可以获得这些外语数据集呢?请看下列清单↓↓↓

平行文本数据集

Aligned Hansards of the 36th Parliament of Canada：包含英语-法语句对。

地址：https://www.isi.edu/natural-language/download/hansard/

European Parliament Proceedings Parallel Corpus 1996-2011：包含 21 种欧洲语言句对。

地址：http://www.statmt.org/europarl/

Global Voices Parallel Corpus：新闻门户网站 Global Voices 的内容精选，包括 57 种语言的新闻文本。

地址：http://casmacat.eu/corpus/global-voices.html

RATS language identification：包含将近 5400 个小时的阿拉伯语、波斯语、达里语、普什图语和乌尔都语电话会话语音，并附有语音分割标注。

地址：https://catalog.ldc.upenn.edu/LDC2018S10

Chinese-French Text：包含来自 Chinese Broadcast News 语料库的大约 3 万汉字子集的法语译文。

地址：https://catalog.ldc.upenn.edu/LDC2018T17

Arabizi Text：自动检测英语和阿拉伯语混合文本中语码转换的训练数据，包含 522 条推特。

地址：http://catalog.elra.info/en-us/repository/browse/ELRA-W0126/

English-Vietnamese Text：包含 50 万个英语-越南语句对的语料库。

地址：http://catalog.elra.info/en-us/repository/browse/ELRA-W0124/

English-Persian Text：包含超过 20 万个英语-波斯语对齐句对。

地址：http://catalog.elra.info/en-us/repository/browse/ELRA-W0118/

Chinese-English Emails：包含来自电子邮件的 15000 个汉字(相当于 10000 个英文单词)及其英文参考译文。

地址：http://catalog.elra.info/en-us/repository/browse/ELRA-W0113/

French-Arabic Newspapers：包含 10000 个阿拉伯语单词和 2 个法语参考译文的语料库。源文本是 2013 年 5 月从阿拉伯版《Le Monde Diplomatique》中收集的文章。

地址：http://catalog.elra.info/en-us/repository/browse/ELRA-W0100/

Pashto-French Text：106 个小时的普什图语录音的文字记录及其法语译文。

地址：http://catalog.elra.info/en-us/repository/browse/ELRA-W0093/

German-English Text：手动词对齐的德语-英语平行语料库。

地址：https://github.com/bicici/SMTData/blob/master/German-English_WordAlignment.zip

Turkish-English Text：为 WMT 2018 准备的土耳其语-英语平行语料库。

地址：https://github.com/bicici/SMTData/commit/1cca572244c6c9b8e810735ca898f5f3a19b2ecc#diff-7a11a746e07c7411854b77f3f521f534

UN translation text：6 种不同语言的联合国翻译文档合集。

地址：http://opus.nlpl.eu/UN.php

XhosaNavy：南非海军英语和科萨语平行语料库。

地址：http://opus.nlpl.eu/XhosaNavy.php

Wikipedia：20 种语言的平行句子语料库，句子来源于维基百科。

地址：http://opus.nlpl.eu/Wikipedia.php

English-Croatian：英语和克罗地亚语平行文本。

地址：http://opus.nlpl.eu/hrenWaC.php

Catalan-Spanish：从加泰罗尼亚政府官方刊物中收集的加泰罗尼亚语和西班牙语文档合集。

地址：http://opus.nlpl.eu/DOGC.php

English-Japanese：Wikipedia』s Kyoto Articles 日英双语语料库，包含大约 50 万个人工翻译的句对。

地址：https://www.kaggle.com/team-ai/japaneseenglish-bilingual-corpus

OntoNotes：包含英语、中文和阿拉伯语各类文本(新闻、电话会话、网络日志、新闻组、广播、脱口秀)的标注语料库。

地址：https://catalog.ldc.upenn.edu/ldc2013t19

Central Europe Telephone Speech：包含约 44 小时的标注电话语音，捷克和斯洛伐克语。

地址：https://catalog.ldc.upenn.edu/LDC2018S08

South Asia Telephone Speech：包含约 118 小时的标注电话语音，孟加拉语、印地语、旁遮普语、泰米尔语和乌尔都语。

地址：https://catalog.ldc.upenn.edu/LDC2017S14

Turkish Telephone Speech：包含约 18 小时的土耳其语电话语音。

地址：https://catalog.ldc.upenn.edu/LDC2017S09

Chinese Treebank：来自 Chinese newswire、政府文件、杂志文章和各种广播新闻的约 150 万字标注和解析文本。

地址：https://catalog.ldc.upenn.edu/LDC2013T21

Arabic Broadcast News Transcripts：包含 2008 年和 2009 年收集的大约 37 小时阿拉伯广播新闻文字记录。

地址：https://catalog.ldc.upenn.edu/LDC2018T14

原文链接：https://gengo.ai/datasets/25-best-parallel-text-datasets-for-machine-translation-training/

时间:2018-11-11 23:35 来源: 转发量:次

声明：本站部分作品是由网友自主投稿和发布、编辑整理上传，对此类作品本站仅提供交流平台，转载的目的在于传递更多信息及用于网络分享，并不代表本站赞同其观点和对其真实性负责，不为其版权负责。如果您发现网站上有侵犯您的知识产权的作品，请与我们取得联系，我们会及时修改或删除。

上一篇：联通大数据进入数智新阶段大数据战略图谱逐步
下一篇：十年双11：阿里数据库变迁“三部曲”

网友评论：

发表评论

最新评论 进入详细评论页>>