大资料应用成功范例：包容繁杂的Google翻译系统虽不完美但要最好最新消息

大资料应用成功范例：包容繁杂的Google翻译系统虽不完美但要最好

消息来源:baojiabao.com 作者: 发布时间：2026-05-26

报价宝综合消息大资料应用成功范例：包容繁杂的Google翻译系统虽不完美但要最好

【枫凡君伴您读书】大资料时代：生活、工作与思维的大变革

（著者：维克托·迈尔-舍恩伯格,肯尼思·库克耶）

无所不包的Google翻译系统

2006年，Google公司也开始涉足机器翻译。这被当作实现“收集全世界的资料资源，并让人人都可享受这些资源”这个目标的一个步骤。Google翻译开始利用一个更大更繁杂的数据库，也就是全球的互联网，而不再只利用两种语言之间的文字翻译。

Google翻译系统为了训练计算机，会吸收它能找到的所有翻译。它会从各种各样语言的公司网站上寻找对译文件，还会去寻找联合国和欧盟这些国际组织释出的官方档案和报告的译本。它甚至会吸收速读专案中的书籍翻译。

尽管其输入源很混乱，但较其他翻译系统而言，Google的翻译质量相对而言还是最好的，而且可翻译的内容更多。到2012年年中，Google数据库涵盖了60多种语言，甚至能够接受14种语言的语音输入，并有很流利的对等翻译。

之所以能做到这些，是因为它将语言视为能够判别可能性的资料，而不是语言本身。如果要将印度语译成加泰罗尼亚语，Google就会把英语作为中介语言。因为在翻译的时候它能适当增减词汇，所以Google的翻译比其他系统的翻译灵活很多。

Google的翻译之所以更好，并不是因为它拥有一个更好的算法机制，是因为Google翻译增加了很多各种各样的资料。从Google的例子来看，它之所以能比IBM的Candide系统多利用成千上万的资料，是因为它接受了有错误的资料。2006年，Google释出的上万亿的语料库，就是来自于互联网的一些废弃内容。这就是“训练集”，可以正确地推算出英语词汇搭配在一起的可能性。

20世纪60年代，拥有百万英语单词的语料库——布朗语料库算得上这个领域的开创者，而如今Google的这个语料库则是一个质的突破，后者使用庞大的数据库使得自然语言处理这一方向取得了飞跃式的发展。自然语言处理能力是语音识别系统和计算机翻译的基础。

从某种意义上，Google的语料库是布朗语料库的一个退步。因为Google语料库的内容来自于未经过滤的网页内容，所以会包含一些不完整的句子、拼写错误、语法错误以及其他各种错误。况且，它也没有详细的人工纠错后的注解。但是，Google语料库是布朗语料库的好几百万倍大，这样的优势完全压倒了缺点。