语言万象
谷歌数字图书馆助推英语语言研究
对于大多数讲英语的人来说,Etaoin srhldcu这个组合看似毫无意义,但事实并非如此。谷歌公司研究部主任Peter Norvig进行的一项调查显示,Etaoin srhldcu依次为英语中最常用的字母。 据国外媒体报道,Peter Norvig的这项调查为前贝尔实验室研究员Mark Mayzner于1965年进行的调查的升级版。Mark Mayzner的调查经历了一个漫长而艰苦的过程,他从图书、杂志、报纸等多种印刷资料中收集了约20,000个词汇,并借助赫尔曼霍尔瑞斯打孔卡片和卡片分类器来统计词汇的出现频率。 Mayzner不久前通过邮件联系了Norvig,询问其是否有兴趣使用更加庞大的谷歌英语语言数据库——谷歌扫描图书库中的英语卷——来重复此实验。Norvig接受了挑战。他使用谷歌图书 Ngram浏览器(该浏览器可以显示词汇在不同时间的流行度)建立了一个包含约97,565个词汇的新数据库,词汇整体重复次数达7438亿次。该数据是Mayzner收集的20,000个词汇样本的出现频率的3700万倍。此外,Norvig的样本还包含超过3万亿封个人信件。 根据Norvig的调研,最常用的英语字母依次为etaoin srhldcu mfpgwy bvkxjqz;最常用的10个英语词汇依次为the, of, and, to, in, a, is, that, for, it。此外,该项调查还发现了其他一些有趣的结论。例如,每个英语单词平均包含4.79个字母;80%的英语词汇包含2至7个字母;最常见的两个字母组合是th,最常见的三个字母组合是the,最常见的四个字母组合是tion,最常见的五个字母组合是ation;最常出现在词首的字母是t,单词中最常见的第二个字母是o。 另据报道,谷歌庞大的扫描图书数据库近来也为另一组研究人员提供了研究素材。这些理工科研究人员发现,尽管英语语言中的新词源源不断地增加,但是随着语言的发展,其使用方式会变得更加固定。 据了解,谷歌公司的扫描图书数据库包含16世纪以来由9种主要语言出版的2000多万本出版物,占所有出版物的4%,但是该研究团队将研究范围限定在过去200年内的出版物中。研究人员使用谷歌Ngram浏览器来跟踪整个图书馆的词汇扩增过程,以研究某种特定语言的词汇发展状况和使用模式。 该研究团队表示,英语语言的高频核心词汇有大约3万个,此外,还有大量包括新生词汇在内的使用频率很低的词汇,其数量是核心词汇的100倍。近些年,有极少数源于非常用类别的词汇成为核心词汇,比如email, Google等。然而这只是例外,并不是惯例。科学家们发现,随着一种语言的发展,单个词汇的流行度的波动将会越来越小,直到现代,最流行的词汇已经保持几十年不变。 不过,对语言学家来说,理工科研究者们得出的很多结论都是语言学界所熟知的。佐治亚大学语言学家Bill Kretzschmar称:“我很高兴见到物理学家和数学家开始对语言学感兴趣,他们使用了我们所没有的模式和方法,这在语言研究上是一项很重要的进步。然而,他们的研究结果却并不令人意外。人们并没有从新增加的百万词汇中得到太多收获,我们由此可以知道这样的结论。”他补充道,谷歌图书馆浩瀚庞大,非小说类书籍、小说、诗歌和期刊文章都汇集到同一个数据库。这也引发了一个问题,因为这些不同形式的文体在语言的使用上千差万别,这使得直接对比很难进行。 研究者之一、意大利物理学家Alex Petersen对此回应称,他们的研究是第一次尝试准确量化一种语言在发展过程中“稳定”的程度。此外,对于英语文本的分类问题,他们也设计了相应的研究模式。