读报
登录注册网站首页
 

语言万象

Wordnik.com 将为百万英语新词安家

作者:21st
Aa
  • -   
  •    +
  据《纽约时报》报道,原《新牛津美语词典》编辑Erin McKean日前启动了一项名为 “寻找百万遗失英语单词”的活动,旨在找出那些尚未被收入传统词典的词语。她聘请了两位数据科学家在线上出版物中搜寻并分析语言,并计划将找到的单词收入她作为创始人之一的在线词典Wordnik.com 。

  Erin McKean说,“我们坚信每个单词都应该能在词典上被查到。这并不是说每个单词都能在某种情形下被用到,但基本上人们能够自己决定何时使用它们。” 目前的候选单词包括procrastatweeting、 dronevertising和roomnesia。

  据悉,2009年,McKean在牛津词典工作期间和她的同事创办了Wordnik网站,旨在介绍那些因受传统词典限制而未能被收录的词。传统词典的编纂者们总是寻找那些最有价值的单词,但是纸质词典的空间毕竟有限,而且它们每隔一段时间才能更新,远远跟不上现代语言的发展速度。

  《牛津英语词典》在线版每个季度才更新一次。它在“悬浮滑板” 出现在电影《回到未来I I 》中26年之后才收录了hoverboard一词。一位编辑在笔记中解释说,现在收录它是因为该词典的词汇监控系统最近检测到该词的使用率上升,很有可能是因为电影中的一个重要情节与2015年有关。当然,牛津词典并非总是在一个新词出现几十年后才会收录它,比如2008年收录的podcast就是在该词出现仅4年之后。

  Wordnik没有空间和出版日期的限制,因此它能收录巨量新词,除了人类贡献者之外,网站还利用自动在线搜索工具定位博客、社交媒体、新闻及其他类型网站中出现的特定词语。当读者在该词典上查询单词时,网站会呈现从《赫芬顿邮报》、《波音波音》等媒体中选取的例句。如果该词已被传统词典收录,该网站也会提供那个词典的释义。据了解,Wordnik已经收集了800万个单词的信息,既包括旧词,也涵盖新词。这种包容的方式使其大受欢迎。

  McKean表示,我们关心的不再是 “这是不是一个好词” ,而是 “这个词有什么用?” “这个词符合我的需要吗?”目前,她正计划通过数据分析的方式,如farecasting (意为作家在作品中顺便提到某个词) 来扩大Wordnik的收集量。她解释说,这样的词非常容易找到。作家一般都会用also known as或scientists term this等固定词组来告诉读者他们马上要引入一个新的或大家不熟悉的术语。

  为了扩大撒网面积,McKean还赞助了数据分析公司Summer.ai ,该公司计划用计算技术来分析在线出版物的语言结构和模式,如引号和破折号的后面通常会引出它前面那个新词的定义。

  部分词典编纂家已在追踪某些词汇是否已到达了使用期限。但Summer.ai公司联合创始人、原神经学家Manuel Ebert认为,Wordnik的研究或许可以帮助追踪新词被采纳的速度。“如果作家们不再解释诸如infotainment(娱乐信息节目)之类的新词,这表明人们已能理解他们的含义。通过类似的方式,我们能够准确预测新词何时能进入主流话语。能看到哪些词汇能够迅速被采纳、哪些词被排除在外是件很有趣的事。” Manuel Ebert说。

  加拿大新不伦瑞克大学计算机科学助理教授Paul Cook也在使用类似的技术寻找新词。他几年前就开展了一个项目来分析推特上包含新的合成词及其定义的贴子,包括jeggings(jeans+ leggings)、awksome(awkward+ awesome)、hilazing(hilarious+amazing)等。他希望最终能用他的研究结果自动生成一个合成词词典。Cook表示,一些传统词典或许会有兴趣提供这类合成词信息。“每一个增加到英语表达法中的新词都在使事物增加一种可能的表达方式。 英语已经拥有世界上最多的使用人群,为什么我们不能再增加新词呢?” McKean说。


联系我们  |  诚聘英才  |  关于我们  |  版权声明
© i21st.cn   京ICP备2024066071号-1
 
选择报纸
选择报纸
关闭