新闻热点·出版
语料库开发力度加大服务国内英语教研
近日,国内英语工具书市场又增添新成员,高等教育出版社联合英国柯林斯出版公司和美国圣智学习集团推出了《柯林斯Cobuild高级英语双解词典》,该词典在世界著名的Cobuild语料库的基础之上编纂而成,具有很强的权威性。目前,基于语料库的词典编纂优势明显,成为辞书开发的一大趋势。而语料库也正因其容量大、语料真实、检索快捷准确等优势在现代语言学研究和语言教育中发挥着越来越重要的作用,因此,国内针对语料库的建设也在不断跟进当中。 语料库(Corpus)是指为语言研究收集的、由大量真实的语言材料集成的、可供计算机自动检索、索引以及统计分析的巨型资料库。语料库主要分为以满足广泛社会需求而建立的大规模通用性语料库,如英语银行(The Bank of English)、英国国家语料库(The British National Corpus)等,以及服务于专门领域研究的中小型语料库,如用于促进外语教学和语言习得的学习者语料库、用于研究和比较不同语言之间异同的双语和多语语料库等。 据外语教学与研究出版社数字资源中心语言技术部主任杨寿勋介绍,在我国,英语语料库的建设以研究型的语料库为主,其中又以学习者语料库居多。目前,国外对于英语语料库的建设已非常完善,国内在这一方面很难有所突破,但我国结合中国学习者实际情况而开发的学习者语料库却独具特点,对国内的英语教学研究有着重要的意义。 近年来,在国内现有的三大学习者语料库(中国学习者英语语料库、中国学生英语口笔语语料库、中国学习者英语口语语料库)的基础之上,各研究机构针对该类语料库的开发力度不断加强。例如,外研社于近期推出了中国外语教育研究中心建设的“外研社英汉语料库系列”,其中包括《中国学生英语口笔语语料库1.0》(修订版)、《中国学生英语口笔语语料库2.0》和《中国大学生英汉汉英口笔译语料库》。 而上海外语教育出版社(以下简称“外教社”)也于去年出版了《中国高校外语专业多语种语料库建设和研究——英语语料库》,其中,英语专业学习者语料库(Corpus for English Majors)是其主要组成部分。该语料库采用跨时和纵时相结合的方式收集语料,如实、全面地反映了我国英语专业学习者的英语水平纵向和横向的发展历程。 除学习者语料库之外,双语平行语料库也是近年来国内语料库建设的一大趋势。该类语料库中的文本由原文和译文构成,两者在内容和篇幅上严格对等。据杨寿勋介绍,外研社从2003年开始建设的英汉汉英平行语料库是目前国内规模较大的双语语料库,现已收录中英文逾3300万字词,内容包括文学、社科、科技等方面。该语料库主要服务于外研社的语言研究、外语教学、词典编纂等工作。 此外,目前部分英语教材在开发时也自建语料库,为英语教学提供更为丰富的资源。例如外研社的《新视野大学英语》就拥有专用语料库,语料全部来自该系列教材的内容,规模达200万词左右。语料库为教学提供了丰富的实例,可以丰富教学内容,也便于教师开展科研工作。近期推出的英语语料库简介 英语专业学习者语料库 (Corpus for English Majors) 编著者:中国高校外语专业多语种语料库建设和研究项目组 该语料库由权威语料库检索工具最新版wordsmith 5.0单机版、自主开发的语料库工具以及英语语料库三部分组成。该语料库现有语料100万词次,通过网络自动升级,建成后将具有500万词次,语料由作文和翻译两部分组成。语料的采样除了来自英语专业四、八级考试的笔试作文与翻译外,还大量地扩充不同等级水平和学习阶段的其他学习材料如学习日记、课内和课外练习、汉英笔头翻译、不同考试中限定题目的其他命题作文(具有不同的题材要求)、限时和不限时的非命题作文、随笔、网上聊天等语料,语料将按一定比例定时地采取。 中国学生英语口笔语语料库2.0 (Spoken and Written English Corpus of Chinese Learners 2.0) 编著者:文秋芳、梁茂成、晏小琴 该语料库是教育部人文社会科学重点研究基地北京外国语大学中国外语教育研究中心的资助项目。其口语子库含78万词次,来源于2003至2006年间全国英语专业四级口语考试;文本按照不同任务类型切分,便于研究的开展;语音文件采用mp3格式保存,便于使用者浏览、编辑、加工和标注。笔语子库含120万词次,来源于高校扩招以来的学生作文;包含27个不同题目的学生英语议论文和说明文;配有多种自主开发的研究工具,包括用于从总库中抽取子库的Sub-corpus Generator、可以快速提取多种语言特征的PatCount和专门用于分析类联接的Colligator。 中国学生英语口笔语语料库1.0(修订版) (Spoken and Written English Corpus of Chinese Learners 1.0 Revised) 编著者:文秋芳、王立非、梁茂成 该英语专业学生大型口笔语语料库含11410多分钟的口语语音样本、130余万词次的语音转写文本和120余万词次的书面语作文样本。语料库包括口语子库和笔语子库两大部分,在原SWECCL 1.0的基础上进行了改进和完善,增加了由课题组自行开发的多个研究工具,采用更为通用的mp3格式保存语音语料,并按照任务类型对口语语料进行了切分。 中国大学生英汉汉英口笔译语料库 (Parallel Corpus Of Chinese EFL Learners) 编著者:文秋芳、王金铨 收录了全国18所高等院校英语专业三、四年级学生的英汉、汉英口译和笔译翻译测试语料,其中包括完整的口译语音语料以及根据语音语料转写而成的口译文字语料,分为两个子库:口译平行语料库和笔译平行语料库。其中口译部分约50万字词,笔译部分约160万字词。所有文字语料均经过句级对齐并进行了词性赋码。该语料库在口笔译教学和研究、翻译测试、教材编写、英语师资培训、英语网络课程建设等方面具有重大价值。