作文自动评分:人工阅卷的“终结者”？(51170)-英语教育-(160)-21英语网

本文作者：本报记者李立

第160期 (2009-04-20)

记者日前获悉，一套可以实现电脑自动评分的英语作文评阅系统，本学期开始在包括浙江大学、浙江工商大学、浙江理工大学等在内的浙江、上海和江苏的十余所高校试用。对于机器评分的利弊，在师生中引起了不小的争论。

据悉，该英语智能作文评阅系统是由浙江大学外语学院与杭州某网络科技公司联合开发的，英语教师可以在专门的网络平台里创建自己的账户，设计英语作文题目以及内容。每篇设计好的英语作文题目都有一个作文序列号，学生可以登录学生账号，通过老师指定的序列号找到需要完成的英语作文题目，在电脑上输入作文后，电脑就会评出相应的分数。

试用该系统的浙江工商大学英语教师李玲表示，机器评分系统大致可以把握好文章，但是结果还是和人工评分有一些出入，例如一篇满分15分的作文，电脑得出的分数和她本人批阅的分数约有2分左右的出入，按照百分比换算，分数差值大概在10%左右。也有的学生表示，从电脑评分系统给出的评语来看，自己的语句表达不够完善，还有单词拼写错误，但具体是哪句语法和哪个单词有误就不得而知了。但也有师生表示，机器评分更加公正，避免了人工阅卷的主观性，而且可以大大降低教师的工作量，尤其是在大规模网考中，更能体现优越性。

记者在采访中了解到，尽管作文自动评分技术受到一些业内人士的质疑，但已在大规模考试如GMAT、托福等国际性英语考试和学生自我评估中得到了广泛应用。例如麦格劳-希尔集团加州考试中心推出的Writing RoadmapTM 2.0是一种可以帮助学生提高英语水平的在线教学辅助工具。其包含的自动打分和报告系统根据学生在思想与内容、逻辑和组织、论调、词汇选择、语言基础和流利度等六个方面的表现快速完成作文评价。此外，培生语言考试中心即将于今年10月正式推出的PTE Academic考试也采用了全新科技手段和机器评分技术。

作文自动评分系统的优点是不但可以节省人力、物力、时间等，而且评分更客观，评分标准定义清楚，不受人为因素影响。其他优点还包括即时性、快捷性等。一个合理的作文自动评分系统充分利用了统计技术、自然语言处理技术、信息检索技术等，从作文文本中挖掘能够直接反映文章质量的文本特征项作为变量，以有效地预测作文质量。

据悉，自动评分技术的研究起始于20世纪60年代。美国杜克大学教授Ellis Page率领研究团队于1966年开发出第一套作文自动评分系统PEG(Project Essay Grader)。后来，该项技术又得到了进一步发展。目前，国外较为成熟的自动评分系统除PEG外，还包括IEA(Intelligent Essay Assessor)，E-rater（Electronic Essay Rater），IntelliMetricTM等。（详见链接）

而在国内，由于大学英语教学面临着学生人数众多的压力，因此通过借助自动作文评分软件，将有望突破写作批改量大、难度大的瓶颈，为教学双方带来切实的帮助。同时，也有利于为大规模英语考试如大学英语四、六级考试的作文阅卷带来更大的便利性和准确性。

正是在此背景下，我国的作文自动评分技术近年来也取得了一定进步。记者从中国外语教育研究中心了解到，由该中心梁茂成教授主持开发的“大规模考试英语作文自动评分系统”已于2005年申请了国家专利，并于去年初步研制完成。该成果受到了全国大学英语四、六级考委会主任、上海交通大学金艳教授、清华大学张文霞教授以及中国外语教育中心刘润清、王克非、陈国华教授的肯定。该项研究成果可实现对中国学生英语作文的大规模机器评分，具有极大的实用价值。

然而，作文自动评分系统并非万能，也受到了一些专家和学者的质疑。重庆大学外国语学院张梅副教授表示，首先，很多学校都没有足够的计算机。其次，有些权威人士认为，电子判分系统的准确性还有待进一步证实。第三，学生使用计算机的熟练程度在很大程度上会影响他们的得分。第四，学生可以采取很多技巧取悦电脑评分器而得高分（例如在GRE作文中用 “for example”“therefore”等清楚地界分段落等）。此外，在现有的技术水平下，电脑评分器无法发现有些幽默表达及独特的推理风格。

由此可见，机器评分还有一段很长的路要走。梁茂成教授认为:“通过计算机对学生作文进行自动评分是一个复杂的过程，需要总结前人的经验并不断汲取新的理念、开发新的技术。只有这样，才能找到对学生作文最具预测力的变量，保证机器评分的信度和效度。”

国外较成熟的作文自动评分系统

1.PEG(Project Essay Grader)

PEG于1966年由美国杜克大学的Ellis Page教授等应美国大学委员会的请求而开发。其特点是重语言表面结构分析而相对忽略语言内容。该系统对写作技巧的间接测量很容易被写作者利用，如写出文理不通的长文以获取流畅性方面的高分，欺骗计算机。

2.IEA(Intelligent Essay Assessor)

IEA是上世纪90年代末由Pearson Knowledge Analysis Technology公司开发的。IEA注重对作文内容的分析，利用信息检索中的潜在语义分析法进行作文自动评分。该系统主要在于评价文章内容方面的质量，但也可包含对语法、文体以及写作机制方面的评价，并能发现抄袭现象。

3.E-rater（Electronic Essay Rater）

E-rater是由美国ETS的Jill Burstein博士等人在上世纪90年代末开发的。目前ETS正利用该系统对GMAT中Analytical Writing Assessment部分进行评分，并于2005年开始应用于托福考试的作文评分。其开发者表示，该作文评分系统利用了统计技术和自然语言处理技术等多种技术，使其既能评判作文的语言质量，还能够评判内容质量，并对作文的篇章结构进行分析。

4. IntelliMetricTM

IntelliMetricTM是由美国Vantage Learning公司开发的第一套基于人工智能的作文评分系统。它能够模仿人工评卷，在1到4或者1到6的分值范围内对作文的内容、形式、组织和写作习惯进行评分。

业内声音

学生需要通过不断的修改和练习，提高写作能力。这就需要机器评分系统协助老师完成冗繁的作文评分任务。完成任务速度快、准确、效率高是人们对机器评分系统的期待。

——麦格劳-希尔集团加州考试中心中国区主任王一虹

完全依赖电脑来给作文一个准确的评判还不具备可行性，不过在今后的英语学习和写作中，借助计算机系统的评价，辅助学生学习确是发展方向。只是机器是冷冰冰的，教学相长一定要靠老师的点拨提携，学生才会有进步。

——新东方教育科技集团董事长俞敏洪

作文自动评分系统在对评分模型进行训练时，应该使用分析型评分方法以提高作文评分的信度，同时应充分结合语言测试领域的理论，围绕作文的语言质量、内容质量和篇章结构质量对作文进行人工评分，并以所得到的评分对自动评分模型进行训练，以提高机器评分的效度。

——中国外语教育研究中心教授梁茂成博士

现在一个大学英语老师至少要带几百个学生，要是给每个学生修改一篇文章花5分钟，100篇文章就是500分钟，工作量实在太大了。而用计算机批改作文，高效、快捷，可以让学生有更多练笔的机会。

——杭州某网络科技有限公司负责人周晴