杨惠中：创建中国特色大学英语测试系统的风雨历程(134230)-英语教育-(301)-21英语网

本文作者： 21ST

杨惠中：上海交通大学外国语学院教授、语言学与应用语言学专业博士生导师；曾任上海交通大学外语系主任（1985-1991）、全国大学英语教学研究会会长（1985-1999）、全国大学英语四、六级考试委员会主任（1987-2004），现任国家教育考试指导委员会专家组成员、教育部考试中心高级顾问，全国大学英语四、六级考试委员会顾问。主要研究领域包括：语言测试、语料库语言学、语言教学。

改革开放以来，我国英语教育取得了举世瞩目的成就，基本上满足了我国改革开放对外交流的语言需要。值此纪念建国70周年之际，回顾近40年来的发展成就，我更加清晰地认识到，是改革开放推动了我国大学英语教育的跨越式发展。

大学英语是为非英语专业大学生开设的英语课程，是一门关系到几乎每一位大学生的重要基础课。事实上，我国最大的英语使用者群体就是大学生，英语于他们而言也最具实际应用价值。根据大学英语四、六级考试委员会的统计数据，自1987年至2018年，累计有3950多万名学生达到了四级要求（即教学目标中的基本要求），其中又有1750多万名学生达到了六级要求（即教学目标中的较高要求）。这些学生的阅读速度分别达到每分钟70-100词（四级）和90-120词（六级），这是具有实际应用价值的英语阅读能力。他们毕业后，在各自的工作岗位上可通过阅读英语文献获取本专业所需信息，为各行各业的发展建设服务。

我国大学英语教育之所以取得如此迅速的发展，主要有两方面原因：从宏观方面看，国家实行改革开放激发了大学生学习英语的根本动力。从微观方面看，应用语言学在我国得到了极大发展，一代学者和广大教师进行了艰辛的探索，努力将外语教学置入科学的轨道。

改革开放使我国广大科技人员迫切需要掌握英语语言。早在1978年，我国英语教学前辈许国璋教授就发表文章指出，就全国的外语教学而言，重点应该是培养各行各业掌握外语的人才，以外语为工具学习世界上的先进科学技术，促进文化交流。我国外语教学改革的重点是公共外语教学，因为公共外语教学每年涉及数百万学生。

但在改革开放初期，我国高校毕业生的外语水平远不能满足需要，当时的公共英语教学并没有受到应有的重视。上世纪80年代初制定的公共英语教学大纲对大学生的英语能力只有阅读一项要求，而且要求极低，英语教学使用的基本上是语法翻译法，教材以语法为纲进行编写，语法知识既是教学的内容，又是考核的手段，结果导致很多学生学习了多年外语后既不会读写，更不会听说。社科院语言研究所的吕叔湘先生在《人民日报》发表文章指出，“高等学校中的公共英语课程形同虚设”，亟待改革。

正是在这种混沌困惑的时候，笔者读到了广东外语外贸大学桂诗春教授于1980年12月发表的《我国应用语言学的现状和展望》一文，深受启发。文章指出，历来的外语教学往往是经验之学，把外语教学作为一门科学来研究不过是最近半个世纪的事情，这门科学就是应用语言学。

学习吸收多种语言学及英语教学理论

正是在这一时期，现代外语教学法迅速发展，理论语言学、心理语言学、社会语言学、教育学等学科的发展为现代外语教学的研究提供了理论基础，使外语教学向着科学化、精密化的方向发展。实际上，国际上对交际法的研究也刚刚起步不久。改革开放使我国外语教学界获得了学习国外先进的教学法思想和理念的机会。当时教育部邀请英国文化委员会在推广现代英语教学法方面做了大量工作，组织了许多应用语言学研讨班，邀请著名应用语言学家到我国讲学。在我的记忆里，C. Candlin，H．G．Winddowson，G．Leech，T．Johns等知名应用语言学家都先后在不同城市讲学，对普及交际教学法的理念发挥了重要作用。

教育部、外国专家局还与英国文化委员会合作，聘请大量经过应用语言学专业培训的英国教师来我国任教。他们的教学理念和实践使我们受到很大启发，让我们学习到许多新鲜而富有逻辑说服力的理论和提法，开始认真思考大学英语课程的性质，思考教什么和怎么教的问题。

譬如，当时关于“一会”和“四会”的争论非常激烈，但是学界对“一会”和“四会”缺乏明确界定。言语活动是一种复杂的心理过程，涉及多种语言技能，这些技能是可以分解的，应用语言学的任务就是要寻找分解这些语言技能的方法，然后加以分类，达到一定程度的有序化，以便科学地组织教学。有的语言学家提出了微技能的概念，把听说读写各种言语活动方式所涉及的微技能，从领会和表达的角度加以分类，制定了54类共260项微技能一览表，对我们有很大的启发。

以口语能力为例，我们不应将其划分为“哑巴英语”和“英语口语像母语一样流利”这两个极端。从简单的打招呼到能用英语进行商业谈判，一个人的口语能力可以划分出许多不同等级。因此，外语教学不能满足于“基本上”“一定的要求”“以……为主”这样一些笼统的、不确切的提法，而要探索新的方法，对语言教学过程的诸因素进行定性和定量分析。

再以阅读能力为例，阅读不像人们通常以为的那样是一种消极的语言活动，仿佛只要掌握一定量的词汇、语法及语义知识就自动具备了阅读能力。阅读是一种积极的、交互的、建设性的思维活动。阅读能力可以从阅读速度、阅读理解、阅读材料的难易度、词汇量等方面来度量，这些都可以进行定量分析。阅读能力也可以根据阅读材料难易度来进行映射式的度量，譬如，用Flesh易读度公式来计算，历年大学英语考试的阅读材料平均易读度四级为57.６，六级为49.１，比美国《读者文摘》中的文章（易读度70左右）要难得多。交际功能也可以分类。

因此，在课程设计阶段，必须首先通过社会需求调查分析学生的交际需要、分析相关的言语活动，然后确定完成这些言语活动所需要的各种微技能，再从复杂程度、范围、灵活性等方面分别具体地规定所要达到的熟练程度。这样组织教学就可以对教学过程进行定量分析，并且提供具体的检查手段，可以把整个教学过程分为若干程度固定、要求明确的教学段，这就是分级教学的思想，既有利于实行学分制，也有利于编写相对稳定的教材，对组织教学、编写教材、语言测试都有重要影响。

词频调查研究也值得在此进行特别介绍。我们进行词频调查是为了制定教学词表，这是语言教学中的基础工作。只有选择最必需的单词才能充分利用有限的教学时间，收到最大的教学效果。语言学家、心理学家对此高度重视，例如Thorndike早在上世纪四十年代就用手工抄卡片的方式完成了一百万词的统计工作，提出了英语基础教学词表，过程十分艰辛。从1981年开始，我们决定利用计算机进行词频调查，通过随机采样进行语言统计，采样量为一百万英语词，为此我们建立了JDEST专用语料库，自己编写程序，根据频率、分布率和覆盖率的统计结果，按照“定量分析为主、定性分析为辅”的原则，最后确定大学英语四级词表和六级词表，能够满足课程目标所规定的交际需要。这一项词频调查研究后来逐渐发展成语料库语言学研究。

以上这些问题当时在《外语教学与研究》《外国语》《现代外语》等学术期刊上进行了广泛的讨论与交流。

大学英语教学走上科学轨道

1982年，教育部高教一司委托当时的公共外语教材编审委员会（即后来的大学英语教学指导委员会）和当时的公共外语教学研究会（即后来的大学英语教学研究会）制订新的大学英语教学大纲，这是我国大学英语教学发展历程中的一个转折点。制定教学大纲本身就是大学英语教学的一项重要科研成果，目标就是努力把外语教学纳入科学的轨道，提高外语教学质量。

经过几年努力，起草小组在广泛调查研究的基础上吸收了国外教学法研究的新成果，反复讨论、听取各方面意见，先后完成了两份《大学英语教学大纲》，分别供理工科和文理科本科生使用。教学大纲中规定的许多原则和理念，至今仍具有现实指导意义，如正确处理知识与技能的关系、准确与流利的关系、重视语言共核的教学、实施分级教学等等。在调查研究基础上制定的４张附表（常用教学词表、微技能表、功能意念表、语法结构表）有利于教学目标具体化、教学过程科学化、语言测试精密化。

国家教委高教司对两份新的教学大纲给予了较高评价，认为它们体现了科学性、先进性、实用性、灵活性等特色，是我国外语教学领域的重要教学文件，颁布后受到了广泛重视和关注。由于这门课程是为大学生开设的，因此被正式定名为“大学英语”，这些学生虽然来自理工农医等不同专业，但都迫切需要掌握英语。

为推广和普及教学大纲的思想理念，受国家教委高教司及所属外语处委托，1986至1988年期间我们举办过多次全国性培训班，介绍教学大纲的设计原理和方法。从1987年起，大学英语教学指导委员会和大学英语教学研究会也利用寒暑假时间，连续多年在全国各地举办讲习班、研讨班，宣讲教学大纲，举行示范教学，开展专题研究，旨在帮助教师领会教学大纲的思想理念并贯彻到实际教学中。自此，我国大学英语教学与研究出现了欣欣向荣的局面，实现了从经验之学到应用语言学指导的华丽转身，把大学英语教学引上了科学的轨道。

CET开始实施

各级教育主管部门高度重视英语语言测试工作，因为考试与教学密不可分。有效测试是教与学之间的桥梁；没有测试，教师难以了解教学效果，学生也不了解自己的学习效果，教学过程是不完整的。

英语语言测试在我国的发展也得益于改革开放政策。1980年，为了科学选拔出国留学人员，教育部高教一司自主设计了“英语水平考试”（English Proficiency Test, EPT），该项目由时任高教一司蒋妙瑞副司长亲自领导，广外桂诗春教授、北外刘承沛教授、上外杨小石教授负责，当时我也参加了具体工作，“偶然”进入了语言测试这个重要领域。

为了推动语言测试在我国的进一步发展，1982年暑期，高教一司在烟台组织了语言测试研讨班，由时任高教一司傅克司长主持，邀请香港考试局有关专家前来讲学，英语科负责人R. King、缪锦安、香港英国文化委员会的R. Young等，系统介绍了语言测试理论和方法，这是国内第一次举办语言测试研讨班，也是我第一次有机会全面了解语言测试，并对此产生了极大兴趣，认识到语言测试是一门科学，是跨越语言学、语言教学、心理测量学和教育测量学的综合性学科发展方向。

当时的两份《大学英语教学大纲》都提出了语言测试方面的要求，明确提出“语言测试是检查学生语言水平的重要手段，要做到科学、客观、统一和标准化”。大纲同时规定，“……其中第四、第六级结束时，应按本教学大纲的要求进行全国统一考试。”这就是后来的大学英语四、六级考试。

为此，国家教委于1985年组建了“大学英语四、六级标准化考试设计组”筹备组，1987年正式成立大学英语四、六级考试设计组，负责考试的设计、组织、管理与协调；在上海交通大学设立大学英语四、六级考试办公室，在清华大学、上海交通大学和武汉大学各设立一个考试中心；四、六级考试的考务工作由各地教育厅或教委的高教处负责，从而建立了健全的考务系统，管理和实施各地高校的大学英语四、六级考试（以下简称 CET）。1994年设计组正式更名为“全国大学英语四、六级考试委员会”。

CET自1987年9月实施第一次四级考试、1989年1月实施第一次六级考试以来，考试规模不断扩大。从1999年5月起，“口语考试（CET－SET）”开始实施，标志着CET进入了相对完善的新阶段。

设计组成立时，高教司对设计组的要求是：精心设计、精心组织、精心施考，后来又提出更明确的要求：努力建设成有中国特色的、达到国际教育测量学专业标准的、与国际接轨的英语语言测试体系。

CET的设计开发严格按照国际教育测量学专业标准的要求：分数具有可解释性、分数经过等值处理具有可比性、采用科学方法命题审题，从而使试题在考前就获得难易度、区分度等数据以确保试题质量，保证考试的信度和效度达到教育测量学的要求。

CET体现鲜明中国特色　

大学英语四、六级考试具有以下鲜明的中国特色。１．作为教学考试，CET严格按照《大学英语教学大纲》（或后来的《大学英语教学要求》）规定的教学目标测量学生英语水平；

２．采用尺度相关－常模参照方法报道考生成绩，即以教学大纲规定的教学要求为标准，同时根据当时的情况建立了由北大、清华、上海交大、复旦、西安交大、中科大等6所重点大学构成的参照常模，用原始分经过等值处理后的标准分表示成绩。“及格”相当于只优于这6所大学中最低的15%的学生，“优秀”则相当于优于这六所大学中85%的学生，分数解释与考生所在学校无关。标准分记录了考生成绩的所有信息，而且有常模参照，使分数解释直观、便于理解；

３．重视主观题与客观题的结合与平衡。客观题有利于保证测试的信度以及采样的宽度，主观题能测量考生的语言表达能力并有利于对教学的反馈。例如，作文是我国英语考试的传统题型，CET从一开始就设计了作文题，而有的国际著名大规模英语考试直到20世纪90年代末才将写作列为考试项目；

４．每次考试后将大量信息反馈给各高校，包括本校全体考生的均值与标准差、听读写各部分的均值与标准差、同类学校相应部分的均值与标准差。这些信息为各校对历年成绩进行纵向比较以及与同类学校成绩进行横向比较提供了可能。这些丰富的宏观信息可以揭示教学中的长处与不足、反映学生学习情况历年的动态变化，为各校教务处与外语院系判断所采取的教学措施是否取得预期效果提供了依据，为进一步改进教学提出了可能的方向；这种考后信息反馈是国外大规模考试不做、也做不到的事；

５．开发了一套提高作文阅卷信度的科学方法，包括阅卷员本人评分一致性、阅卷员之间评分一致性和阅卷点之间评分一致性；

６．广大一线教师积极参与考试过程，包括作文阅卷、口语考试等，以获得关于考试以及考生能力的第一手信息，经过严格培训的合格教师还可以成为命题员，获得语言测试方面的专门知识。

７．在教育部高教司（后来的教育部考试中心）、各地教育部门和院校的领导和协助下，通过考委会的努力和广大教师的支持建立了健全的考务管理和运作系统，做到了试题编制标准化、考务实施标准化、阅卷评分标准化、分数转换与解释标准化，CET成为一项质量稳定的考试，有力地推动了我国大学英语教学，并且很快获得了社会公信力。

1993年，《大学英语考试的设计、实施及研究》项目获得国家教委颁发的全国普通高等学校国家级优秀教学成果一等奖，当年教师节，笔者有幸代表考委会与全国获奖代表一起在人民大会堂得到国家领导人的接见与摄影留念。

在2005年的教育部新闻发布会上，教育部前副部长吴启迪也对四、六级考试的作用给予充分肯定：一项如此大规模考试在长达17年的时间内稳定发展，这一基本事实证明大学英语四、六级考试符合社会的需要，得到了社会的普遍认同，产生了良好的社会效益，也为我国大学英语教学质量的提高作出了巨大的贡献。

与时俱进开展改革

１．及时体现大学英语课程对学生英语能力要求的变化。社会的发展和中学生英语水平的提高对大学英语课程不断提出新的、更高的要求，这些都及时体现在了CET考试的总体结构设计和题型设计中，特别是2004年由金艳教授等年轻一代学者主持考委会工作后，改革的步伐进一步加快。20世纪80年代中期的大学英语课程目标是，“培养学生具有较强的阅读能力、一定的听（和译）的能力、初步的写和说的能力，使学生能以英语为工具，获取专业所需要的信息，并为进一步提高英语水平打下较好的基础”。因此，初期的CET把阅读能力作为考核重点。

在2016年修订版的CET考试大纲中，考试内容和题型都发生了较大变化。目前，CET考试的听力与阅读占比都是（35%），听力材料采用新闻、讲座或报道等体裁的语篇，以更好地体现英语的实际应用；阅读包括长篇阅读理解；写作（15%）采用图片、表格、情景描述、名言等各种提示信息，以丰富考试内容，并防止考生采用“套用范文”之类的应试策略。此外，2013年起新增“段落翻译”（15%），首次尝试在考试中融入中国元素，要求考生在30分钟时间内，将一段140－150字（四级）或180－200字（六级）的汉语段落翻译成英语，主题包括中国文化、历史、地理、经济、社会发展，如丝绸之路、中国茶文化等；

２．开展效度研究

效度是对考试质量最重要的要求，是测试的核心问题。大规模标准化考试的效度要靠实验来验证，并将证据公诸于众。20世纪90年代中期，CET考试委员会与英国文化委员会合作，开展了为期3年的效度研究，通过大规模问卷调查、考试内容分析、考试数据分析、考试与外部效标（如教师评价、其他考试等）的关联、教师和学生访谈、对比考试等，分析了考试的表面效度、内容效度、同期效度（效标关联效度）等。效度论证采集了多种类的数据，运用多视角、多层面的分析方法，对CET考试进行了全面的效度论证，标志着我国语言测试效度研究进入了数据驱动的实证研究阶段；

３．重视研究测试与教学的关系，不断完善考试内容、在实验的基础上探索新题型，以期改进考试对教学的后效；

４．为了帮助教师深入了解学生英语学习的发展模式和特点、英语口语的发展模式和特点、英语阅读理解心理过程等等，建立了大批语料库，在实证研究的基础上出版了专著，这些语料库对公众开放，以供对ＣＥＴ所反映的学生实际英语能力及其发展规律进行深入研究；

５．应用信息技术

CET为了达到教育测量专业要求，在工作中形成了一套完整的制度：在试卷设计方面，从命题、审题、预测、试题分析到对比测试等都有严格的质量控制措施，保证了考试的心理测量学专业水准；在统计分析及成绩发布方面，从机器阅卷、分数等值处理到成绩正态化处理等都有成熟的措施，保证了成绩报道的科学性和分数的可解释性。　　　　

在考务组织方面有严格的制度，保证了考试的严密性和公正性。以上这些工作都依靠信息技术的充分运用。

21世纪初，CET开发了主观题在线评分系统，由教育部考试中心于2006年全面推广至全国12个CET主观题阅卷点。在线评分系统提高了评分的效率，并通过在线评分质量监控，进一步提高了评分信度。

CET信息化发展中最有特色的是计算机化口语考试。1999年面试型CET口语考试实施以来，极大地推动了我国大学英语口语教学，考点和考生人数不断增加。但是，面试型口试需要投入大量人力物力，对考官要求高，限制了口语考试的规模。为此，考委会开发了计算机化口语考试，并于2013年开始全面取代面试型口试，为提高口语考试效率、进一步扩大口语考试规模创造了条件。口语机考滤除了面试型口试中考官的影响，使考试更加公平。而且，由于采用了考生成组考试的形式，口语机考实现了考生与考生之间的互动交流，有效测试了考生的英语口头交互能力。此外，由于评分在考后进行，口语机考可更有效地监控评分质量并及时调整评分误差。CET口语考试目前规模已达到每年超过90万考生，将来口语考试将逐步成为CET的必考部分。

信息技术也应用在防考试作弊中。任何具有社会权重的高风险考试都会出现作弊现象，作弊是某些能力没有达到要求而又希望轻松获得资格证书以谋取未来利益的舞弊行为，也是诚信的缺失，姑息作弊是对诚实考生的不公。防止和惩处作弊是考试实施过程中必须考虑的问题。在CET初期，抄袭是主要的作弊方式。为此，CET除了实行严格的监考和巡视制度外，还采用了排列不同的Ａ、Ｂ卷预防作弊，并通过主观题答题是否雷同来进一步判断作弊现象。之后，高科技被用于考试作弊，作弊考生通过隐蔽的通讯设备接听答案，从而导致了大规模、群体性作弊现象的发生。为此，CET自2012年起采用多题多卷模式，每次考试采用内容、排列和组合不同的卷库，通过考生答题纸上的条形码判断其所答试卷的版本，并通过预测和等值等方式，确保不同版本试卷之间的难度等值，这一措施有效防止了高科技作弊现象。

６．考试社会学研究

随着CET的用途被不断拓展，考试分数被用于各种高风险的决策，CET考试委员会越来越深刻地体会到，“考试的开发和使用不是在试管中作心理测量实验”，考试具有极强的社会属性，考试效度与考试所处的社会环境密不可分。笔者和桂诗春合作出版的《语言测试社会学》一书，深入分析了大规模考试的社会学问题，厘清了考试、教学与考试使用之间的关系，分析了应试教育产生的根源，论证了考试误用产生的社会后果，探索了考试社会化、教育考试质量监控机制等方面的问题。

与国际语言测试界开展学术交流

CET考委会经常在国际学术会议上报告研究成果，以便使国际语言测试界更好地了解CET，也使CET能紧跟国际语言测试研究的步伐。例如，2000年11月，在加拿大温哥华举行的国际语言测试年会（LTRC，为国际语言测试界规格最高的国际学术年会），破例向CET考委会代表提供了两小时的专题报告时间，我们宣读了4篇论文：《大学英语考试效度研究》《大学英语口语考试设计原理》《大学英语考试作文阅卷质量控制》和《阅读能力测试的内省法分析》。2005年7月，在美国威斯康辛举办的国际应用语言学年会上，CET与雅思、托福考试的代表同台参加了“大规模考试”（The Big Tests）专题讨论，共同探讨大规模考试的改革，世界上三个大规模英语考试项目各自做了陈述，由语言测试界先驱A. Davies教授主持，从考试信度和效度、教学后效、测试者的道德规范和社会责任等方面对大规模考试作了深刻的点评。

同时，CET考委会还跟国际上重要教育考试机构交往密切。

１．与美国教育考试服务中心（ETS）的联系最早开始于1983年春，当时ETS副总裁Solomon率团访问北京，和国家教委学生司讨论关于合作开展语言测试科研的事情，笔者也应邀出席了这次讨论，并提出了几点合作研究的建议。

1983年5月，我幸荣地获得英国文化委员会提供的Hornby奖学金，前往英国做一年访问学者。当时经过再三考虑，我决定把研究学习重点放在语料库语言学方面，于是前往英国伯明翰大学访学进修，向Sinclair教授系统地学习语料库语言学。虽然收获极大，但所学内容与语言测试没有关联。直到1984年10月3日，当时我已经做好回国准备，忽然接到ETS从美国寄来的信函，邀请我前往ETS访问3周并承担我的一切费用。在普林斯顿期间，ETS毫无保留地让我参观了考试开发和实施的全过程，参观了当时已经研制成功的基于IRT理论的自适应机助考试模型，并安排同ETS几乎每个部门的负责人见面并进行深入讨论。现在回想起来，这是一次让我全面深入了解现代教育测量从开发、设计、到具体运作全过程的难得机会，我收获十分丰富，回来后写成了专门报告，供教育部有关部门参考。

1999年8月13日，时任ETS总裁N. Cole博士一行在日本筑波出席LTRC学术年会后，顺道来上海访问CET考试委员会，代表团一行共四人，除总裁Cole博士外，还有负责科研的副总裁和负责行政的副总裁，第四位是ETS主管各种外语考试项目（包括TOFEL考试）的官员。笔者和董亚芬先生在与他们的交流过程中，就CET的性质、运行机制、在我国教育中的作用以及效度研究等，也毫无保留地做了详细介绍，ETS的高官们很感兴趣，认真地作了笔记，前后讨论了两个小时。Cole博士坦率地表示：“我们在ETS关心的也正是这些问题”，并希望今后有机会进一步加强交流。

２．英国剑桥大学考试中心（UCLES）前后三任总裁都访问过CET考试委员会。1992年Reddaway教授正在上海外国语大学，顺道访问了CET考委会。1995年10月，作为和英国文化委员会合作开展CET效度研究任务的一部分，我们研究小组一行两人在英国Reading大学进行为期两周的合作研究，UCLES特地安排我们到剑桥大学访问，期间英方向我们详细介绍了雅思考试的设计、运行与发展，Reddaway教授还介绍了UCLES的性质、发展历史及科研情况。1996年上海交大百年校庆，UCLES新任总裁Holstead教授应邀来CET考委会就大规模教育考试做了学术报告。2002年，随着CET考试规模越来越大，考委会高度重视考试与教学的关系，在上海交大举行“语言测试与语言教学”国际学术会议，著名语言测试专家Bachman教授等应邀出席做学术报告，美国ETS和英国UCLES等机构都派代表出席会议并发表论文，会议前UCLES新任总裁S. Lebus教授来信，表示了出席会议的愿望，经教育部批准我们马上补发了邀请函。这些学术交流说明国际上对我国语言测试研究的动态非常关注。

３．1996年9月，日本“英语鉴定学会”（Society for Testing English Proficiency，简称　STEP）一行八人专程从日本来上海访问CET考试委员会。STEP是日本文部省认可的英语考试机构，从1968年开始实施，到1996年已达到每年考生360万人的规模，在英语标准化考试这一点上，STEP和CET很相似。我们毫无保留地回答了他们想了解的许多问题。同年11月，笔者应邀回访了日本东京STEP总部，就CET设计原则、CET效度研究、大学英语教学大纲设计等做了多次讲座。通过交流我们也学习了日本STEP的经验并且与其建立了密切的合作关系。

４．通过与STEP的交流我们产生了一个想法，为了推动亚洲各国和地区的英语教学和英语语言测试的发展，由CET考试委员会发起，于1998年11月在上海交大举办了“亚洲地区英语语言测试研讨会”，出席研讨会的除了CET考委会外，还有日本英语鉴定学会、韩国国家课程与考试研究所（KICE）、香港考试局、台湾大学入学考试中心，可谓三国五方。这次研讨会开得很成功，各方反应热烈，决定以后每年在三国五地轮流举行研讨会。到第三年，决定正式成立学术组织，制定了章程，定名为“亚洲英语语言测试学术论坛”（Academic Forum on English Language Testing in Asia，简称　AFELTA），迄今为止，研讨会从未间断。

AFELTA的宗旨是“推动亚洲地区的英语教学和英语语言测试”，始终站在国际语言测试研究的前沿，讨论的主题涉及大规模高风险考试的效度研究、语言测试与语言教学的关系、成绩报道体制研究、新技术在语言测试与研究中的应用等等，近年来的研究重点更涉及大规模高风险考试的社会学问题、形成性测试与课堂教学、网考、建立亚洲地区统一英语语言能力等级量表等重大问题。这一发展轨迹反映了亚洲地区英语语言测试工作者认识的深化，努力使语言测试更准确地测量学生的英语语言能力、更好地为语言教学服务。一个跨地区的学术组织在长达20年的时间内不间断地定期举行学术会议，说明它为亚洲国家和地区的英语语言测试专业机构提供了一个有价值的平台，为交流学术观点、探讨语言测试新技术和新方法创造了良好的条件。

考试涉及一个国家的教育主权，中国学者有能力独立自主地开发达到心理测量学专业标准的语言测试项目，准确地评价学生的英语能力。

与境外上述著名教育考试专业机构的交流完全是一种平等的、学者之间的、坦率而真诚且毫无保留的交流，因为大家都充分意识到大规模教育考试的主事者肩负着重大的社会责任，应当交流经验、相互学习。实际上，这正是在践行国际语言测试协会的《ILTA道德规范》：“语言测试是一个跨学科的领域，要求其从业者在研究内容和方法上不断吸收应用语言学、教育测量学、心理学等相关领域的新成果，拓展自己的专业知识与技能，提高学术素质，钻研新理论、新方法、新技术，精益求精，以推进语言测试的专业化进程，保证考试的信度和效度，加强考试对教学的正面导向作用。”

为我国英语教育事业发展提供支持

CET考试委员会的工作非常辛苦，考委会成员第一届只有7人，第2届起扩大到15人，但全部为兼职，加上办公室4位工作人员，组织和运行如今每年几百万、上千万考生的超大规模考试，不能不说是一个奇迹，靠的就是拼命工作和奉献精神。例如，大规模考试中采用的多项选择题，虽然形式简单，但命题的专业要求极高，每道题从命题到成熟要经过“命题－审题－试测－计算机试题项目分析－复审－构卷”的漫长而复杂的过程，确保每道试题在难易度、区分度等方面都达到规定要求后才能用于实际考试，这个周期往往长达一年之久。有关人员在实际工作中对多项选择题的命题、审题都抱着一种敬畏之感，兢兢业业。

像CET这样获得社会信任的高风险考试，必须对学生高度负责，试卷上不能出现任何差错。十多页的试卷虽然只是“一份”，却意味着数万个不允许出现任何一个差错的“单位”，每次付印前都要经过反复仔细审校，才能签字付印。在长达30年的实际考试中，试卷上尚未发现任何差错。只有对工作持极端负责任的态度，才能做到这一点。

虽然迄今为止尚未有任何人对CET试卷的学术质量和文字水准提出过批评，但是由于大规模考试的高风险性质，CET难免受到来自各方面的不理解、出于各种考虑的非议，这种非议有时难免会影响正在埋头苦干的考委会成员的情绪，这时，董亚芬先生常常鼓励大家说：“别管它，我们把自己的工作做好，只要对得起学生，问心无愧就可以了。”正是这种排除干扰、气定神闲的精神，支撑着CET考委会成员为我国大学英语教育事业鞠躬尽瘁、努力不懈。不但如此，CET考委会成员还必须签字承担保密责任，包括不允许利用考委会成员身份编写出版模拟试题集或举办培训班等进行牟利活动。

CET考试是一项具有中国特色的考试。30年来，它经历了各种风风雨雨，但坚持改革和自我完善的宗旨不变，坚持为大学英语教学服务的初心不改。迄今为止，基本上做到了保证考试“命题的科学性、评分的一致性、组织的严密性、成绩的可比性”，从而得到了社会公认，并且引起国际语言测试界的重视。大规模考试的存在必定有其社会基础和学术环境。CET的设计基于我国改革开放对大学生英语能力提出的要求，其发展得益于我国英语教学理论和实践水平的不断提高，以及语言测试领域对效度越来越深刻的理解。

随着改革开放的深化，我国的英语教育还需要进一步提升质量，大规模考试会继续存在。当然，考试改革和发展需要教育主管部门的支持，需要考试研究者对信度和效度的追求，需要院校领导、教师和考生的配合，也需要考试使用者理解并合理使用考试。希望我国自主品牌的考试能够更加稳步地发展，并尽早走出国门、面向世界，为中国了解世界、世界了解中国作出贡献。