英语语音技术让生活有“声”有色(26134)-英语教育-(51)-21英语网

本文作者：本报记者田文

第51期 (2006-09-11)

　　在今年上映的热门影片《碟中碟3》中，特工伊森通过“易容术”乔装成黑帮头目后，利用语音合成技术，在极短的时间内，通过对其录音文件的分析、提取特征，模拟其语音，在关键时刻骗过黑帮保镖，最终顺利完成任务。

　　电影中出现的高科技场面并非虚无飘渺，如今，英文语音合成技术已经悄然来到我们的身边。在刚刚结束的2006年度“Blizzard Challenge国际英语语音合成大赛”上，由安徽科大讯飞语音实验室提交的英文语音合成系统“击败”了微软亚洲研究院等选送的语音系统，荣获本次国际大赛第一名。

　　“这一结果标志着我国在多语种合成研究的核心技术上取得了突破性进展，英文语音合成研究已处于国际领先水平。这不仅是科大讯飞语音研究发展史上的重要里程碑，也是我国语音研究发展史上的里程碑。”该公司副总裁吴晓如博士告诉记者。

　　据了解，语音合成（Text To Speech，简称TTS）技术能够自动将任意文本状态的文字信息转化为连续、自然的声音信息，实现邮件、短信、电话簿等信息的自动播报、记事本和日程安排的语音提醒、手写输入的即时语音校对、通过电话收听电子邮件等，做到“Eyes Free”。

　　目前，“让机器开口说话”的语音合成技术在我国发展迅速，已逐渐在电信、银行、证券等社会信息服务领域实现大规模应用。值得关注的是，TTS技术在英语学习工具等产品上的开发与应用，让学习者与“机器人”进行即时英语口语训练、对话变为可能。

　　与机器PK口语

　　记者在采访中了解到，英语语音合成技术主要应用于嵌入式终端（如手机、电子词典）中和网络环境下，采用TTS技术后，手机、电子词典、网络平台等均能具备英语语音教学和信息查询功能。近年来，市场上具有TTS技术的英语学习类产品不断涌现。

　　去年年底，爱普生公司宣布，该公司成功研发出用于嵌入式应用的、多种语言的TTS合成芯片。据了解，这款芯片能够提供多语种选择，支持英语、法语、德语、西班牙语等五种语言。此外，汉语、朝鲜语、日语等语言支持也正在研发过程中。

　　今年上半年，上海说宝堂信息科技公司研发的Saybot英语智能软件一经面市，随即在英语教学界刮起了一股与“机器人”PK口语的风潮。据了解，Saybot由语音分析器、语音识别引擎和对话器三大部分组成。通过语音合成和识别技术，Saybot能将使用者的语音同标准语音库的资料进行比较，识别其发音与标准发音的差别。

　　“与Saybot‘对话’时，我在语法、词汇、发音上的错误能被及时探测出来，Saybot将所有语音分析结果汇总后，用某种方式反馈给用户，做到人机智能互动。”在外企工作的许小姐说。

　　长期以来，国内英语口语教学效果差强人意。在大班授课的环境下，很多学生在课堂上无法获得练习口语的机会，“哑巴英语”现象一直困扰英语教学界。针对这种情况，科大讯飞研发的实时互动的“英文口语评测和合成系统”能让学习者摆脱时间和地点的制约，无需依赖教师的现场授课。据悉，在语音合成技术的帮助下，系统会对学习者的口语进行自动评测，例如其运用的句子、短语中体现出的语速、流利程度及发音等情况，找出语音问题，并提示其纠正。

　　一些业内专家认为，该系统的中英文合成效果已经优于很多农村和中西部地区中小学教师的英语口语水平。今后，此类“人机对话”技术将能被更多地应用于英语辅助教学，同时也能较好地解决传统口语测试需要大量考官的问题。

　　据了解，网络平台同样是语音技术应用的主要领域。目前，新东方、洋话连篇、英孚（EF）教育等国内知名外语培训机构纷纷在其网络平台中引入智能化语音技术，搭建英语教学平台。

　　今年7月，新东方在线“口语风暴”在线课程正式上线销售。中国人民大学三年级学生薛炎告诉记者:“我们可以与机器PK口语，它的智能化语音系统会对我语音、语调的准确度进行评分，如果我的口语发音与资料库中的标准发音相去甚远，系统便会要求我重复练习。”

　　数字奥运行动

　　语音合成技术不仅为英语学习者带来“福利”，也能为2008年奥运提供服务与支持。2003年，国家科技部863计划成立了国家级重点科技攻关项目——“面向2008奥运会的多语言信息服务系统”，以解决北京奥运期间可能遭遇的多语种困境。

　　据了解，多语言语音合成组件是该服务系统的重要组成部分，通过TTS技术，该系统能向使用者提供高质量的中文(粤语)、英文、日语等合成语音服务。在2008年奥运期间，外国来宾将可通过合成语音获取奥运赛事、旅游、交通等各类信息。

　　从模拟到真实，路还有多远？

　　近两年，语音技术在中国发展迅速，据业内人士估计，目前中国语音产业链市场容量已超过1000亿元。语音技术的应用范围也越来越广，在电信领域，TTS被应用于声讯台、呼叫中心、电话银行中;在手机市场，通过安装语音软核，手机可以“读”出短信;在玩具市场，机器小熊可以“开口”说故事;在教育领域，学习者可以和机器人PK英语……

　　采访中，记者了解到，由于语音交互技术是一门涉及信号处理、模式识别、声信号感知等多学科的交叉技术，要实现质的飞跃，还需要信号处理、模式识别、语义理解等基础性技术的突破。目前，语音合成技术虽在陈述风格文本的语音合成方面已能满足应用的需求，但在多感情、多风格的语音合成技术上则有待突破。在现阶段，人们仍能容易地分辨出哪些是计算机合成音，而非真人语音。

　　“目前，语音技术虽遭遇一些瓶颈，但其所具有的广阔前景，已吸引了众多高水平的研究机构的投入。在未来几年，语音合成及识别技术将在语音导航、语音听写、信息查询、英语教学产品等方面发挥更广阔的作用，为人们的生活带来更大的便利。”吴晓如预测。

　　语音合成技术

　　语音合成（TTS—Text To Speech，即文句转语音)，是指将输入的文字或储存于计算机中的文件仿真人声发出语音的技术。目前，TTS技术的应用层面仍大多停留在阅读计算机屏幕上的文章、语音指引、互动回馈或辅助说明上。语音合成的瓶颈主要集中在发音的自然度(清晰、流畅)、多音字的处理、实时处理的能力等方面。

　　语音识别技术

　　语音识别是一门交叉学科，如今，正逐步成为信息技术中人机接口的关键技术。语音识别技术与语音合成技术的结合能使人们舍弃键盘，通过语音命令计算机进行操作。

　　该技术是21世纪信息技术领域十大重要的科技发展技术之一。目前关于语音识别的研究及应用主要集中在语音控制、电子发声、连续语音识别、非连续语音识别和语音学习几个方面。

　　“国际英语语音合成大赛”简介

　　“Blizzard Challenge国际英语语音合成大赛”是近年来英语语音合成领域颇具权威性和广泛性的国际评测比赛。

　　该大赛由美国卡耐基—梅隆大学(Carnegie Mellon University)和日本名古屋工业大学(Nagoya Institute of Technology)联合组织发起，旨在建立一个统一的英文语音合成技术的评测平台，加强各国语音研究机构之间的交流与沟通，促进语音技术研究的深入发展。

　　在比赛中，各参赛机构在主办方提供的统一的英文音库基础上，采用自己的研究方法合成待测句子，所有合成效果随机共享在网络上。国际语音合成专家、美国学生和业内人士对参赛的合成效果进行联合评分。测评指标包括语音自然度和可懂度两个方面。

　　参加本年度大赛的包括美国卡耐基——梅隆大学(CMU)、日本名古屋工业大学（NITech）、美国麻省理工学院（MIT）、微软亚洲研究院(MSRA)、IBM研究中心、日本国际电气通信基础技术研究所(ATR)以及中国安徽科大讯飞语音实验室等著名语音研究机构所提交的14个系统。