Blizzard Challenge是由美国和日本联合发起的国际上规模最大、最具影响力的语音合成大赛,自2005年起,历届大赛吸引了美国卡耐基-梅隆大学、英国爱丁堡大学、日本名古屋工业大学、IBM研究院、微软亚洲研究院等语音技术领域的世界一流科研机构参加。
而在这样高手云集的国际顶级赛事上,连续9年在多项指标中获得冠军的却是一支来自中国的队伍——科大讯飞研发团队。
1999年以前,中文语音产业基本上控制在国外IT巨头手中。微软、IBM、Intel等纷纷在在中国设立语音研究基地,国内语音专业优秀毕业生基本上全部外流,中文语音产业被国外掐住了“咽喉”。
怀抱着“中文语音技术应当由中国人做到全球最好,中文语音产业应当掌握在中国人自己手中”的信念,1999年,以刘庆峰为首的18名在校大学生创立了科大讯飞,并不断通过产学研合作的创新机制有效整合语音技术源头资源,将中文语音技术做到了全球最高水平。
2004年,科大讯飞在国家863中文语音合成评测中囊括所有指标第一。在此之后,我们开始将目光投向国际赛场。2005年,在了解到第一届Blizzard Challenge的情况之后,讯飞首席科学家王仁华教授提出,“现在,我们已经把中文语音合成做到了世界领先,明年我们是不是去国际比赛中试一试?”
团队成员们也都跃跃欲试,希望得到向世界一流科研机构与高校学习的机会,“那时没有想过参赛能获得什么名次,只是期待能到国际舞台上‘亮剑’,衡量我们真实水平,大家当时都卯足了一股劲。”当时的团队成员江源回忆道。
2006年,科大讯飞代表大中华区参加Blizzard Challenge。参赛前,时任中国科学院院长的路甬祥恰好来公司进行视察,了解到科大讯飞要参加国际比赛的事情,“这是你们第一次参加世界性大赛,如果能获得前三名就已经很不错了。”
当年的比赛规则要求在规定时间内搭建出基于1000句和5000句两个不同规模音库的英文合成系统,主办方从可懂度和自然度两个方面分别测试各个团队的语音合成效果。一般来说,从零开始搭建一个基于5000句规模音库的高质量语音合成系统需要至少半年以上的时间。而留给参赛者的时间只有一个月,按时完成的难度非常大。
讯飞研发团队克服了音库规模大和时间紧的压力,采用当时国际上最先进的基于统计声学建模的参数语音合成方法完成了两个参数系统的构建,并在模型训练、参数生成等方面进行了创新性的改进,系统优化的工作一直持续到了规定提交的最后时刻!
结果,讯飞提交的参赛系统一举获得了小库可懂度和自然度两个指标双料第一,大库可懂度第一、自然度第二的优异成绩!成为当年大赛最大的“黑马”,震惊了国际语音学界。因为,中国人不仅将中文语音技术做到了全球最好,而且可以将非母语的英文语音技术做到了全球最好!
世界知名语音研究机构纷纷主动与讯飞建立联系。大赛组织者,国际知名语音学家、IEEE院士德田惠一教授还特地不远万里的来到到讯飞参观、交流。科大讯飞成功地在世界舞台上发出了自己的声音。
此后,从2006年至今连续9年的时间里,科大讯飞一路高歌猛进,在Blizzard Challenge中连续夺冠。这意味着中国人在语音合成技术上牢牢树立了国际领先的地位!
回顾9年征程,这是科大讯飞核心技术的卫冕之路,更是超越之路,创新之路!讯飞的研发团队通过比赛不断开拓研究方向、提升国际化视野,有力地推动了我国乃至国际智能语音技术与产业持续的向前发展。
下面就让我们一起回顾科大讯飞语音合成研发团队在历届Blizzard Challenge中的精彩表现吧!
§ 2006年,首次参加Blizzard Challenge,科大讯飞即获得可懂度和自然度两个指标双料第一。
§ 2007年,测试音库规模相较2006年扩大了一倍,并新增相似度测试。科大讯飞的系统包揽自然度、相似度、可懂度全部第一。其中讯飞原创的基于统计声学模型的单元挑选语音合成算法更是得到了语音合成研究领域的广泛关注。
§ 2008年,参赛成员增加到20家,包括爱丁堡大学、卡内基梅隆大学、IBM、东芝等国际一流高校和机构,面对强有力的竞争对手的挑战,科大讯飞一举包揽了英文大库、小库自然度和相似度的第一。这是业界首次在自然度测试中获得超出普通人说话水平的4.1分。
§ 2009年,比赛增加了三个可选项目:音色转换合成、复杂信道合成、人机对话合成。这意味着对合成的效果提出了更高的要求。这一年,科大讯飞继续获得大库相似度、自然度、可懂度测试指标的第一名,在小库和三个可选项目上也都取得了各项测试指标前两名的优异成绩。
§ 2010年,除了传统合成项目持续领先,科大讯飞在新增的可选项目中继续取得好成绩。极小规模音库合成获得自然度第一、相似度可懂度第二,加噪语音合成获得可懂度第三,高采样率语音合成获得自然度相似度第一。
§ 2011年,比赛首次增加小说类型测试文本,参赛系统需要利用10小时的女声美式英语数据,做出能够自然、流畅朗读小说的合成系统。面对更高的比赛要求,科大讯飞继续保持领先地位,一举获得相似度、自然度双料第一。
§ 2012年,测试小说类文本合成效果成为了比赛的重点。组织方提供了50小时英文小说朗读数据但并无标准文本,需要依靠参赛方利用机器学习方法自动处理。最终,科大讯飞在相似度、自然度、错误率、段落感觉测试中全部取得第一,进一步扩大了我国在处理大规模语音数据以及合成小说类型文本领域的国际领先优势。
§ 2013年,比赛难度攀升,首次开展了印地语合成测试项目。科大讯飞在传统项目上继续保持了国际领先地位,并开创性的获得了印地语、孟加拉语,泰米尔语三个语种的自然度第二名,展现了我国在语音合成技术方面的强大综合优势。
§ 2014年,比赛首次将主要测试语种从英语语种全面转换到非英语语种,要求提交的语音合成系统包括印地语、阿萨姆语等六种印度语种,并增加了这些语种与英文混读情况下的合成测试,比赛难度进一步提升。最终,科大讯飞研发团队提交的参赛系统获得了印地语合成语音相似度与可懂度、印地语英语混读合成语音相似度与自然度共计11项指标的第一名,再次证明了我国在多语种语音合成等关键技术领域的国际领先优势