科大讯飞语音识别率再提升 启动方言发言人招募
6月12日,科大讯飞在京举办了主题为“爱输入?更懂你”的媒体见面会,会上,讯飞输入法市场品牌负责人李强军介绍,目前讯飞输入法用户规模突破6亿,语音输入月覆盖率达50%%。同时,讯飞语音识别率也从97%%提升至98%%,讯飞输入法支持扩至23种方言,为更好利用AI来保护方言,讯飞将启动方言发音人招募活动。
识别率从97%%提升到98%%
讯飞语音输入之父翟吉博出场提及了2016年的锤子手机的发布会,罗永浩使用了讯飞语音输入一字不差的情景,可能很多人还记得。当时,讯飞输入法准确率是97%%,到今天讯飞识别的准确率为98%%。
“输入法从97%%到98%%准确率的识别效果,提升了只是一个点,这背后发生了什么?” 翟吉博表示,识别准确率的提升有三个难点,一是使用场景多样化、二是用户习惯、三是中国汉字和文化的特殊性。
针对这些难点,讯飞做了很多的努力,比如针对多样化的场景,科大讯飞分别推出了长文本输入、耳语输入。针对用户习惯和个性化,推出了个性化的训练模型,中英文混合输入,针对23种方言也推出了懂你懂乡音等。
翟吉博表示,语音输入更精准的方法离不开数据和算法。讯飞输入法从人脑神经科学入手对人类记忆进行仿生,实现大量无监督的数据去辅助有人工标注的数据。受图像领域CNN应用的启发,科大讯飞独家研发了深度全序列卷积神经网络(Deep Fully Convolutional Neural Network,DFCNN)语音识别框架,使用大量的卷积层直接将语谱图作为输入,相比传统语音特征作为输入,有效降低信息损失,非常出色地表达语音的长时相关性。同时,借鉴了图像识别中效果最好的网络配置,每个卷积层使用3×3的小卷积核训练更深的CNN模型,输出单元直接与最终的识别结果(比如音节或汉字),从而使识别准确率显著提升。
他同时透露,讯飞基于图像Hyper-CNN语音引擎即将上线,目标1分钟能够识别400字,除了语音输入,键盘打字,讯飞还在探索新的场景的OCR识别,以及英、日、韩、俄多语种面对面的翻译等。
启动方言发言人招募
方言是语音识别中的一道难题。对于口音和方言识别的难题,讯飞输入法提出方言语音输入方案来解决。依托科大讯飞对AI技术及语言深度研究的积累,采用Multi-lingual多语言建模,通过多方言数据共享方式训练;辅以Global Phone全球音素集,从声学层面的相似性统一各方言的音素定义,对方言“语图谱”模型做进一步精进,从而有针对性地提升方言语种的识别能力。目前讯飞输入法支持22种方言,其中粤语、四川话、东北话等识别率均已超过90%%。本月底,讯飞输入法还将新增苏州话识别,方言识别语种将扩充至23种。
本次见面会的另一个重要环节是启动“方言发音人招募”公益行动。随着经济、文化活动的全球化现状以及区域经济的迅速发展,导致主流语言或通用语言更加强势,同时也使得弱势语言的交际功能不断衰弱,甚至濒临消亡。目前世界上的语言大约有6000—10000多种,据语言学家预测,大部分语言将于本世纪末消失。因此,濒危语言保护(以下简称为“语保”)已经成为了一项极重要而迫切的工作。
科大讯飞多语种高级研究员祖漪清在现场讲述了方言势微的现状,利用人工智能技术进行濒危语言、方言系统地研究一个语言的语音结构、语言结构,实现对一个语言的完整“复制”迫在眉睫。因此,本次媒体见面上正式启动了“AI方言发音人招募”公益行动。
责任编辑:bet365现金网