本篇文章2171字,读完约5分钟
最近,一篇题为“错误率2.97%:云打破科技语音识别世界纪录”的文章进入了公众的视野。文章中的宣传“将WER的字错误率降低到了惊人的2.97%,比前一水平增加了25%,并且已经超过了专业速记员的水平。这一成就有望推动语音识别技术的实质性进步,它已经超过了人类专业速记员的水平。”这些话震惊了从事语音识别研究的研究人员和技术提供商。不知道真相的人认为当前的语音识别已经超越了刷,语音识别技术没有门槛,语音识别是一个已经解决的问题...
然而,事实并非如此。在像LibriSpeech这样的简单数据集上,将单词错误率“刷”到2.97%并不困难。在语音识别领域还有许多问题需要解决。作为一名关注语音识别技术发展的业内人士,我希望通过本文还原语音研究和行业的真实情况。
自动语音识别(ASR)是一种人工智能技术,它使机器能够自动将人类语音转换成单词。语音识别研究早在20世纪50年代就开始了。在早期,一些科学家甚至将这项技术和“将水转化为汽油,从海洋中提取黄金,以及治疗癌症”列为不可能完成的任务。经过半个世纪的发展,语音识别技术在2011年后迎来了发展的黄金时期:微软研究院的前研究员于东和李征首次成功地将DNN应用于大词汇量语音识别。基于神经网络的语音识别技术迅速成为研究和工业投资的密集场所。早上,行业内的谷歌和中国的迅飞成为拥有DNN语音识别系统的两家公司。经过近10年的发展,语音识别技术在空之前已经取得了进步,并在许多场景下达到了实用水平。手机语音输入法、智能扬声器、汽车语音交互等产品已经进入普通人的家庭,语音识别技术也成为人工智能中技术落地最早、用户范围最广的技术。在世界范围内,谷歌、微软、IBM、苹果等巨头都把语音技术研究放在了高度优先的位置。除了中国的HKUST迅飞之外,百度、阿里、腾讯等巨头也纷纷出台了自己的计划。新创公司如西伯利亚和云之声也相继进入市场,呈现出百花齐放的格局。
随着语音识别技术的快速发展,影响语音识别效果的主要因素有哪些?笔者认为主要包括环境因素、说话人因素和技术因素。
1.环境因素:主要是背景噪声和环境混响的影响。典型的场景是地铁中语音输入的效果会明显降低,远距离操作音箱效果不是很好。
2.说话人因素:例如,有明显口音的人很难使用语音识别;说话快且口齿不清的人也有一般的识别效果。此外,不常见专业领域的识别率不会很高。
3.技术因素:包括建模方法和训练语料库。例如,基于神经网络的系统明显优于上一代HMM隐马尔可夫模型系统。训练数据越多,对实际场景的覆盖就越好。
那么,如何客观地评价当前语音识别系统的效果和每个人的技术水平呢?很容易想到两种方法:一种是获取每个公司的产品,然后找第三方进行客观的比较。然而,这种比较很难操作。首先,不同的产品有不同的形式,支持不同的业务,支持不同的声明。进行统一测试并不容易。第二,一些学术机构技术水平高,但没有产品,不能参与比较。最后,找到一个真正客观的第三方并不容易。
另一种比较方式是,在公共评估数据集上,每个家庭使用其独特的技能来衡量最佳结果。本评价数据集的语言一般为英语,便于国际比较,因此结果可以在很大程度上显示技术实力。
目前,有许多类似的测试集,难度相差很大。这些结果彼此不可比。例如,一群大学生参加了考试,但是拿一个小学生的试卷会导致无差别的分数,并且容易得出错误的结论。下面是对语音识别领域中一些常见评估数据集的分析。从结论来看,更容易得到每个公司的技术水平。
1.总机:电话总召回语料库已经被用作国际语音识别系统的基准超过20年,并具有广泛的影响。数据集是真实的电话数据,并且数据的记录质量相对较好,但是说话者的口音和风格是多种多样的,这是一个困难的测试集。2017年8月,微软研究院获得WER 5.1%(识别率94.9%)的最佳切换结果。
2.CHIME:多源环境下的计算听觉,始于2011年,由法国、英国和美国的知名研究机构发起,旨在推动学术界和工业界通过竞赛为高噪声和混响等实际场景提出全新的语音识别解决方案,进一步增强语音识别的实用性和通用性。这次比赛吸引了许多高层次的企业和机构参加。
2018年最新一届的CHiME-5比赛数据极其困难,语音识别领域的困难技术都包含在其中:多麦克风阵列录音的同步;快速和随意的说话风格;高混响和大环境噪声;很多声音重叠(鸡尾酒会问题)。据报道,许多原本计划参加比赛的组织由于困难没有提交最终的评估结果。在这场比赛中,中国飞人击败了欧洲和美国的对手,再次获得了四项冠军,显示了其强大的技术实力。然而,即使迅飞的最佳结果也只有约WER46%(识别率为54%),所以迅飞称之为“历史上最困难的语音识别任务”并不过分。
3.图书馆、极光等。一些影响力小、难度低的公共收藏。此次科技云使用的LibriSpeech数据集是1000小时的高信噪比阅读式数据集,因此很容易在该数据集上“刷”出好结果。
通过以上分析,我们基本上可以得出几个结论:
1.世界上的微软和中国的迅飞是语音识别技术领域的第一梯队,他们的领先优势仍然不可动摇。
2.语音识别的问题还远未解决。学术界和工业界需要共同努力,继续推动技术的发展。政府和行业绝不能因为某些刻意夸大的宣传而大幅减少投资。研究环境需要学术界和工业界的共同关心和培养。
来源:BBC新闻网
标题:哪种语音识别能力强?语音识别技术的进展和现状
地址:http://www.0bbc.com/xbglxw/2348.html