如今这个时代,在中国几乎是人人手上都有一部智能手机,这种小巧的电子产品正在潜移默化地改变人们的生活方式和工作方式。作为智能手机的典型特征之一,语音识别是必不可少的。这是一项在人与机器之前搭起沟通桥梁的技术,没有了它我们便无法通过手机将语音转成文字,也无法通过语音与智能语音助手对话。 尽管智能手机已经成为了随身携带的重要物品,但手机里的语音识别功能并不是人人都会用,即使用户懂得使用也不会将其作为手机基础功能之一。这背后的原因除了很少用语音转文字和智能语音助手之外,还有一个技术性的硬伤,那就是语音识别的准确率。目前全世界任何一家做语音识别技术的公司都无法达到100%的准确率,也就是机器还无法完全懂人类。
早在2016年的时候微软研究院就宣布了他们开创的一套算法能够将语音识别准确率提高到94%,这应该是当时业界的最高水平,但剩下的6%成为了语音识别的难中之难。这最后的6%就像是中国各大共享单车争夺上班最后一公里的蓝海,各大技术公司都争相尝试解决,但到目前为止还没有公司完全征服最后这6%。那么是什么原因使得这项任务如此艰巨呢? 纵观目前市面上可应用的语音识别技术,都能够顺利地接受音质清晰、发音较为标准的语音,但对一些音质稍差或存在口音的语音,往往会出现识别错误。由此可见,语音识别技术背后的算法目前尚未将口音和模糊语音纳入学习范围,这也是这项技术发展的巨大空间。语言是不同民族沟通交流的桥梁,存在差异是十分常见的现象,如何包容这些差异才是重中之重。
也有朋友会说,正确率高达94%的语音识别能力已经够平时使用了,还有必要争取最后那6%吗?对于普通人来说却是没必要,但是对于专业的新闻人员来说,这最后的6%决定了他们工作量的大小。语音识别技术从兴起到现在,一直在新闻界得到广泛应用。有了它之后记者们开始不用速记而是通过录音设备存储受访人的语音,然后通过语音识别整理出文档。 而新闻行业被大众认为是公布准确、权威信息的行业,报道的真实性尤为重要。
因此如果单纯使用目前尚不完美的语音识别技术,有可能导致识别出来的文字出现错误。而且有不少严谨的报社会在语音识别之后再审核一次,这样看来语音识别并没有提高工作效率,因此如何攻克最后6%的难题,成为了语音识别技术的瓶颈,也是蓝海。
并不能达到这种准确率,因为语音识别也存在一定的误差,而这种误差也会产生一些错误。
不能。虽然目前对于发音标准、音质清晰的识别非常准确,但是遇到一些音质稍差或者存在口音的往往就会出现识别错误。可见目前语音识别技术尚未将口音和模糊语音纳入学习范围,仍需要语音识别业务厂商的共同努力。
不可能达到百分之一百准确的,因为每个人说话的语气都不一样,而且各地与各地的口音都会不一样,所以无法完全识别。