如何解决语音识别中的口音问题？

2024-11-07 21:27:09

推荐回答（2个）

回答（1）：

相信许多人都使用过语音识别产品，Siri、微信语音、度秘和手机自带的语音助手，这些产品正越来越深入我们的生活。除了不能识别我们的语气，有时不知道是不是我们讲的普通话不标准，对于很简单的话，这些语音助手经常答非所问。

最近，我所服务的单位正在试用一套语音识别系统，阿里巴巴旗下的，识别率只有80%左右。和工程师沟通过后，得出最可能的原因有2个：1、使用频次太少，导致系统无法积累足够的数据，没有办法有效自主学习；2、口音问题，试用者的普通话夹带了大量的地方特色口音，让系统难以识别。

目前许多语音识别软件或者系统都是基于标准的发音来识别的，内嵌的可能是有限的几种语言或者方言，对于原来没有的语种，还得通过海量的数据去训练软件才能提高识别率。人们说话千差万别，口音各不相同，而且各个地方都有自己的方言，这对于语音识别来说是巨大的严峻的考验。如果对于年轻人而言尽量使用普通话就好，可是真正需要使用语音识别的人群年龄较大，他们多讲方言，口音也独有特色，也没有精力去重新学习一门语言了。

抛开云计算能力，语音识别的痛点或许还有两个：1、如果想要构建支持不同口音的语音识别系统，需要对各种语种语音进行大量的采集，这需要海量的设备采集海量的数据，再进行无限次的分析，即使是全球性科技巨头都不大可能做到这种程度；2、语音识别系统的分析能力，这可能要寄望于人工智能和深度学习了。

目前国内的科大讯飞、百度、腾讯、阿里巴巴，以及国外的谷歌、Facebook、亚马逊等等科技巨头都在研究、推广语音识别系统，随着大数据、人工智能和深度学习的发展，或许我们未来都会拥有一个电影钢铁侠里的贾维斯！如果我们想拥有可以情感交流的语音助手，而不是只能听清我们讲的字，更能听懂我们的语气和情感，这将又是另一个层次的问题了！

回答（2）：

最近，有很多小伙伴问有没有好用的录音转文字工具，今天就给大家分享一款非常好用的神器，当然了，这款工具不只是具备“录音转文字”功能，还有一大堆其它功能可以使用。

当会议，或者课堂上想要进行录音并且整理录音为文字的时候，应用市场里面的这个“录音转文字助手”就能够帮助完成需要的转换。

找到这个工具，并且将这个工具按在手机后，在它的界面的左侧按下录音识别。就可以开始录音，并且快速的将录制到的声音转换成文字了。