首页> 预测未来>正文

2018年语音识别行业评测 作为学习交流参考

2018/11/12 17:31:27 来源:互联网 编辑:匿名

大家好,现在已经到了2018年的年底了,作为一个语音识别行业内的工作者,我想写一篇文章,来给大家实际测试一下,目前市面上各大"语音识别"引擎的实际识别效果,作为学习交流参考。

一、识别引擎

1、捷通华声(支持中文、英文、粤语)

2、云知声(支持中文)

3、百度(支持中文、英文、粤语)

4、科大讯飞(支持中文、英文、粤语、等十四种方言以上)

5、阿里云(支持中文)

6、有道云(支持中文以及英语)

二、测试项目

声音内容涉及:时间、地区、常用语、人名、金额、新闻稿内容

1.近距离录音测试(首先我们会准备一段对着手机以及录音笔说话的清晰录音,测试以上6款识别引擎识别的效果)

2.远距离录音测试(我们会准备二段录音,分别距离为1米和3米,采用录音笔以及手机进行录音,并测试声音识别情况,对比各家识别引擎的错误率)

3.新闻稿发音人声音测试(采用标准发音,慢速测试每个识别引擎的识别情况,对比正确率)

三、测试参数

为了保证测试的公平性,所有测试录音,统一转换为

采样率 :16000

编码:16bit 位深的单声道。

手机:Galaxys9+

录音笔:新科V-19

语音识别软件:录音啦

录音环境:室内会议室(无杂音)

语言类型:中文普通话


四、测试过程


测试距离1米远录音


测试距离3米远录音

一、手机录音”近距离[演讲稿]:

北京时间11月12日,2018-2019赛季短道速滑世界杯第二站在美国盐湖城继续进行,在男子500米比赛中武大靖以39秒505的成绩夺冠,并打破自己在平昌冬奥会上创造的39秒584的世界纪录。继上周两次登顶后,武大靖在500米项目上实现三连冠,成为该项目上当之无愧的霸主。

二、“手机录音”识别引擎近距离[演讲稿]识别结果



三、“手机录音”1米远距离录音原文:

关于王总的商业报告书我看了,大家打开第九页,文章中提到了“语音识别”行业的发展趋势正在迅速发展,我希望大家能够牢牢把握机会,争取在2018年的年底,把11月份,12月份的资料。详细的数据整理出来

四、“手机录音”识别引擎1米远录音识别结果



五、“手机录音”3米远距离录音原文:

2003年12月24日开工建设,2008年3月完工,总造价22.67亿元。作为国家标志性建筑,2008年奥运会主体育场,国家体育场结构特点十分显著。体育场为特级体育建筑,大型体育场馆。主体结构设计使用年限100年,耐火等级为一级,抗震设防烈度8度,地下工程防水等级1级。

六、“手机录音”识别引擎3米远录音识别结果



七、录音笔”近距离原文:

今天是2018年11月12日,我们在广东省广州市番禺区市桥街,小明将给大家介绍一下周杰伦演唱的歌曲,如“黑色毛衣”“七里香”等歌曲,都充满了年轻人的回忆。

八、录音笔”近距离识别结果:



九、录音笔”3米距离[演讲稿]:

2003年12月24日开工建设,2008年3月完工,总造价22.67亿元。作为国家标志性建筑,2008年奥运会主体育场,国家体育场结构特点十分显著。体育场为特级体育建筑,大型体育场馆。主体结构设计使用年限100年,耐火等级为一级,抗震设防烈度8度,地下工程防水等级1级。

十、录音笔”3米距离识别结果:



十一、得出对比图以及结论

评分规则:

1.最佳得:3分

2.推荐得:2分

3.效果不理想得:1 分


总结:

1.在近距离的"手机"和"录音笔"录音中,各大识别引擎识别出来的文字效果都不错,会存在部分错别字,对于数字类的识别,推荐选用“云知声”,文字显示的比较直观,对于人名,歌曲名,捷通华声、云知声、科大讯飞、阿里云、有道云的识别效果都非常不错

2.录音距离超过或者等于3米的,首选“云知声”识别引擎,丢字率比较低,识别的完整性较高

3.对比“手机”和“录音笔”由于手机属于近距离录音设备,在对比三米录音距离下,除了“云知声”其他的识别引擎文字丢失率比较严重。

4.对于近距离的录音,每个识别引擎出来的文字相差不大

5.请注意!本次测试仅限与学习交流,实际不同录音识别效果会有差异

感谢您的阅读,如果有什么疑问或建议,欢迎在评论区评论……


  • 幽默搞笑
  • 离奇事件
  • UFO
本站内容来自互联网,不提供任何保证,亦不承担任何法律责任.
COPYRIGHT © 2014-2024 591.info INC. ALL RIGHTS RESERVED.广告合作联系邮箱:591info@2980.com. 版权所有 591资讯