当前位置: 文章详情
语音识别技术准确率早已超过人类平均水平

语音识别技术准确率早已超过人类平均水平

我们距离用母语走遍全世界还要多久?
头像 玩家之道 更新时间:2018-02-21 14:00
购买渠道
App Store

语音交互在某些方面是一个“升维”的操控方式,相比传统的操控方式来说,“语音”能让使用者无需直接接触被操控物就能实现某些功能。比如在实时互译、智能家居的操控以及面向特别人士的辅助技术等方面,语音交互都能带来很大的便利。随着这两年机器学习技术的迅猛发展,语音识别技术也有着极大地突破,百度和微软分别表示在2015年、16年的时候自家语音识别技术对于汉语/英语的识别词错率就已经低于人类平均水平。伴着时间的推移,语音识别技术的准确率仍在不断地提升。

每年的2月21日是国际母语日,意义是宣传保护语言的重要性和促进母语的传播。今天正好借着这个机会来陪各位了解下语音识别技术,尤其是汉语语音识别的部分。让我们通过技术瞭望一下,还有多久能够达到“只学母语,就能走遍天下”这一美好期待。小编还贴心的为各位准备了“太长不看版”放在文末,嫌字多的值友可以拖到底部~

语音识别技术准确率早已超过人类平均水平


语音识别及技术的前世今生

基于计算机系统的语音识别技术在20世纪50年代诞生于贝尔实验室(就是那个对晶体管、发光二极管、太阳能电池蜂窝移动通讯技术等等有众多研究成果的贝尔实验室),当时开发出的特定语言增强系统Audry可识别十个英文数字单词,在之后的一段时间内对于这项技术由剑桥大学、IBM等科研机构领衔研究。在20世纪80年代末,卡耐基梅隆大学推出的Sphinx系统(由李开复主导研究哦~)取得了一个阶段性的研究成果,是第一个高性能的非特定人、大词汇量连续语音识别系统。

随着科学技术的不断进步,进入了所谓“大数据”和新一代“人工智能”时代后,深度神经网络、机器学习和大量数据的加入使得语音识别有着质和量的突破。在16年10月,微软表示自家的语音识别技术的词错率已经低至5.9%,已经持平人类水平,而当时还是百度首席科学家的吴恩达发了一条这样的庆祝之词“我们的汉语识别的成绩在2015年就已经超过了人类平均水平,对于微软在比我们晚了不到一年的时间终于到了这个程度感到欣慰”。又过了一年多的时间,词错率的这个数字也降到了更低的水平。

语音识别技术准确率早已超过人类平均水平

(吴老师也是很皮了,不过人谁让家有实力呢...)


目前语音识别主流技术简介

在谈论语音识别技术时不得不提的是隐马尔可夫模型(HMM),该模型是用来描述一个含有隐含未知参数的马尔可夫过程。由于隐马尔可夫模型的特点与人类语音模型的特性相似,因此在语音识别,中文断词和机器翻译中被广泛应用,尤其在语音识别的应用中占有重要地位。

马尔可夫性质是概率论中的一个概念,因为俄国数学家安德雷·马尔可夫得名。当一个随机过程在给定现在状态及所有过去状态情况下,其未来状态的条件概率分布仅依赖于当前状态;换句话说,在给定现在状态时,它与过去状态(即该过程的历史路径)是条件独立的,那么此随机过程即具有马尔可夫性质。具有马尔可夫性质的过程通常称之为马尔可夫过程。

语音识别技术准确率早已超过人类平均水平

隐马尔可夫模型状态变迁图,图片和马可夫性质介绍来自维基百科

随着互联网的兴起和大数据的到来,在对于众多数据的运用和提升上隐马尔可夫模型相深度神经网络在很多地方要薄弱一些,因此目前更主流的技术大多是基于机器学习所研究。虽然说目前有众多不同的技术手段充斥在语音识别研究当中,归根结底来说目前这些算法仍旧基于统计模型。

在实际应用当中,还要提到的两个概念是“声学模型”和“语言模型”,其中声学模型是对声学、语音学、环境的变量、说话人性别、 口音等的差异的知识表示。简单理解的话,可以类比于将“小编想放假”转换为“xiao bian xiang fang jia”,而语言模型是用来理解“xiao bian xiang fang jia”这句话的内容的,然而这两个模型的数据量往往都十分巨大,这也是目前大部分同步翻译的软件/产品都需要联网到云端服务器的原因。

目前阶段想要完成一次从语音识别和翻译需要三个步骤:“语音识别-语义分析-语音合成”,想要实现其中每一项都需要各种各样的技术,而这其中的每一个技术都不是一篇文章能够讲述清楚地,所以暂时就不在本篇文章中多讲,有兴趣的的值友可以去了解一下相关的文献和研究报告。

语音识别技术准确率早已超过人类平均水平

Google 的语音合成系统WaveNet,上图为其结构图示


汉语语音识别现状

在对于语音识别的技术研究上,国外的研究规模要略早一些。不过对于汉语语音识别的研究,国内的高校和机构以及企业自然能够近水楼台先得月,在1986年提出的国家高技术研究发展计划(863计划)中就涉及到了对语音识别技术研究的专门立项。高校方面,清北、哈工大、上海交大、中科大等国内知名高效和科研机构都有实验室进行了相关研究。而科技型企业也有像科大讯飞、百度、搜狗这样的代表型公司。

百度

作为人工智能七大黑洞之一的百度,拥有着顶尖的人工智能人才团队,而且对于坐拥目前全球最大的中文搜索引擎的百度来说,在数据的获取上有着得天独厚的优势。百度研发的语音识别系统叫做Deep Speech,后续版本Deep Speech 2还被MIT Technology Review列为2016十大科技突破之一,上文中提到的汉语语音识别超过人类水平的也就是这款产品。在17年年末百度推出了Deep Speech 3,其转录普通话的能力和水平又得到了再一次的提升。

语音识别技术准确率早已超过人类平均水平

科大讯飞

科大讯飞未必是汉语语音识别技术的一哥,但的的确确是名声最响的一家,除了技术本身过硬之外,科大讯飞懂得如何让技术落地也是一个重要原因。小编在写这篇文章之前也同科大讯飞的工作人员简单聊了聊,对方表示翻译对科大讯飞来说是一个很大的市场,对于企业和消费者都有不同的产品推出,其中面向个人用户的有翻译机产品,可基于神经网络算法做到离线引擎翻译;面向企业用户有“讯飞听见”,这是一款可提供中英文同声传译的产品和服务,在很多大型的会议场景中都出过它的身影。

语音识别技术准确率早已超过人类平均水平

除了百度的Deep Speech和科大讯飞之外,还有像是微信、搜狗这样的互联网大厂,以及出门问问、云知声和思必池这样的技术型公司在汉语语音识别有所研究。

手机应用推荐

而在面向消费者的产品形态上,目前市面上有硬件和软件两种模式。硬件比如科大讯飞的晓译翻译机,是厂商为了盈利所打造的产品,会调用相比免费软件更好的资源。而软件的选择众多,小编也简单为各位列举了几款:

  • 有道翻译官:官网 | 有Andriod和iOS版本

  • 出国翻译官:官网 | 有Andriod和iOS版本

  • Google 翻译:官方地址 | 国内网络环境直接可用,无需要其它神秘的操作~

语音识别技术准确率早已超过人类平均水平

一则灵魂拷问

写在最后

语音识别技术这种“机器感知”类的技术目前已经相对成熟,制约语音交互发展的更多原因在语义理解这种“机器认知”的部分,这一部分受限于训练方式、样本标记数据量、计算量等多个方面。其中如何能让机器理解中有一个矛盾点:机器不通过学习的话无法理解,但机器不理解又没有办法进行相关的学习。由于这方面的标记十分有限,而目前采用的非监督学习的训练方式依旧处于探索的阶段,还不足以解决这种困难。

而且汉语语音识别本身也有些问题还没有得到解决:比如说目前没有一个公用测评的标准数据集,各家宣称的识别准确率无法直接横向对比,且部分厂商有掺水嫌疑;其次还有着我国方言众多、需要理解使用者的重复说话和打断以及噪音等种种问题需要解决。

“只学母语就可走遍天下”说的不只是人与人之间的交流,也可能是未来人与机器进行交流的一种方式。诚然,无论是语音识别还是语音交互技术,都离实现这一目标还有着不小的距离。但,我们十分期待着那一天的到来。

语音识别技术准确率早已超过人类平均水平


太长不看版

重要事件节点

  • 语音识别技术在20世纪50年代诞生于贝尔实验室

  • 在20世纪80年代末,卡耐基梅隆大学推出了第一个高性能的非特定人、大词汇量连续语音识别系统。

  • 百度表示2015年自家汉语语音识别技术词错率低于人类平均水平。

  • 2016年10月,微软表示英文语音识别词错率低于人类平均水平。

技术简介

  • 隐马尔可夫模型是此前语音识别中的主导模型,在后续研究过程中有更多种更适合新技术和模型出现。

  • 面对大量的数据的运用和提升时,隐马尔可夫模型不如深度神经网络优秀,因此运用机器学习进行语音识别来做研究的越来越多。

  • 其他技术类的概念无法缩略成太短的介绍,建议看文章语音识别技术准确率早已超过人类平均水平 

汉语语音识别现状

  • 国内有多所高效和企业早已开展语音识别相关研究,国家的863计划对其也有专项的扶持。

  • 百度的语音识别系统Deep Speech 在学术界和业界表现真的不错。

  • 科大讯飞的语音识别也可圈可点,对于技术的落地和变现更有优势。

  • 还有搜狗、微信、出门问问、云知声、思必池等多个公司在这方面研究均有所建树。

支持汉语和其他语言的软件推荐

  • 有道翻译官

  • 出国翻译官

  • Google 翻译

目前这些技术和研究对于普通话以及贴近于普通话的方言可以正常识别,但是对于像温州话一样的方言么,道险且长。

“这是一种非常生僻的方言,叫温州话,中国人称它为‘恶魔之语’”——美剧《盲点》

什么值得买是一家中立的消费门户网站,好价信息来自热心值友爆料和商家自荐,经小编人工审核或小值机器人智能判断后发布。促销折扣可能随时变化,请值友们购买前注意核实。
好价信息中“价格标签”及“比价结果”均为系统自动计算生成,详情请查看功能说明
我要举报:
  • 好价失效
    请选择举报理由:
  • 内容问题
    请选择举报理由:
  • 商品问题
    请选择举报理由:
  • 侵权举报
    请选择举报理由:
  • 其他
+1 已打分
92%的值友认为值 297
274 : 23
+1 已打分

本文作者 喜欢作者就打赏Ta哟

打赏 关注
180评论

  • 精彩
  • 最新
  • 平均水平?你先跟我说说啥叫平均水平

    校验提示文案

    提交
    全球大概3亿人英语母语,2.5亿人作为第二外语,总共是5.5亿,然后和70亿的总人口平均下,那水平还是杠杠的,哈哈哈哈哈

    校验提示文案

    提交
    广东福建人说普通话。 [doge]

    校验提示文案

    提交
    还有3条回复
    收起所有回复
  • 《意思》
    领导:“你这是什么意思?”
    阿呆:“没什么意思,意思意思。”
    领导:“你这就不够意思了。”
    阿呆:“小意思,小意思。”
    领导:“你这人真有意思。”
    阿呆:“其实也没有别的意思。”
    领导:“那我就不好意思了。”
    阿呆:“是我不好意思。”
    领导:你肯定有什么意思。
    阿呆:真的没有什么意思。
    领导:既然没有什么意思,那你是什么意思?
    阿呆:其实,我的意思就是想意思意思。
    领导:你既然是想意思意思,那就是有什么意思。
    阿呆哭了:我就是想意思意思。但是,真的没有什么别的意思。这么个小红包能有什么意思?也就是意思意思而已。
    领导笑了:呵呵。我对你有点意思了。
    阿呆:嘻嘻。我就是这个意思

    校验提示文案

    提交
    应该拿来做HSK的阅读理解题~~~

    校验提示文案

    提交
    只有中国人能理解

    校验提示文案

    提交
    还有2条回复
    收起所有回复
  • 就没人觉得“太长不看版”应该在篇首么

    校验提示文案

    提交
    人家写了好久,翻过去也是尊重呀

    校验提示文案

    提交
    那又怎样,反正他也不会改。 [皱眉]

    校验提示文案

    提交
    收起所有回复
  • 2001年时买了张盗版光盘,第一次使用语音输入而且能识别本地方言,当时觉得简直就是黑科技不仅能输入还能控制电脑。记得是ibm的viavoice

    校验提示文案

    提交
    对,不过99年好像就用到了,国内最早见到的语音识别就是ibm,开始还要跟着朗读好几段文字让电脑学习,后来好像金山的某个版本wps也加入了语音输入,感觉真是高大上!因为最初几年用电脑,大多只用鼠标点点点,几乎没用过多少键盘,用个oicq聊天都嫌弃偶打字慢,而且似乎只有自己用拼音,对面的全都用五笔!归根到底还是懒啊 [疑问]

    校验提示文案

    提交
    记得读了快一个小时文本~~~识别率还是很感人~~就是说我的电脑能直接打开~~感觉超吊啊~~

    校验提示文案

    提交
    还有3条回复
    收起所有回复
  • 百度首席科学家在北京发推文

    校验提示文案

    提交
  • 按小编们的错别字水平。应该是低于百度和科大讯飞的

    校验提示文案

    提交
  • 有种语言叫做 body language

    校验提示文案

    提交
    每次扫黄都有你

    校验提示文案

    提交
    收起所有回复
  • 应该出一个保护方言的app啊,我从小学普通话,方言就很有限,我女儿方言只会听不会说,南方方言很丰富,失传了很可惜。

    校验提示文案

    提交
  • 国足谁都打不过和国乒谁都打不过怎么翻译?

    校验提示文案

    提交
  • 前不久去了次微软总部 他家的中英互译真是不错 正确率杠杠的 还有智能识别视频中的出现的所有人脸 归类出现在几分几秒 出现了几次 并且能联网搜索人物信息 简直就是终结者里面的天网

    校验提示文案

    提交
    按我国这情况很快就真有天网了。。。 [捂嘴]

    校验提示文案

    提交
    嗯。。。其实已经。。。

    校验提示文案

    提交
    还有6条回复
    收起所有回复
  • 所以还学什么英语?

    校验提示文案

    提交
  • 我会恶魔之语 [抽烟] 我温州人

    校验提示文案

    提交
  • 搜狗分明是三家里最慢准确率最低的

    校验提示文案

    提交
  • 技术的发展绝对比我们普通人了解的要先进

    校验提示文案

    提交
  • 百度吹牛*的水平确实有实力

    校验提示文案

    提交
  • 昨天用讯飞语音录入300字,准确率95%,很便捷

    校验提示文案

    提交
  • 没人吗?。。。。

    校验提示文案

    提交
    有人的。紫薯布丁

    校验提示文案

    提交
    收起所有回复
  • 翻译看来快要失业了

    校验提示文案

    提交
  • 识别只是第一步,能理解再翻译才是最难的啊

    校验提示文案

    提交
  • 手机输入法,讯飞输入法的识别率和速度,比百度输入法好实在太多了

    校验提示文案

    提交
提示信息

取消
确认
评论举报

本文收录在
展开 收起

爆料是一件简单又好玩的事,动动手指就能把你认可的好价商品分享给千万值友,还能获得大量金币奖励,兑换礼品卡和值得买定制礼品!赶快行动起来吧! 点击观看视频吧~

我要爆料
爆料新人可获额外奖励
新人奖励

前5篇发布银牌及以上层级爆料每篇奖励3金币,第6至10篇每篇奖励6金币。

更多奖励机制详情请戳
最新好价 热门好价
扫一下,分享更方便,购买更轻松
929

领券确认

您目前有50积分,确定使用10积分兑换以下优惠券吗?

苏宁母婴用品优惠券

提示信息

此优惠券需要50积分兑换,您的积分不足,请继续努力呦~

领取成功

您可以在值友福利-查看兑换记录-我的优惠券中找到券码,也可以复制券码后立即使用。

券码:  XXXXXXXX 复制
复制成功
领取成功

24小时后券码公开,请尽快使用哦~

券码:  XXXXXXXX复制
复制成功
密码:  YYYYYYYY    复制
复制成功
优惠券

此优惠券需登记银联卡后才可领取,参加银联优购全球活动享更多优惠~

您已经领取过了,可复制券码使用!

您可以在值友福利-查看兑换记录-我的优惠券中找到券码,也可以复制券码后立即使用。

您需要先成为发布者的粉丝才能领取此优惠券!
一键关注