一举打破世界纪录!云从科技语音识别技术准确率达97.03%
中国人工智能“国家队”云从科技官网发布消息称,云从科技在语音识别技术上取得重大突破。他们融合图像识别与语音识别的优势,推出全新Pyramidal-FSMN语音识别模型,将语音识别准确率提升到97.03%。该识别准确率超过阿里、百度、约翰霍普金斯大学等企业及高校,刷新了世界纪录。
1
语音识别六十载 技术突破艰难而缓慢
在语音识别领域,全球科技企业的目标很一致,那就是想“超过人类”。在衡量语音识别技术的水平中,错词率(Worderrorrate,WER)是核心指标。之前,科研界设定人类错词率的界限为5.9%,受过严格训练的专业速记员错词率在3%左右。南都记者了解到,人类的界线已在2017年被微软超过,而受过严格训练的专业速记员则一直坚守着自己的底线。
图片来自:云从科技官网
在技术研究的最后一公里,每 0.1 个百分点的进步都异常艰难。南都记者梳理网上公开资料发现,语音识别六十年来的发展,技术的突破总是艰难而缓慢。从上世纪50年代,AT&T贝尔实验室的Audry系统率先实现了十个英文数字识别开始,语音识别的发展总是困难重重。
上世纪60年代,CMU的Reddy开始进行连续语音识别的开创性工作,但是进展缓慢,贝尔实验室的约翰·皮尔斯认为语音识别是几乎不可能实现的事情。70年代,计算机性能的提升,模式识别基础研究的发展,促进了语音识别的发展。上世纪90年代是语音识别基本成熟的时期,但是识别效果离实用化还相差甚远,语音识别的研究陷入了瓶颈。
陷入僵局后,语音识别研究的关键突破起始于2006年。这一年辛顿(Hinton)提出深度置信网络(DBN),促使了深度神经网络(Deep Neural Network,DNN)研究的复苏,掀起了深度学习的热潮。
之后微软研究院、IBM、谷歌、阿里巴巴纷纷接力,直到今年6月,阿里巴巴达摩院推出了新一代语音识别模型DFSMN,将全球语音识别准确率纪录提高至96.04%,错词率降低至3.96%。
DS2:百度,ESPnet:约翰霍普金斯大学,DFSMN-CE:阿里
直至今年10月29日,云从科技发布全新Pyramidal-FSMN语音识别模型,错词率(Worderrorrate,WER)降低至2.97%,较之前提升了25%,将全球语音识别准确率纪录提高至97.03%,超过受过严格训练的专业人类速记员。
2
刷脸、识人、辨音 智能大脑一个不落
南都记者了解到,云从科技并没有把语音识别作为唯一的“宝”来押注,这家孵化自中国科学院的企业,在人脸识别技术上同样有所突破。
2018年2月,云从科技正式在国内首发“3D结构光人脸识别技术”。今年4月,云从科技“跨镜追踪技术”(ReID)技术在Market-1501,DukeMTMC-reID,CUHK03三个数据集刷新了世界纪录,其中最高在Market-1501上的首位命中率(Rank-1 Accuracy)达到96.6%,让跨镜追踪技术(ReID)技术在准确率上首次达到商用水平,人工智能从「刷脸」跨到「识人」的新纪元。
语音识别技术同样是智能感知中一个重要的部分,通过语音识别,机器就可以像人类一样听懂说话,进而能够理解、思考与反馈。近年来,在深度学习技术的帮助下,语音识别取得了极大的进展,从实验室开始走向市场,走向实用化。基于语音识别技术的输入法、搜索和翻译等人机交互场景都有了广泛的应用。
3
智能感知+大数据,发展人工智能生态
云从科技声称,此次技术突破是其打造核心技术闭环路径中的关键一步。此前,云从科技在10月12日发布了国家发改委“人工智能基础资源公共服务平台”项目,该平台可以基于行业数据为各行各业提供人工智能智能感知及大数据服务。
据悉,中国人民银行、中国联通、中国邮政、民航局、金山云等企业与机构与云从首批签约。这个搭载人脸、人体、手势、红外、语音、车辆、风控、文字、大数据分析等多种方式为一体的人工智能平台,云从倾注了大量的技术力量。
在平台发布会上,云从科技创始人周曦提出了人工智能发展的五个阶段,核心技术闭环是五个阶段的重要基础。云从科技在今年先后首发3D结构光人脸识别技术及刷新跨镜追踪技术三项世界纪录,并在金融、安防、机场等优势行业建设基于智能分析的“行业大脑”,广泛强化合作伙伴范围,稳步推进从核心技术到智能生态的五步走战略。
云从科技应用 来自官网
在金融领域,云从科技目前是中国银行业第一大AI供应商。包括农行、建行、中行、招行总行等全国400多家银行已采用公司产品,为全国银行提供对比服务日均2.16亿次,同时为14.7万家社会网点提供服务。
在安防领域,公司产品已在29个省级行政区上线实战,每天比对超过10亿次,数据汇聚总量超过千亿,协助全国公安抓获超过1万名犯罪嫌疑人;
在民航领域,已有60余家机场选择云从产品,日服务旅客人数达到6千万。
据悉,在这些基础上,云从科技正在致力整合算力、智力、数据等资源及其成果,打造人工智能平台,进一步促进人工智能在金融、安防、交通、零售、教育等重要行业的落地。