新华网贵州频道
贵州频道 返回首页
>>正文

揭秘数博会上的黑科技:机器“读唇术”

2017-05-28 19:05:30  来源: 新华网

    新华网贵阳5月28日电(卢志佳)2017数博会上,科大讯飞的语音识别技术以几乎完美的准确率惊艳众人,让不少与会者感叹:语音识别技术日益强大,大有让速记、口译人员丢饭碗的趋势。事实上,即使听不到声音,人工智能也已经可以顺利地读取唇语了,甚至比人工还要有效很多。

    从技术路径上说,唇语识别是一项集机器视觉与自然语言处理于一体的复合型技术:系统通过机器视觉从图像中连续识别出人脸,提取口型的连续变化特征,随即将连续变化的特征输入到识别模型中,识别出讲话人口型对应的发音,从而计算出可能性最大的表达语句。

    本次数博会于5月27日举行的“2017十大黑科技奖项”发布会上,海云数据作为大数据可视化分析领导者,带着最新研发技术“唇语识别”闪亮登场。

    “海云数据的唇语识别技术,打破了原先只能识别英语的技术局限,开创了中文唇语识别的研究先河,并将中文和英文唇语识别模型准确率达到71%和80%。”海云数据合伙人刘秋雯向与会者介绍,中文的识别率相对于英语来说比较低,主要是因为中文和英语发音存在巨大的差异,而且对“语料”的采集也不一样。

    “系统在识别唇语之前,要先对‘语料’进行学习,根据学习到的内容来识别讲话的人说的具体内容。”刘秋雯说,在唇语识别过程中,口型与发音,发音与文字之间,并不是唯一对应的关系,常常有多个可能的备选结果,需要实时计算出可能性最大的结果。

    在人工智能即将大范围落地的前夜,国内从业者扎堆涌入的,大多为语音识别,图像识别,人脸识别,机器翻译,无人驾驶,虚拟助手和个性化内容推荐等领域,相较这些聚光灯之下的落地场景,技术难度较高的唇语识别一直相对冷僻。事实上,让机器习得“读唇术”,在公共安全,军事情报,身份识别和社会公益等领域,都藏匿着颇为重要的应用场景。

    比如,公安系统中视频信息量颇为庞大,且在安全态势和案情分析中发挥巨大作用,但它们很多都以“默片”方式存在,只看得清嘴型,却不知说些什么。针对于此,海云数据通过在人的嘴巴上部署诸多识别位点,通过位点判断嘴型,判断视频中人所讲出来的关键性内容,这无疑能巨大释放视频图像里面的信息——换句话说,在人工智能的加持之下,海云的可视分析系统能够从声音,图象,视频,空间和地理信息等多重纬度,进行综合态势的判断,可以大幅度丰富其现有的公共安全大数据一站式解决方案。

    刘秋雯介绍,海云数据唇语识别技术训练新闻类节目时长已经累计1万小时。唇语识别的准确率目前已大大超过人工识别,正朝着90%以上狂奔而去,相信真正投入实战指日可待。

[责任编辑: 邓娴 谢素香]

相关阅读

010070180010000000000000011100001121053237