加入收藏 | 设为首页 | 会员中心 | 我要投稿 南通站长网 (https://www.0513zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 传媒 > 正文

搜狗耗资4000万研发的汪仔机器人究竟是怎样的人工智能?

发布时间:2017-02-19 23:33:48 所属栏目:传媒 来源:中国网
导读:副标题#e# 在江苏卫视《一站到底》2017 年第一期节目中,搜狗机器人汪仔亮相并以 8:6 的成绩,击败人类选手取得最后胜利。这次人机大战之后,搜狗搜索技术负责人许静芳向《机器之心》详细描述了汪仔参与比赛的技术秘密。 机器之心:比赛中,汪仔需要识别问
副标题[/!--empirenews.page--]

在江苏卫视《一站到底》2017 年第一期节目中,搜狗机器人汪仔亮相并以 8:6 的成绩,击败人类选手取得最后胜利。这次人机大战之后,搜狗搜索技术负责人许静芳向《机器之心》详细描述了汪仔参与比赛的技术秘密。

机器之心:比赛中,汪仔需要识别问题、快速判断并抢答,这个过程的技术路径是怎样实现的?

搜狗耗资4000万研发的汪仔机器人究竟是怎样的人工智能?

图说:汪仔比赛的技术系统流程

许静芳:汪仔有较为完整的大脑,具备听、看、说和思考(答题、聊天)的能力,依靠语音识别、图像识别、语音合成和自然语言理解与计算实现。为了适应一站到底的比赛规则,汪仔背后将这些技术完整串联起来,使得其具有快速准确的答题、抢答能力,系统流程图如上。在答题环节,是由主持人念题并在大屏幕上有字幕(逐字)显示。汪仔系统首先从节目环境中采集问题的语音流与大屏幕的视频流。为了缩短识别时间,采用增量识别方法(包括语音与图像),且每个包都足够小,以便能够最快速度的识别,再将截止目前所有包识别内容进行拼接后发给问题识别融合模块。由于语音识别和图像识别都有一定的错误率,所以有该融合模块来融合语音识别和图形识别的结果,预测更为准确当前的问题的文本发给问答模块。由于问答会根据完整题目输入或部分题目输入采用不同的方法与参数,所以还有一个问题完整性识别的模块,根据当前题目是否完整的判断将识别的题目问题分别发给答题和抢答模块。问答经过计算后会给出答案及置信度,根据不同置信度会决定此时答题或暂不答题。答题则通过语音合成播报出答案,此题结束,暂不答题则返回至增量识别过程继续上述流程。

问答部分可以参考下图,整个问答主要由基于知识库的问答及基于搜索的问答两种路径。首先是对问题的多种形式改写以便找到更多的相关信息,然后对每种改写形式做详尽的问题分析包括词法、句法、核心概念、实体识别、意图理解等,供后续答案的抽取和排序使用。其次是通过搜索和线下挖掘的知识库查找相关信息,及对候选信息与问题的深度语义匹配计算,最后是从全文信息中抽取答案并对答案进行计算及排序,及置信度计算。输出置信度高的答案,或暂时不答,等待更多的信息再计算。

搜狗耗资4000万研发的汪仔机器人究竟是怎样的人工智能?

图说:基于知识库、搜索的两种问答路径

语音识别:

汪仔听题时,主持人语音采取分包的方式,缓存小段语音后发送至语音识别服务转为文字,并发送至答题模块,其中,语音识别的基本原理是原始语音提取特征后,发送至语音识别解码器,在声学模型、语言模型以及发音词典的共同作用下,寻找匹配语音信号的最优词序列,随着深度学习的发展,深度神经网络被广泛应用到语音识别的模型学习中,目前汪仔语音识别的声学模型使用了 CLDNN(CNN+LSTM+DNN)+CTC 的端到端模型结构,特别是为了降低识别延迟,LSTM 使用了单向 LSTM,特征尽量少的使用下文特征,降低时延,为后续答题模块抢答流出足够时间。同时考虑到一站到底题库中专有名词、命名实体等类型词汇较多,在训练汪仔语音识别的语言模型时,除了基于搜狗搜索和输入法的海量文本数据之外,还重点结合了知乎、搜狗百科等领域相关数据,最终完成了 Ngram+RNNLM 的模型训练。

图像识别:

输入信号除了语音,还有题目的实时截屏图像。通过 OCR 识别技术,将图像中的题目识别成文本,输出给后面的答题模块。OCR 同样采用深度学习技术,设计了基于单字符识别核心的 CNN 识别引擎。通过对图像中的文字进行文字行检测,再对文字行进行字符切分,利用 CNN 识别核心对单字符进行识别后,利用动态规划寻优输出最优的识别结果。针对一站到底视频流信号字幕是逐字显示的特殊形式,引入了增量识别算法,仅仅对新增的字幕进行识别,极大的加快 OCR 速度,提升了汪仔的抢答能力。

语音合成:

答题模块生成答案文本后,会将答案文本送至语音合成模块,合成首先会对文本进行分词、字转音等预处理,随后基于 LSTM 模型对文本韵律进行预测,之后将文本特征送入端到端的多层 LSTM 神经网络中进行合成参数预测,预测生成的参数通过合成器输出最终合成语音。其中,针对汪仔的性格设定,我们会将合成过程中预测的语音韵律传输给机器人模块,用于辅助控制机器人头动,而为了强化合成的抢答语气,我们设计了动态重音预测和生成算法,可以根据上下文预测重音位置,并且将重音位置的声学参数优化为重音参数,从而生成抢答语气。

机器之心:与人的记忆力相比,机器在海量数据存储和搜索功能上有明显优势,所以汪仔赢得这次比赛核心考验是什么?为此,做了哪些针对性训练吗?

许静芳:机器在海量数据存储及搜索相关信息上确实有优势,但目前绝大部分的机器是把文字当做符号,依靠相同符号的匹配来找到「相关信息」,也就是说目前大部分机器擅长的是存储和计算,在语言的理解上其实还做得很不够。大家所熟悉的搜索其实是依靠人机辅助来完成答案的获取的,即机器通过符号匹配找到包含和查询词相关的信息,再由人通过阅读多条搜索结果,在人脑中进行一些的思考最终由人来形成答案的。而汪仔是在现有搜索之上,完成由搜索结果到答案的自动生成,这样一个之前一直由人来完成的过程。所以大家常用的搜索是一种人机合作获取信息/答案的过程,而汪仔是全部由机器完成产生答案的过程,且是在一站到底的比赛规则的设定下获得了超出人类最强选手的能力。

这里面最核心的考验有以下几点:

1. 对问题的准确理解,包括问题中的核心概念、问题的类型: 我们一方面利用搜索积累的自然语言处理的经验,包括词法、句法、实体识别、意图分析等技术,另一方面也收集了历史上的一站到底的题目做针对性的学习优化。多种基于深度学习的自然语言理解方法在这里有较大贡献。

2. 问题与信息的语义匹配计算,一站到底答题要求非常精确的答案,这对问题与候选答案信息之间的语义匹配提出了更高的要求。这里我们相应采用了多种深度学习匹配模型及 embedding 的方法。

3. 答案的抽取、排序及置信度计算:搜索返回的是相关的网页或文档,一站答题需要从网页、文档中抽取出准确的答案候选并进一步计算答案的特征、排序及置信度。相对于搜索,这是一种更细致的语言处理能力,难度更大。

(编辑:南通站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读