加入收藏 | 设为首页 | 会员中心 | 我要投稿 南通站长网 (https://www.0513zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 传媒 > 正文

搜狗耗资4000万研发的汪仔机器人究竟是怎样的人工智能?

发布时间:2017-02-19 23:33:48 所属栏目:传媒 来源:中国网
导读:副标题#e# 在江苏卫视《一站到底》2017 年第一期节目中,搜狗机器人汪仔亮相并以 8:6 的成绩,击败人类选手取得最后胜利。这次人机大战之后,搜狗搜索技术负责人许静芳向《机器之心》详细描述了汪仔参与比赛的技术秘密。 机器之心:比赛中,汪仔需要识别问

5. 抢答: 上面说过整个系统为了能够更快的抢答在多个模块都做了非常极致的优化,这里强调根据部分题目去推测完整题目并回答的能力。实际上这是人相对机器最有优势的方面,也是研发中花了最多时间的问题。我们对全网信息做了大量数据挖掘工作,形成很多有针对性的知识库供答题使用。

机器之心:汪仔在语音识别、语义识别方面的速度性能达到什么水平?准确率如何?进一步提升的技术难点是什么?

许静芳:汪仔语音识别的实时率目前在 0.3 倍实时左右,识别延迟最低可以控制在 100ms 以内,准确率方面,针对主持人语音的识别准确率在 97% 以上。汪仔语音识别部分希望进一步提升的难点在:

吞音问题:主持人读题的过程中,发音较快,很多字或者词一带而过,该现象会导致识别丢字的问题,这部分也是自然语音识别系统的重大问题,我们正在从数据、模型等多个维度进行优化;

新词/专有名词识别:一站到底题目每期都有变化,新词热词以及专有名词层出不穷,识别精度要保持在高水准的话,就需要我们不断推动模型对这几类词汇的学习;

现场观众及音乐的干扰:尽管主持人是头戴式麦克风,但是仍会有现场观众呐喊声以及现场背景音乐声混入到主持人语音中影响到识别性能,这部分我们正通过语音增强的方式进行优化。

机器之心:汪仔使用的计算资源情况是怎样的?节目比拼过程中所用到的分析处理是在现场本地化完成的吗?

许静芳:其实在这个项目中我们对于成本控制是挺严格的,对于语音识别、图像识别我们采用本地完成。答题部分,我们有多套系统,对于基于线下挖掘的知识库我们采用本地检索;而对于基于搜索的问答我们并没有针对一站到底专门搭建系统,因为这样要求较大的计算资源,这部分我们直接利用搜狗搜索的线上系统完成,实际占用的计算资源也较少。当然也可以把基于搜索的问答放到本地完成,它就需要在本地部署一套较大的系统,当然 watson 就是这么做的,但是确实需要较高的成本,我们选择了成本上更为经济的方法。

机器之心:汪仔的背后是搜狗立知问答系统,能否介绍一下这套系统及其大致研发过程?

许静芳:立知是一套智能问答服务系统,从它的名字可以看出,这个服务希望能够让用户在有任何问题时,通过它就可以「立即知道」答案。

搜狗耗资4000万研发的汪仔机器人究竟是怎样的人工智能?

图说:立知问答系统的关键构成模块

从功能上看,整个立知问答系统包含三个核心子系统:事实类问答子系统、分析类问答子系统和观点类问答子系统。当立知接收到用户请求问题时,通过意图分析模块理解问题意图类型后,自动将问题转发到相应的处理子系统。其中事实类问答子系统可以针对客观事实类问题作出响应,比如类似「五环之歌是谁唱的」这样的问题,这类问题的答案一般是明确唯一的客观知识,并可以通过简短的实体或概念将用户需要的信息完整表达出来,搜狗汪仔的智能答题能力背后依赖的就是这个子模块;分析类问答子系统可以处理更加复杂的问题,比如用户想知道某件事情的做法步骤,或者某种现象的原因,答案表述通常需要数十到数百字的一段文本;观点类问答子系统可以响应用户对事物看法的问题,它是群体智慧的集中体现。这三个子系统深度挖掘利用了海量互联网资源,构建有效的知识库系统,并充分结合了推理计算能力,它们集成起来能够响应大多数用户的真实问题需求。可以看出,立知可以回答开放领域各种类型的问题,它不仅支撑了汪仔机器人的答题能力,而且比汪仔的知识面更广,功能更强。

从技术应用角度看,立知系统的各个模块综合运用了自然语言处理、信息检索、机器学习和深度学习以及大数据高并发处理等人工智能领域的多项前沿技术,是一个技术密集型的复杂智能系统。

这套系统的研发难度相当大,从项目组成立到第一版上线,研发过程持续了将近一年的时间。整个系统研发依赖搜狗搜索提供的海量网页数据和基础计算平台。我们整合了多个业务线的优秀算法研究和开发人员,针对不同类型的问题,研发相应的人工智能算法和高效系统架构,让系统逐步拥有快速回答各类问题的能力。这个研发过程目前还在持续优化中,我们希望进一步尽可能多的满足用户的各种真实问答需求。

机器之心:自去年 10 月上线后,立知相关的使用数据表现如何?接下来,还会有哪些场景化应用方向?

许静芳:目前,立知每天为数百万用户提供精准答案服务,回答准确率在 98% 以上,大幅提升了用户使用搜狗搜索的体验,达到了我们的预期。立知系统的后端是一个针对问题提供答案的云端服务,当前的主要应用是在搜狗搜索结果的首条为用户查询提供答案,未来我们的目标是将这一服务嵌入所有存在问答需求的场景。

近期,我们有两个与搜狗已有产品密切联系的应用方向。首先我们会将立知技术融入普通网页搜索服务,尽可能将多条自然搜索结果都以答案的方式呈现给用户,将搜索和问答更加紧密的联系起来,更充分地提升用户获取信息的效率。立知的另一个重要应用场景是搜狗输入法。大家知道输入法是搜狗强大的客户端应用,它可以通过接收语音或者文字输入的方式,每天为数亿用户表达信息提供了快捷服务。但是相比快捷的需求表达过程,用户获取信息的过程目前还不太方便和智能。我们希望通过立知系统,能够更好满足针对问答的一大类信息需求:用户在完成信息需求输入时,答案就会在输入法应用内立刻以语音或者文字的方式呈现出来,这样可以大幅改善信息获取效率和用户体验。整个需求表达和信息获取效率的提升,将会很好地体现搜狗在人工智能领域的核心使命—「自然交互和知识计算」。

机器之心:能否介绍一下,搜狗目前在语音技术研究方面的整体近况?今年还有哪些新的计划?

许静芳:从技术维度来看,作为深度学习应用非常成功的领域,语音识别技术已经全面深度学习化,17 年,我们会继续深耕前沿深度学习技术,尝试更深的模型结构、端到端的终极解决方案以及离线语音识别能力的升级;同时针对语音识别难度较大的场景进行深入的探索,比如远场高噪、口音、中英混输等重点场景,制定出软硬件结合的解决方案。

(编辑:南通站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读