拟脑吴义坚 : 机器人这个行业还很初级,AlphaGo还只是弱人工智能
|
大家知道为什么围棋难下呢?中国象棋是比较容易用人工智能模拟的,因为它的目标比较清晰吃掉帅就算赢了,而且象棋落子的可能性也少很多。但是在围棋上面是不行的,围棋的变化可能比地球上所有沙子的数目加起来还多。其实业界拿围棋做一个实验场地优化人工智能算法已经有五到十年了,原理比较简单,就是局部分析和全局分析。局部分析就是下棋的时候可以算一个局部最优,因为局部的空间比较小。另一方面下围棋时全局观非常重要,所以谷歌用DNN做了另外一个事情,可以评估出当前做法在全局上的获胜概率是多少。通过这两种方式,就兼顾了局部最优和全局最优。 围棋每一个点可能对应的是两百种可能,两百种以内选一种下法的意思是在输入端相当于下法,输出点是每一种下法对应来做一个最优的选择。在这个系统里面,每一个可能的落子点都算过得分。 AlphaGo的人工智能和别家有什么样的区别? 我们的语音数据一般要几千个小时,甚至要上万个小时才能训练出一个性能还不错的神经网络。围棋方面我觉得高手的棋局没有那么多,AlphaGo应该更多的是通过后面自学习的方式提高的。当然前提是先通过已有棋局训练出一个不错的系统。 AlphaGo的训练具体是指什么? 训练的是所有神经网络的参数。 首先调参数并不是人在调,人调整的只是策略,比如定义多少层网络,用什么样的训练策略。但是具体神经网络里面的参数,现在没有人能解释几百万上千万个参数具体有什么意义,它有点像一个黑盒子。在传统的统计模型里面,概率分布是很好解释的,比如说老人跟小孩子的声音为什么不一样,因为它频谱这边有一个共振峰,在那个位置有一个高低分布,都有一个物理解释。 DNN里面的参数是没办法解释的,但是它确实很强大,这就像我们无法解释人脑一样的。 宏博说他一开始低估了AlphaGo,觉得它肯定下不过李世石,因为研发团队里并没有顶级围棋高手给它做策略指导,虽然可以借鉴大量的历史棋局,但是单纯地模仿高手下法或许可以达到职业初段选手的水平,真正面对顶尖职业高手时必然会出现应变不足的情况,因为围棋的变化实在是天量的,运算能力再强也无法穷尽,对目前依靠机器深度自我学习是否能达到顶尖职业棋手水平还抱怀疑态度。 实际从第一局棋看来,AlphaGo有一些下法我们国内的一些顶尖的高手都没有想到,赛后谷歌的工程师也说到AlphaGo现在已经不再依赖棋谱,它已经把围棋游戏规则和基本套路完全吃透,实现了以获胜为目标严格按照策略和价值模型自我学习自我优化,即人工智能的增强学习概念,这个是AlphaGo真正可怕的地方,后面随着模型不断优化进步人类选手将越来越难以战胜它了。 谷歌强就强在使机器可以做基础的学习。 AlphaGo可以自我对弈,然后找到更好的策略,而且它的进化速度远比我们人快。但是这里我要稍微说明一下,深度学习更多的是一种抽象的概念,就是不要学表面的,而是学深层的。深度神经网络也是深度学习的一种体现,也是目前大家都在用的。其实反过来说,虽然AlphaGo在围棋上面很可怕,但其实它离真正人类的学习还是差很远的,或者说它还是在做模式识别或者模式训练,虽然它有一些自我学习的概念,但只是一个很小的单一目标任务上的训练,或者说参数的优化。这个还不是真正意义上说的概念认知,甚至说AlphaGo都不知道下棋这个概念,对它而言下棋只是一个任务、一个目标。我觉得AlphaGo离我们真正的人工智能或者智能学习还是很遥远的,它只是一个非常初级的阶段。 回到语音这一块,大家可以看到整个语音的发展历史是很慢的,前后差不多有30年都是徘徊在识别率突破不了90%的水平,而人类在各种环境的识别率达到98%或99%以上。目前的语音识别差不多在安静环境下面识别率可以接近95%,其实更多的是在各种环境下面。在复杂的环境下面,现在的语音识别准确率还不高,不管是噪声环境,或者有口音,甚至语速过快的情况,在更复杂的环境更不要说了。 另外说一下语音合成,它是把输入文字变成声音,科大讯飞最早就是做语音合成出来的。语音合成大家感觉在某种场合下可以用,比如播天气预报或者播语音导航,这些都是合成技术,听着没有什么问题。再往后,比如朗读小说等绝大部分也还可以接受。但是到对话聊天,比如陪伴机器人,声音传递的信息除了文字以外还有情感、情绪、个性,目前来看语音合成还很难满足需要。 语义分析就更难了,只是从技术层面上讲,分析一些特定领域的东西是可以的,比如打电话给某某,不管原来传统的基于规则的,还是基于统计的,基本上都可以做得很好。但是开放式的语义理解就会非常困难,尤其是一些新的概念。目前大家看到的语义分析也好,包括AlphaGo的理解,机器还是属于非常初级的阶段,都是人预先设定告诉它这是什么东西,而不是它自身能自我从这里面能学习到的,所以更多的是训练而不是叫学习。 目前的语义理解技术分为两大块,一个是在通用领域,它基于一个海量知识库去匹配的回答出来。比如说查今天的天气,这种任务他是理解的,但是如果真的聊天调侃,表面上好像理解了,但是其实从技术层面上它并不存在理解,这只是一个知识库的匹配,或者统计的分类。在特定领域这种语音技术虽然说还不够好,但是其实只要做到足够多的深度定制,基本上是可以达到实用的。比如IBM的Watson,它对一般的医疗问题甚至可以给出比普通医生还要好的建议。 再简单介绍一下计算机视觉。 它从人工智能或者机器学习的角度上和语音识别原理是一样的,因为语音信号是一个一维的模型,图像是一个二维的,而视频相当于一个二维图像的时间序列。刚才已经给大家看过了语音的识别过程,深度学习的框架是一样的,唯独不同的是特征提取,你要把特定领域的东西找到一定的信号输入进去。 现在计算机视觉在人脸识别,包括一些物体的检测都可以号称在国际上有一个专门的测试上面可以做到99%了,但是实验室的测试和实际环境是不一样的,化妆、光线、角度等因素对人类识别能力影响不大,但是对机器而言就很难了,因为它学习的这套机制跟人脑的机制理解是完全不一样的。 人工智能的产业格局跟机器人不一样,因为机器人这个行业里面还没有什么巨头,市场还没有起来。人工智能基本上都是国际、国内的巨头在做—— 谷歌、facebook、苹果、微软、Amazon,可以看到全球互联网、终端类大公司基本上都在做。 国内最强的应该是百度,也是以技术擅长的一家公司,百度拥有语音图像、深度学习实验室,在AI上面的投入水平确实在国际上是排得上的。阿里、腾讯相对弱一些。阿里做了一些语音技术和人工智能的布局,也投资了Pepper。腾讯这方面更多的是应用,他们目前的技术储备还是不够的。科大讯飞本身是做人工智能出身,包括传统的语音识别和合成,还有现在的超脑计划,讯飞也联合了很多国内外的研发机构,我认为现在国内在整个人工智能行业布局上除了百度、科大讯飞是排在前面的,这包括技术水平还有整个未来的发展前景。 人工智能产业还可以大致分为三块: 首先是通用平台,像谷歌、BAT,除了提供技术还提供产品和服务。 其次是技术平台,科大讯飞是国内最全面的,facc++也是比较热的技术平台。 第三块细分产品就比较多了,包括我前面提到的拟脑机器人,还有Jibo等。 人工智能的技术还是处在一个相对比较早期的阶段,大规模的应用或者达到或者接近用户的期望值还有很长的路要走,所以在短期之内细分产品也是有蛮大的市场的。 编者注:以下是活动现场的交流问答,为不影响阅读,雷锋网节选其中几个精彩问题与读者分享—— (按:高宏博系华泰证券计算机行业首席) 1、围棋的下法里面是否已经开始体现出个性? 吴义坚:那并不是个性,只是我们觉得它有个性。比如说新的下法,是因为人类没有那样尝试过。或者说所有的高手一开始学的时候,他认为那种下法是不可能赢的。而机器会在跟自己博弈,它后来发现这样也能赢,这不叫个性,它就是在预设目标和规律下通过增强学习发现了一些新的可行路径。因为人类也一样,围棋早期的下法也是不一样的,但是有一些人通过实践和总结演变新的布局和招法甚至围棋理论,只是机器演变的速度比人类快,这个是它强的地方。 其实个人觉得人类后天学习的一些东西,而且是能单一化的东西真的会被机器取代,机器慢慢都能做到。但是人所谓的天生就会的一些能力,就像人只要看过一次猫后面就可以自己定义并识别猫,这种天生的能力人类自己也搞不清楚原理和逻辑,就没办法告诉机器怎么做。现在机器就是人要告诉它怎么做之后,它会做得比人类更好。 高宏博:其实围棋还是一个有单一目标固定规则的任务。工网络算法分很多层,其实它也是模拟人脑的神经源之间的相互原理,我们现在只是简单的,其实他的基础也是数学,这块原来我跟讯飞的龚总提过这个问题,其实他有两种算法:一个是计算机算法模拟,这个到最后一些简单的可以处理,但是到最后高级的一些情感化模拟是不是能完全做到,像吴总这种科学家级别的也还在探索;另外一个从完全的生物学的角度去研究,现在还完全摸不到什么门道,现在一些生物公司,也是在碰,如果正好碰到一个疗效就可以开发这个药了。它还不如计算机有用,计算机至少还有一定的逻辑,而生物完全就是在碰了。但是能不能靠模拟能达到生物学的效果,这个确实还需再探索。 2、基于语音,基于视频和基于图象的这三种不同的深度识别,哪一种技术门槛会高一点? 吴义坚:通用的技术大家其实是差不多的,这里面有几个东西不一样: 一个就是特征提取,当然也是有技巧的,就是基于哪些特征更有效的描述你的目标; 而深度学习里面,不一样的地方就是语音现在可能我们做到五层八层足够了,而可能对于图象,它可能要做到十层二十层,甚至几十层,还是不一样的。这不是哪一个门槛高的问题,是大家的侧重点不一样; (编辑:PHP编程网 - 湛江站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |

