杨强：深度学习是富人的游戏我要颠覆它

发布时间：2016-08-13 22:18:37 所属栏目：业界来源：网易科技

导读：网易科技讯 8月12日消息，由中国计算机学会（CCF）主办、雷锋网承办的全球人工智能与机器人峰会（GAIR）在深圳召开，在峰会现场，香港科技大学教授杨强发表了名为《人工智能

undefined

网易科技讯 8月12日消息，由中国计算机学会（CCF）主办、雷锋网承办的全球人工智能与机器人峰会（GAIR）在深圳召开，在峰会现场，香港科技大学教授杨强发表了名为《人工智能成功的几个必要条件》的主题演讲。

杨强表示：人工智能已经在深度学习方面取得一些成就，这些成绩依赖于大数据的收集、处理和应用，深度学习是立即将学习效果进行反馈，而机器的强化学习可以将反馈延迟一段时间，这种延迟反馈的处理上，不光需要大数据，同时还需要高质量的小数据。

他认为，就深度学习而言，目前人为地给机器设置学习界限的做法有诸多限制，影响机器学习的效果，如果把深度学习和强化学习相结合，机器学习的状态就不需要人为设定，这样的学习效率会更高，效果会更好。

对于迁移学习，他认为迁移学习具有通用性和个性化的特点，就是在一个数据领域已经有了成熟的数据模型，在新的未知领域也能建立一个模型，将已经学习好的模型迁移到这个新建立的未知模型中，实现机器更高效更省时的学习。迁移学习分为样本迁移、特征迁移、模型迁移等方式。

目前人工智能在应用方面要想取得成功，需要有清晰的商业模式目标、高质量续反馈的大数据、清晰的问题定义和领域边界、擅长应用和算法的人工智能跨界人才以及强大的计算能力。

以下是杨强教授的演讲实录：

大家好！今天早上听了非常精彩的报告，在这里我要跟大家分享有一些我个人的想法，尤其是我们今天，我们大家都知道，人工智能有了很多的成就，我们能不能总结出一点点经验，能供给给我们后面的人来使用。

首先我们看到人工智能尤其在商业上有很多的成就，我们看到在图象识别，在语音识别，包括在大规模的产品推荐，我们今天每个人都是这些服务的享用者，我们都受益于它。但是我们有没有想过，这些人工智能的成就到底来自哪些条件的满足，为什么这些成就十年以前二十年以前却没有呢？所以我们下面要来问问这些问题。

在问这些问题之前，我们首先要来区分人工智能的两个研究的分支，一个是人工智能的科学，人工智能的科学我们要追溯到它的鼻祖图灵问的这个最关键最中心的问题：就是机器可以思维吗？六十多年的努力，大家都是计算机学家，各行各业都在朝着这个方面努力，我们造更快的计算机，我们会聚更多的数据，我们研究更高级的算法，都是在试图回答这样的问题。

今天人工智能的这些成就也就了机会让我们把它应用在我们的生活当中，所以这又带来一个崭新的问题，就是我们如何能够去预测一个人工智能的技术，是不是能够产生它应该有的作用。我们都说，如果它的应用面很广也是它成功的一个标志。所以今天我想来看看人工智能在应用方面到底有哪些条件来驱使它让它产生应该有的应用面。

在这里我要说一下，人工智能已经有的很大的成就，比如机器学习，深度学习方面，但是在现在我们看到的一些端倪，已经给了我们很兴奋的理由，就是强化学习，强化学习不仅仅能够学习人的行为，而且能够特别好的使用这种延迟反馈，这种反馈可以延迟在一个时间段上。明天我们能不能发明一种新的学习方法，能让它在小数据上也能适用？这就是我下面要讲的迁移学习。所以我们也在这个角度来看，我们可以使用哪一种人工智能技术让它产生应该有的作用。

提到强化学习，刚刚Michael Wooldridge教授说到Deepmind，我也是Deepmind的粉丝，这是Deepmind的一个流程，我们观察到流程以后，紧接着我们可以理解这是一个计算机内部的表达形式，一个适量，这个适量加上我们得到的反馈，就可以帮助我们改进我们的策略，这个策略是什么呢？就是我们所说的平常我们做行为的规划，我们工作的规划，游戏里面的动作就对应着一个策略，这个策略又返回来，产生一个新的界面，我们观察到这个界面又可以回去学习。大家看一下，这里面很强的一点是这个反馈是不断给的，而且我们到终点的时候，我们才知道我们到底是赢家还是输家。我们在现实生活中是不是有很多这样的例子，是没有用深度学习来选择的。比如我们上一门课，只有考试的时候才知道我们的成就，我们投资一支股票，过了很长时间才知道效果怎么样，所以这是延迟的反馈。

但是这种学习有一个弱点，就是如果我们人为的来定义这个策略里面的空间，叫做状态空间的话，这个限制是非常大的，因为我们人永远定不准，我们永远不能事先地预计这个世界会发生什么，这里面有来了谷歌Deegming的第二个目标，就是端到端的深度学习，该有的状态让在学习器内部表达好了，整个我们形成了从输入端到输出端的端到端的深度学习，我们经过几百轮的学习之后，自我学会了怎么更好地玩一个游戏，这是当时的学习效果，每个图对应不同的游戏。横轴是随着时间、随着游戏的轮数越来越多，它的效果我们看到的是越来越好，这和我们人的学习过程是一样的。我们说这个人的学习效率就大大地提高，学习效果大大提高。

我们总结一下，这些成功来自于什么呢？我们可以首先看到它有非常清晰的目标，什么叫赢什么叫输，延到商业上也要有很强的目标。其次需要高质量的大数据，这里我特别要强调的是高质量，这个数据要持续地反馈，不能收一次就完了，不断地到达才能使得我们学习不断地提高。同时一定要有反馈，反馈的方式和内容和算法一定要匹配。所以我们常常听到有一些人说，我这个领域有了几千万样本的数据，一定可以做人工智能，我要告诉他不一样，因为首先你那个样本不一定是针对这个算法收集的，其次你的算法不一定持续得到，最后你的反馈不一定很好。

第三是问题不能非常宽泛和模糊，定义一定要非常清楚，清楚到像下棋一样，我们知道什么时候边界就达到了。另外一个是我们需要既懂人工智能又懂商业领域的人才，我们说这样的人才到哪儿去找，从今天还是大家就关注身边善于学习的人，着重培养他，这样的人才能把两个完全不同的垂直领域联结在一起的人才是必不可少的。最后我要提的是计算能力，今天大家都有很强的计算能力，我们有云计算、并行计算、GPU，所以这个能力也是必不可少的。

再下面我要讲的是另外一个例子，今天我就用例子再来继续阐述我刚刚讲的五个条件，这里我要讲，我们现在知道对话系统是人工智能的热点，甚至有的公司出来说对话系统，就是这种人机交互的对话系统，可能是下一个入口，下一个搜索引擎，我们先不管这些商业的说法，我们来看一看现在我们市场上有的这些对话系统，我们可以大致把它们分两类，首先我们看到有很多是闲聊类的，我们大概很清楚的小冰，很幽默，但是也止于闲聊，还有一类是功能类，当我们打电话给酒店、航空公司，在寻求特殊具体垂直服务的时候，往往会受益于这样一种功能型的对话。我们知道在不久以前，甚至很多的公司也有这种对话，但是它们的方式都是说你要这个服务按1，要那个服务按2，我们感觉体验非常不好。

从技术上来说，这种对话系统也分成两种，第一种最早出现的是基于规则，很多人专家来写这些规则，这些就像在符号领域，它的好处是很准确的，但是不好的地方就是很难扩展，和数据无关，对数据不够敏感。另外有很多不同的意外事件都不能应付，所以现在大家比较关注的是机器学习的算法。

我们在香港科技大学的实验室里面也在进行研究，我们研究的一个主要目的是说如果我们再把人工智能往前推进一步，在深度学习之后，到底还有哪些技术是下一个热点，我们关心的是明天的技术，这里我要说的是我们有一个三明治式的一个三层结构：第一层就是我们熟知的深度学习，这是一个递归的深度学习；在这个之上，我们有一个策略的学习器，叫做强化学习的学习器，在这里我要特别强调的是强化学习里面最难的一部分是当人工智能的机器人它不能全部观察周围的世界，只能部分观察，所以这个有一个很怪的名字，叫做基于部分观察的马尔可夫的决策过程，简化来说它是强化学习里非常难的阶段。第三个就是迁移学习，它能让我们把一个做好的模型迁移到一个新的领域来，所以我们希望这样一个系统它能具有以下这儿功能，比方说闲聊、推荐、引导、提醒、学习，这个我们看到如果它具有这些功能的话，它就像一个真人一样。

怎么达到这样呢？我们首先要有基本的对话功能，就是深度学习的对话功能，其次我们要有一个策略，这个策略要能引导对话的对象去完成一个任务。最后我们要能实现个性化，我们最好能够贴近用户，让用户跟它对话以后，这个体验觉得非常好，非常简洁明了。怎么才能达到这一点，这就是我们的一些例子，比方说我们现在和一个O2O的公司合作，用真实的数据来训练这个系统，这个绿色的就是用户提的问题，白色的是系统，我们这个中文名字叫做“魔镜系统”，就是白雪公主里面的魔镜，当然这是一个好的魔镜。

下面我给大家做一个演示，请把声音打开。

刚才的这个系统，它的演示，我们是把整个的对话系统给放到一个机器人的里面，让机器人通过语音跟我们回答，实际上这个真正的系统是在手机上可以和人交流的。

这里我要跟我们大家熟悉的一些系统来做比较，比方说小冰的话，左边是用户提的问题，绿色的，黄色这里是小冰的回答，这是真实的一个截图。我们看小冰虽然很调侃，我们也试着用siri来做回答，siri是基于搜索，它很多的就是抱歉没有找到匹配。

我们这样一个系统之所以研究它，是我们对背后的系统感兴趣，所以有这样的应用领域，我们刚刚讲的几个条件，首先我们有很明确的目标，有很好的反馈，有不断到来的数据，然后我们也有跨界的人才，我们和O2O公司的联络。另外这个问题最后我们是有非常明确的，不一定有明确的边界条件，使得我们最后把这个问题的表达就好像是在下围棋一样，因此我们这里面也可以考虑说我们现在谈话谈到这儿，到底离我们的目标有多远，这就好像在下棋里面我们有一个状态网络，我们对现在的状态有一个估算，同时我们可以往下问的不同的话，可以当做我们下面要下的棋子，所以这和阿尔法狗的思维有很相象的地方。

有一个非常有趣的现象，就是这样一个三层的模型，我刚才讲的深度学习和强化学习还有迁移学习，这样一个模型是非常通用的，对话领域是我们的适用场所，这样的模型把它放到完全不一样的应用领域去它也能工作，这就是通用型的发展目标，比如我们有的学生就把它应用在大家公认很难的领域，就是股市大势的预测。这是A股里面的某个股票，我们拿过去好多年的数据，十年的数据做训练，所有数据之间的连接，首先我们产生不同的状态，让这个状态之间能够互相迁移。其次是状态和状态之间的变化，我们用一个强化学习来模拟，最后我们发现深度学习的隐含层里面它自动产生出来的几百个状态，基本就把这几年的经济状况给了一个很完善的总结，所以它可以给一个非常好的大势的走向，我们也做了一些测试。

（编辑：PHP编程网 - 湛江站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/2

尾页

小米笔记本Pro 2022 1	近视手术只是让人可以
售价1030元 Arc A380显	联想拯救者 H5 无线游

杨强：深度学习是富人的游戏 我要颠覆它

杨强：深度学习是富人的游戏我要颠覆它