第四范式戴文渊:AI产业落地需要五大先决条件
|
今天已经不再是亚马逊,谷歌或者BAT的时代,如果退回五六年前做AI,就只能去BAT,在美国可能是谷歌脸书这样的故事,今天其实有更多的企业拥有数据。这是我们给银行做的案例,是深圳的一家股份制商业银行,我们帮助他做什么呢?他们也有很多的营销数据,他们要去精准识别他们的客户当中有哪些是分期客户,历史上有大量的客户办分期或者不办分期,我们基于他的数据帮助他们更好的识别。这里面有一个比较重要的对比,过去他们不是不做营销,他们也是做营销的,但是他们的模型维度只有两百多个,而我们通过数据,通过机器学习,帮助他把维度提升到了五千万,从两百到五千万的精细营销,甚至我们可以帮他发现一些业务规律。当有一笔交易出现在某一个POS机,这个POS机一个月只有两百人使用的时候,是一个商机,我们能找到这么精细的场景,这种场景过去是不太可能通过人来解决的,这是机器能够用更高效、更低成本的方式来做到。 前面讲到几个案例,最大的差别就是过去我们在做的事情是低维的事情,而现在做的是高维的事情,这可能跟我在学生时代学习的一些基本原理是相违背的,过去我们学数据挖掘的时候,有一个叫奥卡姆剃刀原理,它讲的是尽可能简单,而不是做深维的事情,而我们现在不是做化繁为简,而是把问题做复杂。比如说奥卡姆剃刀原理区分红点和蓝点的时候,到底是选择绿色的线区分还是黑色线区分的时候,过去的教科书是说黑色比绿色好,现在我们认为是绿色比黑色好。为什么呢?过去的奥卡姆原理在做神经网络的时候,其实神经网络在50年代就又开始做,为什么我们要把神经网络去控制在三层以内,是那个年代的数据量不够,那个年代的数据不多,所以数据不足以支撑我们把数据做大。在数据量不大的时候,我们要化繁为简。而真正统计学习的基石并不是奥巴姆剃刀,不是说要控制三层,真正统计学习的原理叫VALIANT引理,他这个公式比较复杂,我们就理解成,其实要做到的是模型的复杂度和规则数或者变量数,这样一个数据量相匹配。 从这个原理我们会知道,为什么过去做的模型简单,为什么神经网络要深度学习,重点的原因就是现在数据量变大了,数据量变大了,模型的复杂度要和数据量成匹配,要相关。所以从VALIANT引理来看,可能全世界最有名的专家原理是牛顿三大定律,为什么他提的是三大定律而不是三百三千定律?就是人的记忆是有局限的,人脑里面是装不了大数据的,所以人能产出的就是简单的模型。为什么说过去的算法也很简单,过去做决策,要减到五千以内,其实很重要的原因是过去的数据链有限。我之前做的最大一个数据级是21578,因为数据量的限制所以当时做不了特别大的模型。但是今天整个时代变了,我们从互联网上可以获得大量的数据,传统企业其实也有大量的数据,比如说华大基因要测百万人的基因,中石油每天探测回来的地震波有500T,招行每月会有几亿的交易,这些都是非常大的数据。这时候如果还是套用valiant引理的话,数据量大了,模型会复杂。牛顿三大定律交给计算机做会怎么做?可能不是三大定律,可能是做速度区间划分,如果说总结出三千万个定律的时候可能就不需要相对论了,这就是大数据时代,我们怎么让机器做到一些不一样的事情。 从工业界来说,如果我们企业内部做人工智能指导企业经营,最重要的就是我们要去做高VC维模型,我们要不断的去提高模型的维度,使得training loss和test loss不断的降低。 前面讲的概念会比较偏理论一些,如果我们换一个角度,打个比方,VC维度是什么东西?大脑的维度大概就是大脑脑细胞的个数,所以为什么人比狗聪明,狗比蟑螂聪明,因为人的脑细胞比狗多,所以可以把VC维度理解为脑细胞维度,这就可以理解,为什么要把机器的维度做高,因为机器的维度也需要更多的脑细胞,才能更聪明,才能学习更多的知识。这边是一张图,这个是IMGENET的比赛,这个比赛大家关心最多的是黑线曲线,这是每年冠军的错误率,会发现随着每年冠军的错误率误差都在降低,但是很少有人关心黄色的曲线,黄色这条是每年冠军模型的VC维,会发现为什么会降低?是因为模型的维度在提升。随着模型维度的提升,我们的误差开始降低。 (编辑:PHP编程网 - 湛江站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |

