专访马子雅:英特尔开源BigDL,推进AI民主化
|
马子雅:Jason Dai是我们大数据技术全球 CTO,他在 BigDL 的架构构建和工程开发方面发挥了重要的领导作用。在开源后 BigDL 项目得到了全世界许多开源社区用户的积极参与:例如在 BigDL 开源不到两个月后,InfoWorld 就在其对深度学习趋势的预测中,将 BigDL 与 TensorFlow、Caffe 等一起并列为目前最流行的深度学习框架;Jason 和他在上海及硅谷的团队,基于全世界 BigDL 社区用户提供的反馈,以及和我们全球的客户/合作伙伴的密切合作,为 BigDL 项目制定了将来的路线图(包括新功能、可用性、可扩展性等方面)。我们的下一个版本将在第一季度末左右发布,主要更新包括:增加对 PythonAPI 的支持,提供更好的可视化体验(利用 Notebook 和 TensorBoard),增加对 macOS 的支持,提供更丰富的 RNN 支持(如对LSTM 、GRU等算法的支持)等等。 Intel-analytics 的其他开源库及对各类深度学习任务的支持 新智元:除了 BigDL,我们知道 Intel-analytics下面还有另外的开源库:比如 SparseML等;您是否可以比较一下,这些开源库分别有什么特点?应用于哪些场景? 马子雅:BigDL 能为那些拥有大量数据、以及已建(或将建)大数据集群的用户,提供构建基于深度学习(和人工智能)的大数据分析的最优服务。BigDL 天生就可以运行在现有标准的大数据平台(Hadoop/Spark)之上,利用公共的数据基础架构,在数据采集、特征提取、传统机器学习和深度学习工作负载等方面,为客户提供统一的和无缝集成的完整体验。它支持大规模的深度学习和机器学习,并提供自动容错和自动动态弹性资源管理。 对于具有极高模型维度和大量非常稀疏数据(例如,百亿到千亿级别的训练样本,十亿级甚至百亿级别特征)的用户,SparseML 可以显著地为他们提高机器学习的可扩展性。许多互联网公司需要从大量的极度稀疏数据中学习模型,他们面临的挑战是现有的机器学习解决方案无法处理大量数据或高维度模型;通过利用数据稀疏性,对分布式机器学习数据结构、网络通信和算术运算的优化,SparseML 可以比现有开源的机器学习算法(例如Spark Mllib)提供更高的可扩展性。 新智元:可以看出,Intel-analytics 在努力形成一个支撑各种应用场景的完整生态。那么,请允许我问一个比较具体的问题:如果我希望进行深度学习的图像分类,应该如何从英特尔的产品组合中选择呢?或者我要处理的数据里面既包括图像又包括音频,又该如何选择呢? 马子雅:我们的目标是为机器学习用户和开发人员提供从硬件到软件的最简便、最完整和最高效的体验。 为了选择最合适的解决方案栈,您需要评估一些事情:(1)您是否已有了现有的基础架构,并希望利用它来构建图像分类?(2)您最大的需求是什么:从现有的分布式文件系统/存储中直接访问数据存储,以实现快速的机器学习实验周期(turn-around time)?是与您现有的分析工作流程或平台轻松集成?还是可扩展性(处理大量训练样本或高维特征的能力),高资源利用率,低总拥有成本,训练性能等等?根据您对这些问题的回答,您可以选择不同的解决方案。 在硬件层面,我们有各种产品可供选择,例如:Xeon,Xeon phi,FPGA。将来我们还会有LakeCrest(Nervana silicon);您可以挑选最适合您的需要的产品。 在深度学习框架层面,我们正在推动 Neon 并将英特尔优化的MKL应用于深度学习框架,比如 Caffe,TensorFlow,Theano 和 Torch 等。如果您喜欢使用这些优化的框架,您可以直接使用它们或通过英特尔深度学习SDK来使用它们。 如果您已经有了大数据(Hadoop/Spark)集群或大数据分析工作流,那么您很可能更倾向在现有的大数据基础架构中来进行深度学习。我们正在推动以 Spark /Hadoop 为数据分析和人工智能的统一平台,来支持端到端的学习工作流,包括从数据管理,特征管理,特征工程,模型训练到最后的结果评估;那么,BigDL 将会极大地适合你的需求。 从开源到 AI 民主化 (编辑:PHP编程网 - 湛江站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
