关于机器学习实战，那些教科书里学不到的12个“民间智慧”

发布时间：2019-05-14 08:43:03 所属栏目：建站来源：towardsml 编译：刘佳玮、王缘缘、Walker 机器

导读：副标题#e# 大数据文摘出品来源：towardsml 编译：刘佳玮、王缘缘、Walker 机器学习算法被认为能够通过学习数据来弄清楚如何执行重要任务。这意味着数据量越大，这些算法就可以解决更加复杂的问题。然而，开发成功的机器学习应用程序需要一定的民间技巧，

在计算机科学中，通常情况下，两个主要的资源限制是时间和内存。但在机器学习中，还有第三个约束：训练数据。在这三个中，今天的主要瓶颈是时间，因为有大量的可用数据，但没有足够的时间来处理它们，所以数据被闲置了。这意味着在实践中，更简单的分类器会胜出，因为复杂的分类器需要很长的学习时间。

使用更聪明的算法并不会给出更好的结果，部分原因是在一天中它们都在做同样的事情，将所有学习样例基本上都是通过将相邻的样例分组到同一个类来工作的。关键的区别在于对“相邻”的定义。

当我们有非均匀分布的数据时，即使复杂的学习样例也可以产生非常不同的边界来对结果进行分类，最终它们仍然在重要区域做出相同的预测(具有大量训练样例的区域，因此也可能出现大多数文本样例)。正如下图所示，无论是花式曲线，直线还是逐步边界，我们都可以得到相同的预测：

机器学习

通常，首先尝试最简单的学习器(例如，逻辑回归前的朴素贝叶斯，支持向量机之前的邻近算法)。复杂的学习器很吸引人，但它们通常很难使用，因为它们需要控制更多的旋钮以获得好的结果，并且因为它们的内部更像是黑箱。

8. 组合多个模型，而非只用一个

在机器学习的早期阶段，努力尝试使用多种学习器的各种变形，并选择最好的那个。但是研究人员发现，如果不是选择其中最好的单一模型，而是结合各种变形会得到更好的结果，建模者只需稍加努力就可以获得显著提升的效果。现在建这种模型融合非常普遍：

在最简单的技术称为bagging算法，我们使用相同的算法，但在原始数据的不同子集上进行训练。最后，我们取均值或通过某种投票机制将它们组合起来。

Boosting算法中学习器按顺序逐一训练。随后的每一个都将其大部分注意力集中在前一个错误预测的数据点上。我们会一直训练到对结果感到满意为止。

Stacking算法中，不同独立分类器的输出成为新分类器的输入，该分类器给出最终预测。

在Netflix算法大赛中，来自世界各地的团队竞相建立最佳的视频推荐系统。随着比赛的进行，发现将学习器与其他团队相结合可以获得了最佳成绩，并且合并为越来越大的团队。获胜者和亚军都是超过100个学习器的叠加集成，两个集成的结合进一步改善了结果。算法组合将更好!

机器学习

9. 理论保证和实际具有差异

（编辑：PHP编程网 - 湛江站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

针对移动端转码问题给	选择短网址的好处是可
千万不要因为盲目追求	SEO的职业生涯从seo初