第10章-基于树的方法(1)-生成树
|
接下来我们定义 I(t) = i(t) p(t),即,节点t 的加权不纯度值。 p(t)与上述中左右子节点的权值定义一致。当然如果节点t 是总体的第一个划分得到的子节点,那么权值是总体的样本中被被划分到节点t 的样本的占比。 那么对于一个树T,不纯度的总测量定义为 , I(T): 这是所有叶节点的加权求和,注意不是所有节点,是叶节点集合T’。 且对于任何节点有: 进而,我们定义一个父节点与两个子节点之间的不纯度之差:(我们得到了一个递归公式) 最后,我们揭开了不纯度度量的神秘面纱… 下面介绍可能会经常使用的不纯度度量公式:
另一种方法:The Twoing Rule另一种分类树的分裂方法是“the Twoing Rule”. 与上述的不纯度度量公式不同。 直觉上看,在两个子节点的类别的分布应该尽可能的不同,并且落到子节点中的数据占比应该比较均衡。 The twoing rule: 对于节点 t,选择一个分裂是使下面值最大的情况: 当我们把一个节点分裂成两个子节点时,我们希望每个分类的后验概率尽可能的不同。如果差异达到最大,则每个分类都是趋于更纯的。 总的来说,我们既可以用划分优度也可以用twoing rule方法,在一个节点处,我们可以使用所有的方法,然后选择最好的。 10.3 每个节点下分类的后验概率估计不纯度的测度是关于k个分类先验概率的函数,这一节,我们要回答如何估计先验概率。 (编辑:PHP编程网 - 湛江站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |

