加入收藏 | 设为首页 | 会员中心 | 我要投稿 PHP编程网 - 湛江站长网 (https://www.0759zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

第10章-基于树的方法(1)-生成树

发布时间:2021-03-16 23:03:34 所属栏目:大数据 来源:网络整理
导读:副标题#e# 原文参考:https://onlinecourses.science.psu.edu/stat857/node/22 一,本章简介 1,本章主要学习目标 理解决策树的基本概念 理解构成决策树的三个基本元素 理解’不纯度’及其他度量公式的定义 知道如何估计每个树节点的各个所属分类的后验概率

接下来我们定义 I(t) = i(t) p(t),即,节点t 的加权不纯度值。 p(t)与上述中左右子节点的权值定义一致。当然如果节点t 是总体的第一个划分得到的子节点,那么权值是总体的样本中被被划分到节点t 的样本的占比。

那么对于一个树T,不纯度的总测量定义为 , I(T):
I(T)=∑t∈T′I(t)=∑t∈T′i(t)?p(t)

这是所有叶节点的加权求和,注意不是所有节点,是叶节点集合T’。

且对于任何节点有:
p(tL)+p(tR)=p(t)
pL=p(tL)/p(t);pR=p(tR)/p(t)
pL+pR=1

进而,我们定义一个父节点与两个子节点之间的不纯度之差:(我们得到了一个递归公式)
△I(s,t)=I(t)?I(tL)?(tR)
= p(t)i(t)?PtLi(tL)?PtRi(tR)
= p(t)i(t)?PLi(tL)?PRi(tR)
= p(t)△i(s,t)

最后,我们揭开了不纯度度量的神秘面纱…
要知道,不论我们如何定义不纯度公式,我们在分类树种使用它的过程是保持一致的。所以,唯一不同的就是具体的不纯度度量公式。

下面介绍可能会经常使用的不纯度度量公式:

  1. ∑kj=1?pj?log(pj)
    IF pj=0 , lim(pj) log(pj)=0.

  2. 错分率

    1?maxj(pj).

  3. Gini

    ∑kj=1pj?(1?pj)=1?∑kj=1p2j
    .

另一种方法:The Twoing Rule

另一种分类树的分裂方法是“the Twoing Rule”. 与上述的不纯度度量公式不同。

直觉上看,在两个子节点的类别的分布应该尽可能的不同,并且落到子节点中的数据占比应该比较均衡。

The twoing rule: 对于节点 t,选择一个分裂是使下面值最大的情况:
PRPL4?[∑kj=1|P(j|tL)?P(j|tR)|]2

当我们把一个节点分裂成两个子节点时,我们希望每个分类的后验概率尽可能的不同。如果差异达到最大,则每个分类都是趋于更纯的。
如果每个子节点分类的后验概率与父节点几本一致,说明子节点的划分并没有使得纯度比父节点更好,因此不是一个好的划分。

总的来说,我们既可以用划分优度也可以用twoing rule方法,在一个节点处,我们可以使用所有的方法,然后选择最好的。

10.3 每个节点下分类的后验概率估计

不纯度的测度是关于k个分类先验概率的函数,这一节,我们要回答如何估计先验概率。

(编辑:PHP编程网 - 湛江站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!