210422是哪里的身份证:实现ID3决策树学习算法

来源:百度文库 编辑:查人人中国名人网 时间:2024/04/29 09:12:47
如果有哪位老兄愿意帮忙,我愿意给出500,或者全部分数。
当然要快,在今晚12点前
只要答案正确,我会增加分数。

http://www.rulequest.com/download.html
http://www.rulequest.com/See5-demo.zip
这里有些。
Diversity(整体)-diversity(左节点)-diversity(右节点),值越大,分割就越好。

三种diversity的指标:

1. min(P(c1),P(c2))

2. 2P(c1)P(c2)

3. [P(c1)logP(c1)]+[P(c2)logP(c2)]

这几个参数有相同的性质:当其中的类是均匀分布的时候,值最大;当有一个类的个数为0的时候,值为0。

选择分割的时候,对每个字段都考虑;对每个字段中的值先排序,然后再一一计算。最后选出最佳的分割。

树的生成:

错误率的衡量:最初生成的树中也是有错误率的!因为有些叶子节点并不是“Pure”的。

树的修剪:是不是当所以的叶子都很纯是,这棵树就能工作的很好呢?

修剪的要点是:应该回溯多少、如何从众多的子树总寻找最佳的。

1) 鉴别生成候选子树 :使用一个调整的错误率。AE(T)=E(T)+aleaf_count(T)。一步步的生成一些候选子树。

2) 对子树的评估:通过test set找到最佳子树

3) 对最佳子树进行评估:使用evaluation set。

4) 考虑代价(cost)的问题

ID3决策树

唉!!!