决策树

基础课讲义467页。

决策树每个节点的选择，都应该是使用使信息增益最大的input对吗？信息增益最大，对应的应该是使用这个input分类后的信息熵或基尼系数最小吧？为什么老师说是最大呢？

另外，再计算各input的信息增益时，被减数那一项应该都是相同的吧？是不是直接看信息熵或基尼系数就好了，选择最小的信息熵或基尼系数？

添加评论

pzqa27 · 2024年06月17日

嗨，努力学习的PZer你好：

我听了下视频，何老师说的是”选择的threshold 应该是最大化information gain的，也就是是基尼系数最小“这里好像没什么问题。

另外，再计算各input的信息增益时，被减数那一项应该都是相同的吧？是不是直接看信息熵或基尼系数就好了，选择最小的信息熵或基尼系数？

推荐算一下base Gini或者base 熵，因为如果不算base的话，没法确定是熵增还是熵减。

----------------------------------------------
努力的时光都是限量版，加油！

我要回答关注问题