机器学习中的分类和预测算法的评估

  • 准确率
  • 速度
  • 健壮性
  • 可规模行
  • 可解释性

什么是决策树/判定数(decision tree)

决策时是一个类似流程图的树结构,其中,每个内部节点表示一个属性上的测试,每个分支代表一个属性的输出,而每个树叶节点代表类或类分布。输的最顶层是根节点。

熵(entropy)概念

1948年,香农提出了“信息熵(entropy)”的概念

一条信息的信息量大小和它的不确定行是有直接的关系,要搞清楚一件非常不确定的事情,或者使我们一无所知的事情,需要大量的信息,信息的度量就等于不确定性的多少。

$${ H(X) = -\sum P(x)\log }$$

变量的不确定性越大,熵也就越大。

决策树算法

ID3

1970-1980, J.Ross. Quinlan ID3算法

未完待续