信息论的一些基本概念
信息熵
其中 为的概率质量函数,为期望函数,而是的信息量(又称自信息).
条件熵(Conditional Entropy)
特征 固定为时:
特征 整体分布已知时:
信息增益(Information Gain)
基尼系数(基尼不纯度Gini impurity)
信息增益比率(Information Gain Ratio)与分裂信息(Split information)
边界熵(boundary entropy)
是邻接于 的字符.
边界多样性(Accessor veriety,AV)
表示邻接于字符串的不同字符个数.