信息论的一些基本概念

信息熵

$$ H(X)=E[I(X)]=E[-ln(P(X))] $$

其中$ P $ 为$ X $的概率质量函数,$ E $为期望函数,而$ I(x) $是$ X $的信息量(又称自信息).

$$ H(X)=\sum_iP(x_i)I(x_i)=-\sum_iP(x_i)\log_bP(x_i) $$

$$ \begin{matrix} b & 熵的单位\cr 2 & bit\cr e & nat\cr 10 & Hart \end{matrix} $$

条件熵(Conditional Entropy)

特征$ x $ 固定为$ x_i $时:$ H(c|x_i) $

特征$ x$ 整体分布已知时:$ H(x|X) $

信息增益(Information Gain)

$$ IG(X) = H(c)-H(c|X) $$

基尼系数(基尼不纯度Gini impurity)

$$ Gini(D)=1-\sum_i^np_i^2 $$

$$ Gini(D|A)=\sum_i^n\frac {D_i}{D} $$

信息增益比率(Information Gain Ratio)与分裂信息(Split information)

$$ GR(D|A)=\frac {IG(D|A)}{SI(D|A)} $$

$$ SI(D|A)=-\sum_i^n\frac {N_i}{N}\log_2\frac{N_i}{N} $$

边界熵(boundary entropy)

$$ BE(w_1w_2\cdots w_k) = -\sum_{w \in C}p(w\vert w_1w_2\cdots w_k)\log p(w\vert w_1w_2\cdots w_k) $$

$ w $是邻接于$ w_1w_2 \cdots w_k $ 的字符.

边界多样性(Accessor veriety,AV)

$$ AV(w_1w_2\cdots w_k)=\log RL_{av}(w_1w_2\cdots w_k) $$

$ RL_{av} $ 表示邻接于字符串$ w_1w_2 \cdots w_k $的不同字符个数.