中文分词词性和序列标注之MEMM-2-最大熵模型
二、最大熵模型
1. 条件最大熵的意义
条件熵函数是条件概率分布函数的度量,其概率分布越均匀,熵值越大。
$$ H(Y|X) = - \sum_{x, y} p(x, y) log \, p(y|x) $$
给定$ x $的情况下$ Y $的熵对于$ x $的期望越大,表示$ X $并未给$ Y $带来多少信息增益,也就是说$ X $对$ Y $决策帮助信息越少。这看似矛盾,因为我们需要的是根据$ X $对$ Y $分类。如果$ X $对$ Y $无帮助,那么分类毫无意义(此时$Y$均匀分布)。但在实际操作中$ X,Y $被特征函数强制约束(出现$ x $同时出现$ y $)。因此,最大熵其实只能把特征函数未约束的信息对$ Y $的影响均匀分布。
承认在已知信息(特征函数约束)以外可能有未知信息会对判断$y$造成影响。但无法确定未知信息会对识别每个$ y $的具体值造成何种影响,为了风险最小化,不对未知信息对$ Y $的决策影响做任何主观倾向假设,而是认为未知信息对所有$ y $的影响程度都是趋于相同的,于是风险被平摊。
例如,事件集合$ Y = \{y_1,y_2,y_3,y_4 \}; \sum^4_{i=1} p(y_i) = 1$, 已知$ P(Y=y_1) = 0.4 $, 那么在没有其他更多信息帮助下, 最大熵理论认为 $ P(Y=y_2) = P(Y=y_3) = P(Y=y_4) = ( 1.0 - P(Y=y_1) ) / 3 = 0.2 $。