# 最大熵模型

# 规范

熵是随机变量不确定性的度量，不确定性越大，熵值越大，如果随机变量退化为定值，熵为0，均匀分布是最不确定的分布。

熵其实定义了一个函数（概率分布函数）到一个值（信息熵）的映射

概率平均分布的时候，熵最大，因此要使得熵最大就要尽可能让概率平分，也就是计算H（Y｜X）条件熵，在X给定的情况下，Y的熵最大。

$maxH(Y|X) = -\Sigma p(x,y)logp(y|x) \qquad\qquad with \: Constraint$

对于一个确定的特征(x0, y0)，定义特征函数

f(x, y) = 1 if x=x0 and y=y0 else 0

对于每个特征，模型所建立的条件分布要与训练样本表现出来的分布相同，样本中的概率为：p(x)= x出现的概率、p(x, y)=xy出现的概率、p(f)=特征f在样本中的期望值

假设最大熵模型当前的参数向量是lambda，希望找到新的参数向量lambda+delta，使得模型的对数似然值L增加，重复这个过程，直到找到对数似然函数的最大值

待补充...