# 最大熵模型

# 规范

  • 承认已知的事物(输入有两类,则p(x1)+p(x2)=1,不存在x3、x4...)

  • 对未知的事物不做假设,没有任何偏见(因此p(x1)=p(x2)=0.5)

  • 可以从热力学第二定律理解

  • 最大熵存在且唯一

# 对熵的理解

熵是随机变量不确定性的度量,不确定性越大,熵值越大,如果随机变量退化为定值,熵为0,均匀分布是最不确定的分布。

熵其实定义了一个函数(概率分布函数)到一个值(信息熵)的映射

  • p(x)-> H(函数到数值)
  • 泛函:变分推导

# 最大熵模型

概率平均分布的时候,熵最大,因此要使得熵最大就要尽可能让概率平分,也就是计算H(Y|X)条件熵,在X给定的情况下,Y的熵最大。

maxH(YX)=Σp(x,y)logp(yx)withConstraintmaxH(Y|X) = -\Sigma p(x,y)logp(y|x) \qquad\qquad with \: Constraint

# 特征和样本

# 特征函数

对于一个确定的特征(x0, y0),定义特征函数

f(x, y) = 1 if x=x0 and y=y0 else 0

  • 对于一个特征,在样本中的期望值是p(f)=Σp(x,y)f(x,y)p(f)=\Sigma p(x,y)f(x,y)

  • p(x, y)是(x, y)在样本中出现的概率

# 样本

对于每个特征,模型所建立的条件分布要与训练样本表现出来的分布相同,样本中的概率为 :p(x)= x出现的概率、p(x, y)=xy出现的概率、p(f)=特征f在样本中的期望值

# 最优算法IIS

假设最大熵模型当前的参数向量是lambda,希望找到新的参数向量lambda+delta,使得模型的对数似然值L增加,重复这个过程,直到找到对数似然函数的最大值

待补充...