# 最大熵模型
# 规范
承认已知的事物(输入有两类,则p(x1)+p(x2)=1,不存在x3、x4...)
对未知的事物不做假设,没有任何偏见(因此p(x1)=p(x2)=0.5)
可以从热力学第二定律理解
最大熵存在且唯一
# 对熵的理解
熵是随机变量不确定性的度量,不确定性越大,熵值越大,如果随机变量退化为定值,熵为0,均匀分布是最不确定的分布。
熵其实定义了一个函数(概率分布函数)到一个值(信息熵)的映射
- p(x)-> H(函数到数值)
- 泛函:变分推导
# 最大熵模型
概率平均分布的时候,熵最大,因此要使得熵最大就要尽可能让概率平分,也就是计算H(Y|X)条件熵,在X给定的情况下,Y的熵最大。
# 特征和样本
# 特征函数
对于一个确定的特征(x0, y0),定义特征函数
f(x, y) = 1 if x=x0 and y=y0 else 0
对于一个特征,在样本中的期望值是
p(x, y)是(x, y)在样本中出现的概率
# 样本
对于每个特征,模型所建立的条件分布要与训练样本表现出来的分布相同,样本中的概率为 :p(x)= x出现的概率、p(x, y)=xy出现的概率、p(f)=特征f在样本中的期望值
# 最优算法IIS
假设最大熵模型当前的参数向量是lambda,希望找到新的参数向量lambda+delta,使得模型的对数似然值L增加,重复这个过程,直到找到对数似然函数的最大值
待补充...