题目标题

玻尔兹曼机

参考解析

Boltzmann Machines,这里特指binary Boltzmann machine,即模型对应的变量是一个n维0-1变量。

玻尔兹曼机是一种基于能量的模型(an energy-based model),其对应的联合概率分布为

能量E越小,对应状态的概率越大。Z是配分函数,用作归一化。
利用基于能量的模型的原因是这样的,对于一个给定的数据集,如果不知道其潜在的分布形式,那是非常难学习的,似然函数都写不出来。比如如果知道是高斯分布或者多项分布,那可以用最大化似然函数来学出需要学习的对应参数,但是如果分布的可能形式都不知道,这个方法就行不通。而统计力学的结论表明,任何概率分布都可以转变成基于能
量的模型,所以利用基于能量的模型的这个形式,是一种学习概率分布的通法。

玻尔兹曼机常用的能量函数E的形式为

这包含的假设是对于能量函数而言,单元状态,单元与单元之间的相互关系对能量的影响都是线性的
本质而言,上述模型的表达能力是有限的,因为能量函数E是2阶多项式。它关于某个具体的xi的边缘分布是LR(比LR多了一个平方项,但是平方项等于自身,因为xi取值是0或1,所以还是只包含一次项)。变量与变量之间的关系是线性关系。

如果在玻尔兹曼机里加入隐变量,或者说不是所有变量都是可见的,那么其表达能力大大加强,可以逼近任何的关于可见变量的概率分布函数。
在上式中,把变量分为可见变量v与不可见变量h,则能量函数可以改写成

对于玻尔兹曼机而言,训练任一连接两个单元的权重参数,只需用到对应的这两个单元的数据,而与其他单元的数据无关。即玻尔兹曼机的训练规则是局部的(local)