受限玻尔兹曼机

结构

标准的受限玻尔兹曼机由二值（布尔/伯努利）隐层和可见层单元组成。权重矩阵 $W=(w_{i,j})$ 中的每个元素指定了隐层单元 $h_{i}$ 和可见层单元 $v_{j}$ 之间边的权重。此外对于每个可见层单元 $v_{i}$ 有偏置 $a_{i}$ ，对每个隐层单元 $h_{j}$ 有偏置 $b_{j}$ 。在这些定义下，一种受限玻尔兹曼机配置（即给定每个单元取值）的“能量” $(v, h)$ 被定义为

E(v,h)=-\sum _{i}a_{i}v_{i}-\sum _{j}b_{j}h_{j}-\sum _{i}\sum _{j}h_{j}w_{i,j}v_{i}

或者用矩阵的形式表示如下：

E(v,h)=-a^{\mathrm {T} }v-b^{\mathrm {T} }h-h^{\mathrm {T} }Wv

这一能量函数的形式与霍普菲尔德神经网络相似。在一般的玻尔兹曼机中，隐层和可见层之间的联合概率分布由能量函数给出：^[9]

P(v,h)={\frac {1}{Z}}e^{-E(v,h)}

其中， $Z$ 为配分函数，定义为在节点的所有可能取值下 $e^{-E(v,h)}$ 的和（亦即使得概率分布和为1的归一化常数）。类似地，可见层取值的边缘分布可通过对所有隐层配置求和得到：^[9]

P(v)={\frac {1}{Z}}\sum _{h}e^{-E(v,h)}

由于RBM为一个二分图，层内没有边相连，因而隐层是否激活在给定可见层节点取值的情况下是条件独立的。类似地，可见层节点的激活状态在给定隐层取值的情况下也条件独立^[7]。亦即，对 $m$ 个可见层节点和 $n$ 个隐层节点，可见层的配置 $v$ 对于隐层配置 $h$ 的条件概率如下：

P(v|h)=\prod _{i=1}^{m}P(v_{i}|h)

类似地， $h$ 对于 $v$ 的条件概率为

P(h|v)=\prod _{j=1}^{n}P(h_{j}|v)

其中，单个节点的激活概率为

P(h_{j}=1|v)=\sigma \left(b_{j}+\sum _{i=1}^{m}w_{i,j}v_{i}\right)\,

和

\,P(v_{i}=1|h)=\sigma \left(a_{i}+\sum _{j=1}^{n}w_{i,j}h_{j}\right)

其中 $\sigma$ 代表逻辑函数。

Remove ads

与其他模型的关系

受限玻尔兹曼机是玻尔兹曼机和马尔科夫随机场的一种特例^[10]^[11]。这些概率图模型可以对应到因子分析^[12]。

训练算法

受限玻尔兹曼机的训练目标是针对某一训练集 $V$ ，最大化概率的乘积。其中， $V$ 被视为一矩阵，每个行向量作为一个可见单元向量 $v$ ：

\arg \max _{W}\prod _{v\in V}P(v)

或者，等价地，最大化 $V$ 的对数概率期望：^[10]^[11]

\arg \max _{W}\mathbb {E} \left[\sum _{v\in V}\log P(v)\right]

训练受限玻尔兹曼机，即最优化权重矩阵 $W$ ，最常用的算法是杰弗里·辛顿提出的对比分歧（contrastive divergence，CD）算法。这一算法最早被用于训练辛顿提出的“专家积”模型^[13]。这一算法在梯度下降的过程中使用吉布斯采样完成对权重的更新，与训练前馈神经网络中利用反向传播算法类似。

基本的针对一个样本的单步对比分歧（CD-1）步骤可被总结如下：

取一个训练样本 $v$ ，计算隐层节点的概率，在此基础上从这一概率分布中获取一个隐层节点激活向量的样本 $h$ ；
计算 $v$ 和 $h$ 的外积，称为“正梯度”；
从 $h$ 获取一个重构的可见层节点的激活向量样本 $v'$ ，此后从 $v'$ 再次获得一个隐层节点的激活向量样本 $h'$ ；
计算 $v'$ 和 $h'$ 的外积，称为“负梯度”；
使用正梯度和负梯度的差以一定的学习率更新权重 $w_{i,j}$ ： $\Delta w_{i,j}=\epsilon (vh^{\mathsf {T}}-v'h'^{\mathsf {T}})$ 。

偏置 $a$ 和 $b$ 也可以使用类似的方法更新。

Remove ads

受限玻尔兹曼机

结构

与其他模型的关系

训练算法

参见

参考资料

外部链接

Wikiwand - on