Word2vec的训练目标

Word2vec都被认为是用于训练词向量表达的工具。但是词向量其实是一个完成了Word2vec网络模型的一个副产品。它的训练目标是训练一个三层神经网络，使得上下文相似的词汇的相似度变高。达到这个目标后，发现输入层到隐藏层的参数竟然奇迹般的能用于词的向量表示，并且还有些神奇的效果，比如 ”King“-"Men"+"Women"="Queen"、 ”日本“-”东京“+"中国"="北京"；或者 "北京"和"烤鸭"的相似性 > "北京"和"早茶"的相似性。假设数据集为 \(D\)，数据集中的词汇表为 \(C\)。如果当前词为 \(w_t\)，上下文窗口大小为 5. 那么这个词的上下文 \(Context(w_t)=[w_{t-2},w_{t-1},w_{t+1},w_{t+2}]\)。对于下面的例子的第三个窗口而言，当前输入词为“brown”，它的上下文为 [“the”，“quick”，“fox”，“jumps”]

Skip-gram

Skip-gram 通过当前词汇来预测上下文，为此它的最大化目标函数为

\(L=\sum_{w\in D}logp(w|Context(w))\)

CBOW

CBOW 的思想则是通过上下文来预测当前词汇，为此它的最大化目标函数为

\(L=\sum_{w\in D}logp(Context(w)|w)\)

Word2vec模型

Word2vedc 模型由输入层，隐藏层和输出层组成，它的模型参数包括了输入层到隐藏层的权重矩阵 \(W\)（最终保留的词向量矩阵），以及隐藏层到输出层的权重矩阵 \(W'\)，数据集的词汇表中一共包含 \(V\) 个唯一的词汇，词向量的维度设置为 \(N\)。

CBOW 模型

对于当前词汇 \(w_t\) 而言，它是词汇表中第 \(v\) 个词汇。它的一个训练样本为 \((Context(w_t), w_t)\). 输入层是一个只包含 0 和 1 的向量，1 的位置代表词汇表中该位置的词汇在上下文 \(Context(w_t)\) 中. 隐藏层的向量 \(h=x^TW=\sum_{w'\in Context(w_t)}W_{w'}\). 其实隐藏层就是上下文词汇的词向量的和。输出层为向量 \(o=hW'=x^TWW'\)。对于向量 \(o\) 而言，希望第 \(v\) 个位置为 1，其他位置为 0. 对于这一个训练样本而言，我们希望最大化

\(L=\sum_{w_t\in C}log(\prod_{w\in C}p(w|Context(w_t)))\)

\(g(w_t,w)=p(w|Context(w_t))={[\sigma(hW'_{w})]}^{L^{w_t}(w)}\times {[1-\sigma(hW'_{w})]}^{1-L^{w_t}(w)}\)

其中 \(\sigma(x)=\frac{1}{1+e^{-x}}\)，\(L^{w_t}(w)=1\) if \(w_t=w\)，\(L^{w_t}(w)=1\) if \(w_t\neq w\).

对 \(W'_{w}\) 求导 \(\frac{\partial g(w_t,w)}{\partial W'_w}=[L^{w_t}(w)-\sigma(hW'_{w})]h\)

对 \(h\) 求导 \(\frac{\partial g(w_t,w)}{\partial h}=[L^{w_t}(w)-\sigma(hW'_{w})]W'_{w}\)

更新 \(W'_{w}=W'_{w}+\eta \frac{\partial g(w_t,w)}{\partial W'_w}\)

更新 \(W_{w'} (w'\in Context(w_t))\)， \(W_{w'}=W_{w'} + \eta \sum_{w\in C} \frac{\partial g(w_t,w)}{\partial h}\)

SKip-gram 模型

对于当前词汇 \(w_t\) 而言，它是词汇表中第 \(v\) 个词汇。它的一个训练样本为 \((w_t,Context(w_t))\). 输入层是一个 one-hot 向量，其中第 \(v\) 个位置为 1，其他位置为 0. 隐藏层的向量 \(h=x^TW=\sum_{w\in Context(w_t)}W_{w}\). 其实隐藏层就是上下文词汇的词向量的和。输出层为向量 \(o=hW'=x^TWW'\)。对于向量 \(o\) 而言，希望所有与 \(Context(w_t)\) 中词汇对应的位置为 1，其他位置为 0. 对于这一个训练样本而言，我们希望最大化

\(L=\sum_{w_t\in C}log(\prod_{u\in Context(w_t)}\prod_{w\in C}p(w|w_t,u))\)

\(g(w_t,u,w)=p(w|w_t,u)={[\sigma(W_{u}^T W'_{w})]}^{L^{w_t}(w)}\times{[1-\sigma(W_{u}^T W'_{w})]}^{1-L^{w_t}(w)}\)

其中 \(\sigma(x)=\frac{1}{1+e^{-x}}\)，\(L^{w_t}(w)=1\) if \(w_t=w\)，\(L^{w_t}(w)=1\) if \(w_t\neq w\).

对 \(W'_{w}\) 求导 \(\frac{\partial g(w_t,w,u)}{\partial W'_w}=[L^{w_t}(w)-\sigma(W_{u}W'_{w})]W_{u}\)

对 \(W_u\) 求导 \(\frac{\partial g(w_t,w)}{\partial W_{u}}=[L^{w_t}(w)-\sigma(W_{u}W'_{w})]W_{u}\)

更新 \(W'_{w}=W'_{w}+\eta \frac{\partial g(w_t,w)}{\partial W'_w}\)

更新 \(W_{u} (u\in Context(w_t))\)， \(W_{u}=W_{u} + \eta \sum_{w\in C} \frac{\partial g(w_t,w)}{\partial W_u}\)

负采样

从上面的模型可以看到，每个训练样本经过，都需要更新整个 \(W'\)，这样代价太大了，因此，负采样对于上面的 \(w\in C\) 更改为 \(w\in NEG(w_t)\cup w_t\). 这样每次只需要更新更少的参数. 对于 \(w_t\) 而言，除了自己，其他词汇都是负样本词汇. 但是有那么多个负样本词汇，我们怎么去挑选呢，答案是根据负样本词汇的词频。为此 Word2vec 模型定义了一个概率计算公式用于挑选负样本词汇：\(P(w)=\frac{tf(w)^{3/4}}{\sum_{w'}tf(w')^{3/4}}\).公式中加了一个 \(3/4\) 次方纯粹是一个经验值.

下采样

回到一个图中的例子中我们构建的训练样本。里面会存在大量的（"fox", "the"）这样的词对，并且像（"the", XXX）这样词对也会频繁出现在训练样本中。我们知道其实 "the" 并不能为 "fox" 这样的词提供多少语义含义，此外对于（"the", XXX）这样的词对，XXX有很高的重复率。为此，Word2vec使用下采样来对付这样的情况。简单来说对于像 ”fox" 这样有意义的词语，我们去掉它的包含 "the" 的词对；对于 "the" 这样的词汇，我们采用更少的训练样本量。

那么对于一个像 "the" 这样的高频词汇，我们按照怎样的方法来选择性的丢掉它的一些样本呢？Word2vec 采用了一个计算词汇被保留的概率公式 \(P(w)=(\sqrt{\frac{z(w)}{0.001}}+1)\frac{0.001}{z(w)}\)，其中 \(z(w)=\frac{tf(w)}{corpus\ size}\)。函数\(f(x)=(\sqrt{\frac{x}{0.001}}+1)\frac{0.001}{x}\)的图像如下图所示：

从图中可以看出，高频词汇被保留的概率较少，低频词汇被保留的概率较高。当 \(z(w)\leq 0.0026\) 时，\(P(w)=1\)，此时 \(w\) 所有的词对样本都被保留；当 \(z(w)= 0.00746\) 时，\(P(w)=0.5\)，此时 \(w\) 的词对样本只保留一半。

参考 (References)

http://mccormickml.com/2016/04/19/word2vec-tutorial-the-skip-gram-model/
http://mccormickml.com/2017/01/11/word2vec-tutorial-part-2-negative-sampling/

Jason Hao's Blog

word2vec详解

Word2vec的训练目标

Word2vec模型

CBOW 模型

SKip-gram 模型

负采样

下采样

参考 (References)