fasttext 和 word2vec 区别

孟宝亮2021-06-15机器学习1302

Fasttext 和 Word2vec 都是词向量模型，用于将输入文本转换为词向量表示，但是它们在模型结构、训练速度、OOV问题处理方面有些很大的不同：

模型结构不同：word2vec 是一个基于词粒度输入的神经网络的模型，主要包括 CBOW 和 Skip-gram 两种模式；而 fasttext 则是基于 n-gram 输入的神经网络模型，它会将一个单词拆分成多个 n-gram 子词，并将每个子词向量化后进行训练。

处理 OOV 单词的方式不同：在 word2vec 中，如果出现了训练中未曾见过的单词，它的向量将被随机初始化；而在 fasttext 中，OOV 单词可以被分解成多个 n-gram 子词的向量的平均值来近似表示。

训练速度不同：fastText 的训练速度比 word2vec 更快。这是 fasttext 应用了一些优化技巧：

层次 softmax 代替普通的 softmax 层来近似计算每个单词的条件概率，这样可以避免对所有单词计算softmax概率，从而降低了计算复杂度；
采用负采样可以避免对每个单词计算所有负样本的概率，从而减少了计算量；
参数共享：fastText的n-gram模型在语料库中共享参数，在fasttext中，每个单词的向量表示是由它的字符 n-gram 向量的平均值得到的，而所有单词共享同一个字符向量表，这样可以减少需要训练的参数数量，从而提高了训练速度；
多线程训练：fasttext支持多线程训练，可以利用多核CPU进行并行计算，加快了训练速度。

另外，fasttext 可以用于文本分类任务。

未经允许不得转载：一亩三分地 » fasttext 和 word2vec 区别

4 赞

 评论 (0)

取消回复