前置要求:了解 Word2Vec 中的 Skip-Gram 和 CBOW 模型,以及负采样、层次 SoftMax 知识。
FastText 在 2016 年发布时,是当时最先进的词嵌入模型之一。 它具有轻量、速度快等优点,因此被广泛用于各种自然语言处理任务,例如文本分类、情感分析、机器翻译等。
然而,近年来,随着深度学习技术的快速发展,涌现出了许多新的词嵌入模型,例如 BERT、ELMo 等。 这些新模型在很多任务上都取得了比 FastText 更好的效果,因此逐渐成为了主流。
尽管如此,FastText 仍然具有一定的优势。 例如,它比 BERT 等模型更轻量级,因此在资源受限的场景下更实用。 此外,FastText 还支持多语言,这使得它在处理多语言文本时具有优势。
1. 内容概述
FastText:https://fasttext.cc/。对于 FastText 我们学习的内容如下:
- 词向量的训练
- 预训练词向量
- 文本分类模型
- 预训练分类模型
2. 环境准备
课程环境:windows 11、pycharm 2021.1.3、python 3.8
1 创建虚拟环境
# 创建虚拟环境 conda create --name fasttext-env python=3.8 # 查看虚拟环境 conda env list
2 安装依赖库
pip install fasttext -i https://pypi.tuna.tsinghua.edu.cn/simple/ pip install jieba -i https://pypi.tuna.tsinghua.edu.cn/simple/ pip install pandas -i https://pypi.tuna.tsinghua.edu.cn/simple/
3 创建 PyCharm 项目,并设置 fasttext-env 虚拟环境,并将百度网盘中的数据拷贝到项目中。
注意:课程中产生的模型、以及使用到的数据、预训练模型、词向量都在百度网盘中。