《FastText 工具使用》(一)准备工作

前置要求:了解 Word2Vec 中的 Skip-Gram 和 CBOW 模型,以及负采样、层次 SoftMax 知识。

FastText 在 2016 年发布时,是当时最先进的词嵌入模型之一。 它具有轻量、速度快等优点,因此被广泛用于各种自然语言处理任务,例如文本分类、情感分析、机器翻译等。

然而,近年来,随着深度学习技术的快速发展,涌现出了许多新的词嵌入模型,例如 BERT、ELMo 等。 这些新模型在很多任务上都取得了比 FastText 更好的效果,因此逐渐成为了主流。

尽管如此,FastText 仍然具有一定的优势。 例如,它比 BERT 等模型更轻量级,因此在资源受限的场景下更实用。 此外,FastText 还支持多语言,这使得它在处理多语言文本时具有优势。

1. 内容概述

FastText:https://fasttext.cc/。对于 FastText 我们学习的内容如下:

  1. 词向量的训练
  2. 预训练词向量
  3. 文本分类模型
  4. 预训练分类模型

2. 环境准备

课程环境:windows 11、pycharm 2021.1.3、python 3.8

1 创建虚拟环境

# 创建虚拟环境
conda create --name fasttext-env python=3.8

# 查看虚拟环境
conda env list

2 安装依赖库

pip install fasttext -i https://pypi.tuna.tsinghua.edu.cn/simple/
pip install jieba -i https://pypi.tuna.tsinghua.edu.cn/simple/
pip install pandas -i https://pypi.tuna.tsinghua.edu.cn/simple/

3 创建 PyCharm 项目,并设置 fasttext-env 虚拟环境,并将百度网盘中的数据拷贝到项目中。

注意:课程中产生的模型、以及使用到的数据、预训练模型、词向量都在百度网盘中。

未经允许不得转载:一亩三分地 » 《FastText 工具使用》(一)准备工作
评论 (0)

4 + 6 =