我们的开发环境:Win11 + PyCharm 2021.1.3 + Python 3.8.5
1. 虚拟环境
https://mengbaoliang.cn/archives/tag/py-env
接下来,创建 spam-env 虚拟环境,并在其中安装如下所需要的第三方包:
pip install jieba==0.42.1 pip install pandas==2.0.3 pip install scikit-learn==1.3.0 pip install tqdm==4.66.1
2. 数据下载
垃圾邮件识别器设计到模型训练,评估,我们需要持有一定的开源邮件数据。
下载链接:https://plg.uwaterloo.ca/cgi-bin/cgiwrap/gvcormac/foo06
中文邮件数据存放在 trec06c 目录下,该目录下有 data、delay、full 三个子目录,其中 full 目录下的 index 文件中存储了所有邮件的路径,每一个路径为一个邮件数据,如下图所示:
第一项为标签值,第二项为邮件路径(注意: 这里使用的是相对路径),其中的邮件内容格式如下:
Received: from coozo.com ([219.133.254.230]) by spam-gw.ccert.edu.cn (MIMEDefang) with ESMTP id j8L2Zoqi028766 for <li@ccert.edu.cn>; Fri, 23 Sep 2005 13:01:45 +0800 (CST) Message-ID: <200509211035.j8L2Zoqi028766@spam-gw.ccert.edu.cn> From: "you" <you@coozo.com> Subject: =?gb2312?B?us/X9w==?= To: li@ccert.edu.cn Content-Type: text/plain;charset="GB2312" Content-Transfer-Encoding: 8bit Date: Sun, 23 Oct 2005 23:44:32 +0800 X-Priority: 3 X-Mailer: Microsoft Outlook Express 6.00.2800.1106 您好! 我公司有多余的发票可以向外代开!(国税、地税、运输、广告、海关缴款书)。 如果贵公司(厂)有需要请来电洽谈、咨询! 联系电话: 013510251389 陈先生 谢谢 顺祝商祺!