《垃圾邮件识别器》(一)准备工作

我们的开发环境:Win11 + PyCharm 2021.1.3 + Python 3.8.5

1. 虚拟环境

https://mengbaoliang.cn/archives/tag/py-env

接下来,创建 spam-env 虚拟环境,并在其中安装如下所需要的第三方包:

pip install jieba==0.42.1
pip install pandas==2.0.3
pip install scikit-learn==1.3.0
pip install tqdm==4.66.1

2. 数据下载

垃圾邮件识别器设计到模型训练,评估,我们需要持有一定的开源邮件数据。

下载链接:https://plg.uwaterloo.ca/cgi-bin/cgiwrap/gvcormac/foo06

中文邮件数据存放在 trec06c 目录下,该目录下有 data、delay、full 三个子目录,其中 full 目录下的 index 文件中存储了所有邮件的路径,每一个路径为一个邮件数据,如下图所示:

第一项为标签值,第二项为邮件路径(注意: 这里使用的是相对路径),其中的邮件内容格式如下:

    Received: from coozo.com ([219.133.254.230])
    by spam-gw.ccert.edu.cn (MIMEDefang) with ESMTP id j8L2Zoqi028766
    for <li@ccert.edu.cn>; Fri, 23 Sep 2005 13:01:45 +0800 (CST)
Message-ID: <200509211035.j8L2Zoqi028766@spam-gw.ccert.edu.cn>
From: "you" <you@coozo.com>
Subject: =?gb2312?B?us/X9w==?=
To: li@ccert.edu.cn
Content-Type: text/plain;charset="GB2312"
Content-Transfer-Encoding: 8bit
Date: Sun, 23 Oct 2005 23:44:32 +0800
X-Priority: 3
X-Mailer: Microsoft Outlook Express 6.00.2800.1106

 您好! 
       我公司有多余的发票可以向外代开!(国税、地税、运输、广告、海关缴款书)。 
  
    如果贵公司(厂)有需要请来电洽谈、咨询! 
              
               联系电话: 013510251389  陈先生
                 

                                                           谢谢


顺祝商祺!

未经允许不得转载:一亩三分地 » 《垃圾邮件识别器》(一)准备工作
评论 (0)

4 + 2 =