SMS垃圾短信集F1指标分析

ops/2024/9/25 22:19:49/

一、任务

SMS垃圾短信集是一组为研究SMS垃圾短信而收集数据集合,每条短信有两个信息,分别是标签信息label,其中spam为垃圾短信,ham为正常短信。以及message信息为短信内容。现在有训练集,训练集保存在E:\自然语言处理\train.csv和测试集,测试集保存在E:\自然语言处理\test.csv。现在综合利用所学的文本预处理、特征提取、文本向量化等技术对其进行分析。建立机器学习模型,计算测试集上的F1指标,希望F1指标达到非常好的效果。

二、代码

使用SVC机器学习模型,Tfidf特征处理。

import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.metrics import f1_score
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import LabelEncoder
import re
import string# 1. 数据加载与预处理
train_data = pd.read_csv("E:\\自然语言处理\\train.csv")
test_data = pd.read_csv("E:\\自然语言处理\\test.csv")# 定义文本预处理函数
def preprocess_text(text):# 将文本转换为小写text = text.lower()# 去除标点符号text = text.translate(str.maketrans('', '', string.punctuation))# 去除数字text = re.sub(r'\d+', '', text)# 返回处理后的文本return text# 对训练集和测试集的文本进行预处理
train_data['message'] = train_data['message'].apply(preprocess_text)
test_data['message'] = test_data['message'].apply(preprocess_text)# 2. 特征提取与文本向量化
vectorizer = TfidfVectorizer()
X_train = vectorizer.fit_transform(train_data['message'])
X_test = vectorizer.transform(test_data['message'])# 对标签进行编码
label_encoder = LabelEncoder()
y_train = label_encoder.fit_transform(train_data['label'])
y_test = label_encoder.transform(test_data['label'])# 3. 建立机器学习模型
classifier = SVC(kernel='linear')# 4. 模型训练与评估
classifier.fit(X_train, y_train)
y_pred = classifier.predict(X_test)# 计算F1指标
f1 = f1_score(y_test, y_pred)print("F1 Score:", f1)

三、结果

F1 Score: 0.9469214437367303

本代码仅是抛砖引玉,希望诸君可以有其他更好的方法,比如使用GridSearchCV等等。当然我后续会分享其他代码解决上述问题


http://www.ppmy.cn/ops/44616.html

相关文章

【算法】常用数据结构的优缺点

当然,下面是几种常用数据结构及其优缺点的详细描述,包括数组、链表、栈、队列、哈希表、树和图: 1. 数组 (Array) 优点: 快速访问: 通过索引可以在常数时间内(O(1))访问任意元素。空间局部性好: 数据在内…

基于GIS地理信息技术的智慧巡检平台建设方案(Word原件)

传统的巡检采取人工记录的方式,该工作模式在生产中存在很大弊端,可能造成巡检不到位、操作失误、观察不仔细、历史问题难以追溯等现象,使得巡检数据不准确,设备故障隐患得不到及时发现和处理。因此建立一套完善的巡检管理系统是企…

C#学习备份

20190523 1、但当你创建了一个很大的类,那么为了方便创建对象,你最好使用var关键字。 2、类属性需要快速赋值 tsttab[] mytab new tsttab[] { new tsttab { ID 1, name “”, age 1 }, new tsttab { ID 1, name “”, age 2 } }; 3、 三层架构的各…

Linux内网中安装jdk1.8详细教程

本章教程,主要介绍如何在内网环境中配置JDK1.8环境变量 一、下载Linux版压缩包 下载地址:https://www.oracle.com/java/technologies/downloads/#java8 下载完成之后,通过XFTP等工具,将安装包上传到内网服务器 二、安装配置步骤 1、解压压缩包 tar -zxvf /usr/local/jdk-…

多线程基础知识

什么是死锁?如何避免死锁? 死锁是指在多线程编程中,两个或多个线程互相等待对方持有的资源,导致程序无法继续执行的状态。 死锁的发生通常需要满足以下四个条件: 互斥条件:至少有一个资源被某个线程独占时&…

修改了vue3 <script setup>留言板

Лунная ночь <template><button class"edit_view_checkbox"><input type"checkbox" v-model"editshowInput" value"编辑" /></button><div class"editshowInput" v-if"editshowI…

python dict字典

mapping 对象会将 hashable 值映射到任意对象。 映射属于可变对象。 目前仅有一种标准映射类型 字典。 &#xff08;关于其他容器对象请参看 list, set 与 tuple 等内置类&#xff0c;以及 collections 模块。&#xff09; 字典的键 几乎 可以为任何值。 不是 hashable 的值&am…

tcpdump源码分析

进入tcpdump.c&#xff08;函数入口&#xff09;之前&#xff0c;先看一些头文件netdissect.h里定义了一个数据结构struct netdissect_options来描述tcdpump支持的所有参数动作&#xff0c;每一个参数有对应的flag, 在tcpdump 的main 里面&#xff0c; 会根据用户的传入的参数来…