第4章 基于概率论的分类方法: 朴素贝叶斯

server/2024/9/24 13:40:50/

称之为“朴素”,是因为整个形式化过程只做最原始、最简单的假设。

4.1 基于贝叶斯决策理论的分类方法

朴素贝叶斯:
优点:在数据较少的情况下仍然有效,可以处理多类别问题。
缺点:对于输入数据的准备方式较为敏感。
使用数据类型:标称型数据。

贝叶斯决策理论的核心思想,即选择据亚欧最高概率的决策。

假设用 p 1 ( x , y ) p1(x,y) p1(x,y)表示数据点 ( x , y ) (x,y) (x,y)属于类别1的概率,用 p 2 ( x , y ) p2(x,y) p2(x,y)表示数据点 ( x , y ) (x,y) (x,y)属于类别2的概率,那么对于一个新数据点 ( x , y ) (x,y) (x,y),可以用下面的规则来判断它的类别:
a. 如果 p 1 ( x , y ) > p 2 ( x , y ) p1(x,y) > p2(x,y) p1(x,y)>p2(x,y),那么类别为1。
b. 如果 p 1 ( x , y ) < p 2 ( x , y ) p1(x,y) < p2(x,y) p1(x,y)<p2(x,y),那么类别为2。

4.2 条件概率

有效算法条件概率的方法称为贝叶斯准则:

p ( c ∣ x ) = p ( x ∣ c ) p ( c ) p ( x ) p(c|x) = \frac{p(x|c) p(c)}{p(x)} p(cx)=p(x)p(xc)p(c)

4.3 使用条件概率来分类

真正需要计算和比较的是$ p(c_1|x,y) 和 和 p(c_2|x,y) $
具体意义是:给定莫格由x,y表示的数据点,那么该数据点来自类别$ c_1 的概率是多少 ? 来自类别 的概率是多少?来自类别 的概率是多少?来自类别 c_2 $的概率又是多少?
具体的应用贝叶斯准则得到:
p ( c i ∣ x , y ) = p ( x , y ∣ c i ) p ( c i ) p ( x , y ) p(c_i|x,y) = \frac{p(x,y|c_i) p(c_i)}{p(x,y)} p(cix,y)=p(x,y)p(x,yci)p(ci)
使用这些定义,可以定义贝叶斯分类准则为:
a. 如果 p 1 ( c 1 ∣ x , y ) > p 2 ( c 2 ∣ x , y ) p1(c_1|x,y) > p2(c_2|x,y) p1(c1x,y)>p2(c2x,y),那么类别为1。
b. 如果 p 1 ( c 1 ∣ x , y ) < p 2 ( x , y ) p1(c_1|x,y) < p2(x,y) p1(c1x,y)<p2(x,y),那么类别为2。

4.4 使用朴素贝叶斯进行文档分类

朴素贝叶斯的一般过程:

  1. 收集数据:可以使用任何方法。本章使用RSS源头。
  2. 准备数据:需要数值型或者布尔型数据。
  3. 分析数据:有大量特征时,绘制特征作用不大,此时使用直方图效果更好。
  4. 训练算法:计算不同的独立特征的条件概率。
  5. 测试算法:计算错误率。
  6. 使用算法:一个常见的朴素贝叶斯应用是文档分类。可以在任意的分类常见中使用朴素贝叶斯分类器,不一定非要是文本。

4.5 使用Python进行文本分类

4.5.1 数据准备:从文本中构建词向量

词表到向量的转换函数:

def loadDataSet():'''创建实验样本:return:'''postingList = [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],['stop', 'posting', 'stupid', 'worthless', 'garbage'],['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]classVec = [0, 1, 0, 1, 0, 1] # 1:代表有侮辱性文字, 0:代表正常言论return postingList, classVecdef createVocabList(dataSet):'''创建一个包含所有文档中出现的不重复词的列表:param dataSet::return:'''vocabSet= set([])       ##创建一个空集##创建两个集合的并集 将每篇文档返回的新词添加到该集合中for document in dataSet:vocabSet = vocabSet | set(document)return list(vocabSet)def setOfWords2Vec(vocabList, inputSet):''':param vocabList: 词汇表:param inputSet: 某个文档:return: 文档向量'''##创建一个其中所含元素都为0的向量returnVec = [0]*len(vocabList)for word in inputSet:if word in vocabList:returnVec[vocabList.index(word)] = 1else:print("the word: %s is notin my Vocabulary!" % word)return returnVecif __name__ == '__main__':listOPosts, listClasses = loadDataSet()myVocabList = createVocabList(listOPosts)print(myVocabList)print(setOfWords2Vec(myVocabList, listOPosts[0]))

4.5.2 训练算法:从词向量计算概率

重写贝叶斯准则,将之前的x、y替换为 w ⃗ \vec w w 。箭头下w表示这是一个向量,即它由多个数值组成。
p ( c i ∣ w ⃗ ) = p ( w ⃗ ∣ c i ) p ( c i ) p ( w ⃗ ) p(c_i | \vec w) = \frac{p(\vec w|c_i) p(c_i)}{p(\vec w)} p(ciw )=p(w )p(w ci)p(ci)

该函数的伪代码如下:

计算每个类别中的文档数目
对每篇训练文档:对每个类别:如果词条出想在文档中 -> 增加该此提案的技术值增加所有词条的计数值对每个类别:对每个词条:将该此提案的数目除以总词条数目得到条件概率返回每个类别的条件概率

贝叶斯分类器训练函数:

def trainNB0(trainMatrix, trainCategory):numTrainDocs = len(trainMatrix)numWords = len(trainMatrix[0])pAbusive = sum(trainCategory) / float(numTrainDocs)## 初始化概率p0Num = np.ones(numWords)p1Num = np.ones(numWords)p0Denom = 2.0p1Denom = 2.0for i in range(numTrainDocs):if trainCategory[i] == 1:## 向量相加p1Num += trainMatrix[i]p1Denom += sum(trainMatrix[i])else:p0Num += trainMatrix[i]p0Denom += sum(trainMatrix[i])## 对每个元素作除法p1Vect = np.log(p1Num / p1Denom)p0Vect = np.log(p0Num / p0Denom)return p0Vect, p1Vect, pAbusiveif __name__ == '__main__':listOPosts, listClasses = loadDataSet()myVocabList = createVocabList(listOPosts)trainMat=[]for postinDoc in listOPosts:trainMat.append(setOfWords2Vec(myVocabList, postinDoc))p0V, p1V, pAb = trainNB0(trainMat, listClasses)print(pAb)print(p0V)print(p1V)

4.5.3 测试算法:根据事项情况修改分类器

朴素贝叶斯分类函数:

def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):''':param vec2Classify: 分类的向量:param p0Vec:   0的概率:param p1Vec:   1的概率:param pClass1:  :return: '''p1 = sum(vec2Classify * p1Vec) + np.log(pClass1)p0 = sum(vec2Classify * p0Vec) + np.log(1.0 - pClass1)if p1 > p0:return 1else:return 0def testingNB():listOPosts, listClasses = loadDataSet()myVocabList = createVocabList(listOPosts)trainMat = []for postinDoc in listOPosts:trainMat.append(setOfWords2Vec(myVocabList, postinDoc))p0V, p1V, pAb = trainNB0(np.array(trainMat), np.array(listClasses))testEntry = ['love', 'my', 'dalmation']thisDoc = np.array(setOfWords2Vec(myVocabList, testEntry))print(testEntry, 'classified as: ', classifyNB(thisDoc, p0V, p1V, pAb))testEntry = ['stupid', 'garbage']thisDoc = np.array(setOfWords2Vec(myVocabList, testEntry))print(testEntry, 'classified as: ', classifyNB(thisDoc, p0V, p1V, pAb))if __name__ == '__main__':testingNB()

4.5.4 准备数据:文档词袋模型

朴素贝叶斯词袋模型:

def bagOfWords2VecMN(vocabList, inputSet):returnVec = [0] * len(vocabList)for word in inputSet:if word in vocabList:returnVec[vocabList.index(word)] += 1return returnVec

4.6 示例:使用朴素贝叶斯过滤垃圾邮件

示例:使用朴素贝叶斯对电子邮件进行分类

  1. 收集数据:提供文本文件
  2. 准备数据:将文本文件解析成词条向量
  3. 分析数据:检查词条保证解析的争取性
  4. 训练算法:使用之前建立的trainNB0()函数
  5. 测试算法:使用classifyNB(),并且建构一个新的测试函数来计算文档集的错误率。
  6. 使用算法:构建一个完整的程序对一组文档进行分类,将错分的文档输出到屏幕上。

4.6.1 准备数据:切分文本

4.6.2 测试算法: 使用朴素贝叶斯进行交叉验证

文件解析及完整的垃圾邮箱测试函数:

def spamTest():docList = []classList = []fullText = []## 导入文件夹spam与ham想的文件,并将它们解析为词列表docList = [];classList = [];fullText = []for i in range(1, 26):wordList = textParse(open('./resource/email/spam/%d.txt' % i, encoding="ISO-8859-1").read())docList.append(wordList)fullText.extend(wordList)classList.append(1)wordList = textParse(open('./resource/email/ham/%d.txt' % i, encoding="ISO-8859-1").read())docList.append(wordList)fullText.extend(wordList)classList.append(0)## 随机构建训练集vocabList = createVocabList(docList)trainingSet = range(50);testSet = []for i in range(10):randIndex = int(np.random.uniform(0, len(trainingSet)))testSet.append(trainingSet[randIndex])del (list(trainingSet)[randIndex])## 对测试集分类trainMat = [];trainClasses = []for docIndex in trainingSet:trainMat.append(bagOfWords2VecMN(vocabList, docList[docIndex]))trainClasses.append(classList[docIndex])p0V, p1V, pSpam = trainNB0(np.array(trainMat), np.array(trainClasses))errorCount = 0for docIndex in testSet:wordVector = bagOfWords2VecMN(vocabList, docList[docIndex])if classifyNB(np.array(wordVector), p0V, p1V, pSpam) != classList[docIndex]:errorCount += 1print("classification error", docList[docIndex])print('the error rate is: ', float(errorCount) / len(testSet))if __name__ == '__main__':spamTest()

4.7 示例:使用贝叶斯分类器从个人广告中获取倾向

示例:使用朴素贝叶斯来发现地域相关的用词:

  1. 收集数据:从RSS源收集内容,这里需要对RSS源构建一个接口。
  2. 准备数据:将文本文件解析成词条向量。
  3. 分析数据:检查词条确保解析的正确性。
  4. 训练算法:使用我们之前建立的trainNB0()函数。
  5. 测试算法:观察错误率,确保分类器可用。可以修改切分程序,以降低错误率,提高分类结果。
  6. 使用算法:构建一个完整的程序,分装所有内容。给定两个RSS源,该程序会显式做常用的公共词。

4.7.1 收集数据:导入RSS源

RSS源分类器及高频词去除函数:

import operator
def calcMostFreq(vocabList, fullText):'''计算出现频率:param vocabList: 词汇表:param fullText: 全文:return: 出现频率最高的30个单词'''freqDict = {}for token in vocabList:freqDict[token] = fullText.count(token)sortedFreq = sorted(freqDict.items(), key=operator.itemgetter(1), reverse=True)return sortedFreq[:30]import feedparser
def localWords(feed1, feed0):docList = []classList = []fullText = []minLen = min(len(feed1['entries']), len(feed0['entries']))for i in range(minLen):wordList = textParse(feed1['entries'][i]['summary']) ## 每次访问一条RSS源docList.append(wordList)fullText.extend(wordList)classList.append(1)wordList = textParse(feed0['entries'][i]['summary'])docList.append(wordList)fullText.extend(wordList)classList.append(0)vocabList = createVocabList(docList)top30Words = calcMostFreq(vocabList, fullText)## 去掉出出现次数最高的那些词for pairW in top30Words:if pairW[0] in vocabList: vocabList.remove(pairW[0])trainingSet = range(2 * minLen);testSet = []for i in range(20):randIndex = int(np.random.uniform(0, len(trainingSet)))testSet.append(trainingSet[randIndex])del (list(trainingSet)[randIndex])trainMat = [];trainClasses = []for docIndex in trainingSet:trainMat.append(bagOfWords2VecMN(vocabList, docList[docIndex]))trainClasses.append(classList[docIndex])p0V, p1V, pSpam = trainNB0(np.array(trainMat), np.array(trainClasses))errorCount = 0for docIndex in testSet:wordVector = bagOfWords2VecMN(vocabList, docList[docIndex])if classifyNB(np.array(wordVector), p0V, p1V, pSpam) != classList[docIndex]:errorCount += 1print('the error rate is: ', float(errorCount) / len(testSet))return vocabList, p0V, p1Vif __name__ == '__main__':ny = feedparser.parse('http://newyork.craigslist.org/stp/index.rss')sf = feedparser.parse('http://sfbay.craigslist.org/stp/index.rss')vocabList, pSF, pNY = localWords(ny, sf)

4.7.2 分析数据:显示地域相关的用词

最具表征性的词汇显示函数:

def getTopWords(ny, sf):vocabList, p0V, p1V = localWords(ny, sf)topNY = []; topSF = []for i in range(len(p0V)):if p0V[i] > -6.0: topSF.append((vocabList[i], p0V[i]))if p1V[i] > -6.0: topNY.append((vocabList[i], p1V[i]))sortedSF = sorted(topSF, key=lambda pair: pair[1], reverse=True)print("SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**")for item in sortedSF:print(item[0])sortedNY = sorted(topNY, key=lambda pair: pair[1], reverse=True)print("NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**")for item in sortedNY:print(item[0])if __name__ == '__main__':ny = feedparser.parse('http://newyork.craigslist.org/stp/index.rss')sf = feedparser.parse('http://sfbay.craigslist.org/stp/index.rss')getTopWords(ny, sf)

4.8 本章小结

使用概率有时比使用硬规则更为有效。
贝叶斯概率及贝叶斯准则提供了一种利用已知值来估计未知概率的有效方法。
下溢出: 通过对概率去对数来结局
词袋模型在解决文档分类问题上比词集模型有所提高。


http://www.ppmy.cn/server/31341.html

相关文章

20240503解决Ubuntu20.04和WIN10双系统下WIN10的时间异常的问题

20240503解决Ubuntu20.04和WIN10双系统下WIN10的时间异常的问题 2024/5/3 9:33 缘起&#xff1a;因为工作需要&#xff0c;编译服务器上都会安装Ubuntu20.04。 但是因为WINDOWS强悍的生态系统&#xff0c;偶尔还是有必须要用WINDOWS的时候&#xff0c;于是也安装了WIN10。 双系…

ArrayList常考面试题

在Java面试中&#xff0c;关于ArrayList的面试题可能涵盖多个方面&#xff0c;包括其数据结构、扩容机制、性能特点等。以下是一些常见的ArrayList面试题&#xff1a; ArrayList的数据结构是什么&#xff1f; ArrayList的底层数据结构是动态数组。它是一个可以动态调整大小的数…

前端初学者的 CSS 入门

文章导读&#xff1a;AI 辅助学习前端&#xff0c;包含入门、进阶、高级部分前端系列内容&#xff0c;当前是 CSS 的部分&#xff0c;瑶琴会持续更新&#xff0c;适合零基础的朋友&#xff0c;已有前端工作经验的可以不看&#xff0c;也可以当作基础知识回顾。 从这篇文章开始…

使用 Llama3 模型进行关系提取

原文地址&#xff1a;relation-extraction-with-llama3-models 通过使用 Llama3–70B 创建的合成数据集微调 Llama3–8B 来增强关系提取 2024 年 4 月 26 日 介绍 关系提取&#xff08;RE&#xff09;是从非结构化文本中提取关系以识别各种命名实体之间联系的任务。它与命名实…

Python社群纽带关系谱和图神经

&#x1f3af;要点 图神经网络&#xff1a;&#x1f3af;网络中顶点的潜在表征学习实现&#xff1a;&#x1f58a;创建节点表征&#xff0c;使用连续skip-gram模型 | &#x1f58a;使用节点嵌入算法Node2vec实现&#xff0c;示例&#xff1a;电影筛选推荐系统。&#x1f58a;多…

docker-ubuntu-24.04安装openresty1.21.4.3全过程

拉取最新的ubuntu镜像 docker pull ubuntu:latest 创建启动容器 docker run -it --name 容器名称 -p 8082:8082 镜像id /bin/bash 更换apt-get为阿里云镜像 sed -i sarchive.ubuntu.com//mirrors.aliyun.com/g /etc/apt/sources.list && apt-get update 创建目录…

MLP实现fashion_mnist数据集分类(2)-函数式API构建模型(tensorflow)

使用函数式API构建模型&#xff0c;使得模型可以处理多输入多输出。 1、查看tensorflow版本 import tensorflow as tfprint(Tensorflow Version:{}.format(tf.__version__)) print(tf.config.list_physical_devices())2、fashion_mnist数据集分类模型 2.1 使用Sequential构建…

R语言计算特定列的和(自备)

R语言长款数据转换&#xff08;自备&#xff09;_r语言宽数据转换成长数据-CSDN博客 数据 rm(list ls()) library(ggplot2) library(ggpubr) library(cowplot) data <- iris##鸢尾花数据集 #[1] "Sepal.Length" "Sepal.Width" "Petal.Length&…