贝叶斯分类器(贝叶斯决策论,极大似然估计,朴素贝叶斯分类器,半朴素贝叶斯分类器,贝叶斯网)学习笔记

news/2024/11/6 15:37:08/

贝叶斯分类器(贝叶斯决策论,极大似然估计,朴素贝叶斯分类器,半朴素贝叶斯分类器,贝叶斯网)学习笔记

一、条件概率,全概率公式,贝叶斯公式

在这里插入图片描述
贝叶斯公式

二、贝叶斯决策论

贝叶斯决策论是概率框架下实施决策的基本方法。对分类任务来说,在所有相关概率都已知的理想情况下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。
在这里插入图片描述

(1)基于最小错误率的贝叶斯决策

核心思想:在得到一个属性X后,我们可以通过先验概率P(c)及类条件概率P(x|c),得到在当前属性X时,该样本分属各类别的概率,然后根据后验概率的大小做出决策,把后验概率大的一个作为分类类别
推理过程

  • 证明过程

由于统计判别方法是基于统计参数作出决策,因此错误率也只能从平均的意义上讲,表示为在观测值可能取值的整个范围内错识率的均值。在连续条件下,平均错误率,以P(e)表示,那么P(e)就可以表示为P(e,x)的数学期望,因为这是二分类问题,当做出当P(c2|x)>p(c1|x)时决策为c2。显然这个决策意味着,对属性x有P(c1|x)概率的错误率。同理,当做出当P(c1|x)>p(c2|x)时决策为c1。显然这个决策意味着,对属性x有P(c2|x)概率的错误率。如果我们把作出c1决策的所有观测值区域称为A1,那么在A1区内的每个x值,条件错误概率为p(c2|x)。另一个区A2中的每个x,条件错误概率为p(c1|x)。因此平均错误率P(e)可表示成图中<1>式,由于在A1区内任一个x值都有P(c2|x)<P(c1|x),同样在A2区内任一个x值都有P(c1|x)<P(c2|x)错误率在每个x值处都取小者,因而平均错误率P(e)也必然达到最小,再用条件概率公式变个型,得到<2>式,也就是得到的后验概率。这就证明了按后验概率大小作出的决策,其平均错误率为最小

(2)基于最小风险的贝叶斯决策

在这里插入图片描述
在这里插入图片描述

三、极大似然估计

极大似然估计理论

极大似然估计就是利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值
在实际应用中,我们能获得的数据可能只有有限数目的样本数据,而先验概率P(c)和类条件概率P(C|X)(各类的总体分布)都是未知的。根据仅有的样本数据进行分类时,一种可行的办法是我们需要先对先验概率和类条件概率进行估计,然后再套用贝叶斯分类器。

  • 对于类先验估计

在这里插入图片描述

  • 对于类条件估计

对概率密度函数模型的选择非常重要,在样本区域无穷时,我们会得到较准确的估计值,如果模型都错了,那估计半天的参数,肯定也没啥意义了。
在这里插入图片描述

例子:用极大似然估计法估计西瓜数据集3.0中前3个属性的类条件概率

在这里插入图片描述

四、朴素贝叶斯分类器

(1)朴素贝叶斯理论

朴素贝叶斯是一种生成式模型,由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型,及生成模型
在这里插入图片描述
生成方法的学习收敛速度更快,即当样本容量增加的时候,学到的模型可以更快地收敛于真实模型

不难发现,基于贝叶斯公式来计算后验概率P(c|x)的主要困难在于:因为在计算类条件概率P(x|c)是所有属性上的联合概率,难以从有限的训练样本集直接估计得到,所以朴素贝叶斯就作了一个很“强”的假设—对已知类别,假设所有属性相互独立,就是假设每个属性独立地对分类器结果发生影响
在这里插入图片描述

  • 伯努利模型
    即先验为伯努利分布的朴素贝叶斯,伯努利模型中,每个属性的取值都是布尔型的,即True和False,或者1和0。在文本分类中就是一个属性取值有没有在文档中出现,出现了就为1,没出现就为0,而不考虑出现的频数,在文本里面对应的词集模型
  • 多项式模型
    即先验为多项式分布的朴素贝叶斯,多项式模型中,每个属性的取值是频数,如果一个属性取值在文档中出现不止一次,则应该统计统计其频数,在文本里面对应词袋模型
  • 高斯模型
    即先验为高斯分布的朴素贝叶斯,当属性是连续变量的时候,运用多项式模型就会导致很多条件概率为0,此时即使做平滑,所得到的条件概率也难以描述真实情况,所以在处理连续的属性时,应采用高斯模型。连续变量离散化的过程是:利用样本的属性列计算出均值和方差,然后构造概率密度函数,将其每个样本值代入到概率密度函数中,得到概率值,该概率值可以反应各个值的相对可能性

另外,由朴素贝叶斯分类器的表达式可以看出,朴素贝叶斯分类器的训练过程就是基于训练集D来估计类先验概率P(c),并为每个属性估计条件概率P(xi|c)
在这里插入图片描述

实例1

西瓜数据集3.0分类

对下图这个样本进行分类
在这里插入图片描述
在这里插入图片描述
首先计算先验概率:
在这里插入图片描述
再计算每个属性的类条件概率
对于离散型数据:
在这里插入图片描述
对于连续型数据:
在这里插入图片描述
最后根据类先验概率和类条件概率计算后验概率:
在这里插入图片描述
所以根据后验概率可以判定上图属性样本判别为“好瓜”类

(2)拉普拉斯平滑

拉普拉斯平滑:防止由于某一个类条件概率值为0,导致分类概率为0 的不合理情形
拉普拉斯平滑
条件概率对数化:防止小数相乘出现下溢的情况

实例2

苹果分类

训练集有10个样本,现判断属性大小为大,颜色为青,形状为圆下,是否为好果
在这里插入图片描述
先分别计算类先验概率和类条件概率,其中计算类先验概率时,由于好果只有是和否两种情况,所以分母+2,计算类条件概率时,每个属性的取值情况也恰好为2,所以分母+2,最后计算后验概率,属于一般果的后验概率较大,所以把属性大小为大,颜色为青,形状为圆的样本判别为一般果

实战一 西瓜数据集3.0分类

import numpy as np
from math import exp, sqrt, pidef getDataSet():dataSet = [['青绿', '蜷缩', '浊响', '清晰', '凹陷', '硬滑', 0.697, 0.460, 1],['乌黑', '蜷缩', '沉闷', '清晰', '凹陷', '硬滑', 0.774, 0.376, 1],['乌黑', '蜷缩', '浊响', '清晰', '凹陷', '硬滑', 0.634, 0.264, 1],['青绿', '蜷缩', '沉闷', '清晰', '凹陷', '硬滑', 0.608, 0.318, 1],['浅白', '蜷缩', '浊响', '清晰', '凹陷', '硬滑', 0.556, 0.215, 1],['青绿', '稍蜷', '浊响', '清晰', '稍凹', '软粘', 0.403, 0.237, 1],['乌黑', '稍蜷', '浊响', '稍糊', '稍凹', '软粘', 0.481, 0.149, 1],['乌黑', '稍蜷', '浊响', '清晰', '稍凹', '硬滑', 0.437, 0.211, 1],['乌黑', '稍蜷', '沉闷', '稍糊', '稍凹', '硬滑', 0.666, 0.091, 0],['青绿', '硬挺', '清脆', '清晰', '平坦', '软粘', 0.243, 0.267, 0],['浅白', '硬挺', '清脆', '模糊', '平坦', '硬滑', 0.245, 0.057, 0],['浅白', '蜷缩', '浊响', '模糊', '平坦', '软粘', 0.343, 0.099, 0],['青绿', '稍蜷', '浊响', '稍糊', '凹陷', '硬滑', 0.639, 0.161, 0],['浅白', '稍蜷', '沉闷', '稍糊', '凹陷', '硬滑', 0.657, 0.198, 0],['乌黑', '稍蜷', '浊响', '清晰', '稍凹', '软粘', 0.360, 0.370, 0],['浅白', '蜷缩', '浊响', '模糊', '平坦', '硬滑', 0.593, 0.042, 0],['青绿', '蜷缩', '沉闷', '稍糊', '稍凹', '硬滑', 0.719, 0.103, 0]]features = ['色泽', '根蒂', '敲声', '纹理', '脐部', '触感', '密度', '含糖量']featureDic = {}for i in range(len(features)):featureList = [example[i] for example in dataSet]uniqueFeature = list(set(featureList))featureDic[features[i]] = uniqueFeaturedataSet = np.array(dataSet)return dataSet, features, featureDic              # 返回数据集,特征词,特征元素def countProLap(dataSet, index, value, classLabel, N):        # 拉普拉斯平滑extrData = dataSet[dataSet[:, -1] == classLabel]count = 0for data in extrData:if data[index] == value:count += 1return (count + 1) / (float(len(extrData)) + N)def trainNB0(dataSet, features, featureDic):dict = {}                                          # 求类条件概率for feature in features:index = features.index(feature)dict[feature] = {}if feature != '密度' and feature != '含糖量':featIList = featureDic[feature]for value in featIList:PisCond = countProLap(dataSet, index, value, '1', len(featIList))pNoCond = countProLap(dataSet, index, value, '0', len(featIList))dict[feature][value] = {}dict[feature][value]["是"] = PisConddict[feature][value]["否"] = pNoCondelse:for label in ['1', '0']:dataExtra = dataSet[dataSet[:, -1] == label]extr = dataExtra[:, index].astype("float64")aver = extr.mean()var = extr.var()labelStr = ""if label == '1':labelStr = '是'else:labelStr = '否'dict[feature][labelStr] = {}dict[feature][labelStr]["平均值"] = averdict[feature][labelStr]["方差"] = varlength = len(dataSet)                                 # 求类先验概率classLabels = dataSet[:, -1].tolist()dict["好瓜"] = {}dict["好瓜"]['是'] = (classLabels.count('1') + 1) / (float(length) + 2)dict["好瓜"]['否'] = (classLabels.count('0') + 1) / (float(length) + 2)return dictdef NormDist(mean, var, xi):return exp(-((float(xi) - mean) ** 2) / (2 * var)) / (sqrt(2 * pi * var))def classifyNB(data, features, bayesDis):pGood = bayesDis['好瓜']['是']pBad = bayesDis['好瓜']['否']for feature in features:index = features.index(feature)if feature != '密度' and feature != '含糖量':pGood *= bayesDis[feature][data[index]]['是']pBad *= bayesDis[feature][data[index]]['否']else:pGood *= NormDist(bayesDis[feature]['是']['平均值'], bayesDis[feature]['是']['方差'], data[index])pBad *= NormDist(bayesDis[feature]['否']['平均值'], bayesDis[feature]['否']['方差'], data[index])retClass = ""if pGood > pBad:retClass = "好瓜"else:retClass = "坏瓜"return pGood, pBad, retClassdef test_accuracy(dataSet, features, bayesDis):          # 精确率cnt = 0.0for data in dataSet:_, _, pre = classifyNB(data, features, bayesDis)if (pre == '好瓜' and data[-1] == '1') or (pre == '坏瓜' and data[-1] == '0'):cnt += 1return cnt / float(len(dataSet))def main():dataSet, features, featureDic = getDataSet()dic = trainNB0(dataSet, features,featureDic)for each in dic.items():print(each)p1, p0, pre = classifyNB(dataSet[0], features, dic)print('\n',dataSet[0])print(f"p1 = {p1}")print(f"p0 = {p0}")print(f"pre = {pre}")print("train data set accuracy = ", test_accuracy(dataSet, features, dic))if __name__ == '__main__':main()
('色泽', {'青绿': {'是': 0.36363636363636365, '否': 0.3333333333333333}, '浅白': {'是': 0.18181818181818182, '否': 0.4166666666666667}, '乌黑': {'是': 0.45454545454545453, '否': 0.25}})
('根蒂', {'蜷缩': {'是': 0.5454545454545454, '否': 0.3333333333333333}, '稍蜷': {'是': 0.36363636363636365, '否': 0.4166666666666667}, '硬挺': {'是': 0.09090909090909091, '否': 0.25}})
('敲声', {'浊响': {'是': 0.6363636363636364, '否': 0.4166666666666667}, '沉闷': {'是': 0.2727272727272727, '否': 0.3333333333333333}, '清脆': {'是': 0.09090909090909091, '否': 0.25}})
('纹理', {'模糊': {'是': 0.09090909090909091, '否': 0.3333333333333333}, '清晰': {'是': 0.7272727272727273, '否': 0.25}, '稍糊': {'是': 0.18181818181818182, '否': 0.4166666666666667}})
('脐部', {'稍凹': {'是': 0.36363636363636365, '否': 0.3333333333333333}, '凹陷': {'是': 0.5454545454545454, '否': 0.25}, '平坦': {'是': 0.09090909090909091, '否': 0.4166666666666667}})
('触感', {'硬滑': {'是': 0.7, '否': 0.6363636363636364}, '软粘': {'是': 0.3, '否': 0.36363636363636365}})
('密度', {'是': {'平均值': 0.57375, '方差': 0.014608437499999998}, '否': {'平均值': 0.49611111111111117, '方差': 0.03370254320987655}})
('含糖量', {'是': {'平均值': 0.27875, '方差': 0.008912437500000002}, '否': {'平均值': 0.1542222222222222, '方差': 0.010328617283950618}})
('好瓜', {'是': 0.47368421052631576, '否': 0.5263157894736842})['青绿' '蜷缩' '浊响' '清晰' '凹陷' '硬滑' '0.697' '0.46' '1']
p1 = 0.02180124640594357
p0 = 4.915834021416594e-05
pre = 好瓜
train data set accuracy =  0.8235294117647058

实战二 社区恶意留言分类

import numpy as npdef loadDataSet():                                                                    # 创建实验样本postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],          # 切分的词条['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],['stop', 'posting', 'stupid', 'worthless', 'garbage'],['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]classVec = [0,1,0,1,0,1]                                                          # 类别标签向量,1代表侮辱性词汇,0代表不是return postingList,classVec# 将切分的实验样本词条整理成不重复的词条列表,也就是词汇表,用来将词条向量化
def createVocabList(dataSet):vocabSet = set([])                                    # 创建一个空的不重复集合for document in dataSet:vocabSet = vocabSet | set(document)               # 取并集return list(vocabSet)def setOfWords2Vec(vocabList, inputSet):                  # 根据vocabList词汇表,将inputSet向量化,向量的每个元素为1或0returnVec = [0] * len(vocabList)                      # 创建一个其中所含元素都为0的向量for word in inputSet:                                 # 遍历每个词条if word in vocabList:                             # 如果词条存在于词汇表中,则置1returnVec[vocabList.index(word)] = 1else: print("the word: %s is not in my Vocabulary!" % word)return returnVec                                      # 返回文档向量def trainNB0(trainMatrix,trainCategory):                       # 朴素贝叶斯分类器训练函数numTrainDocs = len(trainMatrix)                            # 计算训练的文档数目numWords = len(trainMatrix[0])                             # 计算每篇文档的词条数pAbusive = sum(trainCategory)/float(numTrainDocs)          # 文档属于侮辱类的概率,相当于先验概率(P(侮辱类))p0Num = np.ones(numWords); p1Num = np.ones(numWords)     # 创建numpy.ones数组,拉普拉斯平滑(如果设置为zeros,那么其中一个概率为0,那么最后乘积也为0)p0Denom = 2.0; p1Denom = 2.0                               # 分母初始化为2for i in range(numTrainDocs):if trainCategory[i] == 1:                     # 统计属于侮辱类的条件概率所需的数据,即P(w0|1),P(w1|1),P(w2|1)···p1Num += trainMatrix[i]p1Denom += sum(trainMatrix[i])else:                                     # 统计属于非侮辱类的条件概率所需的数据,即P(w0|0),P(w1|0),P(w2|0)···p0Num += trainMatrix[i]p0Denom += sum(trainMatrix[i])p0Vect = np.log(p0Num/p0Denom)              # 条件概率对数化,防止下溢出p1Vect = np.log(p1Num/p1Denom)return p0Vect,p1Vect,pAbusive                 # 返回属于非侮辱类的条件概率数组,属于侮辱类的条件概率数组,文档属于侮辱类的概率def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):         # 朴素贝叶斯分类器分类函数p1 = sum(vec2Classify * p1Vec) + np.log(pClass1)             # 对应元素相乘 log(A*B)=log(A)+log(B)p0 = sum(vec2Classify * p0Vec) + np.log(1-pClass1)print('p0:',p0)print('p1:',p1)if p1 > p0:return 1else:return 0def testingNB():listOPosts,listClasses = loadDataSet()									# 创建实验样本myVocabList = createVocabList(listOPosts)								# 创建词汇表trainMat=[]for postinDoc in listOPosts:trainMat.append(setOfWords2Vec(myVocabList, postinDoc))				# 将实验样本向量化p0V,p1V,pAb = trainNB0(np.array(trainMat),np.array(listClasses))		# 训练朴素贝叶斯分类器testEntry = ['love', 'my', 'him','so']									# 测试样本1thisDoc = np.array(setOfWords2Vec(myVocabList, testEntry))				# 测试样本向量化if classifyNB(thisDoc,p0V,p1V,pAb):print(testEntry,'属于侮辱类')										    # 执行分类并打印分类结果else:print(testEntry,'属于非侮辱类')										# 执行分类并打印分类结果testEntry = ['stupid', 'garbage']										# 测试样本2thisDoc = np.array(setOfWords2Vec(myVocabList, testEntry))				# 测试样本向量化if classifyNB(thisDoc,p0V,p1V,pAb):print(testEntry,'属于侮辱类')										    # 执行分类并打印分类结果else:print(testEntry,'属于非侮辱类')										# 执行分类并打印分类结果testEntry = ['I','love','him']                              # 测试样本3thisDoc = np.array(setOfWords2Vec(myVocabList, testEntry))              # 测试样本向量化if classifyNB(thisDoc, p0V, p1V, pAb):print(testEntry, '属于侮辱类')                                        # 执行分类并打印分类结果else:print(testEntry, '属于非侮辱类')                                      # 执行分类并打印分类结果if __name__ == '__main__':testingNB()
p0: -9.854332321737981
p1: -12.178089750893692
['love', 'my', 'him', 'so'] 属于非侮辱类
p0: -7.20934025660291
p1: -4.702750514326955
['stupid', 'garbage'] 属于侮辱类
p0: -7.982530144836391
p1: -9.13356731317027
['I', 'love', 'him'] 属于非侮辱类

实战三 垃圾邮件分类

数据集参考文末链接

import numpy as np
import random
import redef textParse(bigString):                                                   # 将字符串转换为字符列表# 这里使用\W 或者\W+ 都可以将字符数字串分割开,产生的空字符将会在后面的列表推导式中过滤掉listOfTokens = re.split(r'\W+', bigString)                              # 将特殊符号作为切分标志进行字符串切分,即非字母、非数字return [tok.lower() for tok in listOfTokens if len(tok) > 2]            # 除了单个字母,例如大写的I,其它单词变成小写def createVocabList(dataSet):vocabSet = set([])  					                         # 创建一个空的不重复集合for document in dataSet:vocabSet = vocabSet | set(document)                          # 取并集return list(vocabSet)def setOfWords2Vec(vocabList, inputSet):returnVec = [0] * len(vocabList)									# 创建一个其中所含元素都为0的向量for word in inputSet:												# 遍历每个词条if word in vocabList:											# 如果词条存在于词汇表中,则置1returnVec[vocabList.index(word)] = 1else: print("the word: %s is not in my Vocabulary!" % word)return returnVec													# 返回文档向量def bagOfWords2VecMN(vocabList, inputSet):returnVec = [0]*len(vocabList)										# 创建一个其中所含元素都为0的向量for word in inputSet:												# 遍历每个词条if word in vocabList:											# 如果词条存在于词汇表中,则计数加一returnVec[vocabList.index(word)] += 1return returnVecdef trainNB0(trainMatrix,trainCategory):numTrainDocs = len(trainMatrix)                         # 计算训练集的数目numWords = len(trainMatrix[0])							# 计算每封邮件的词条数pAbusive = sum(trainCategory)/float(numTrainDocs)		# 属于垃圾邮件的概率p0Num = np.ones(numWords); p1Num = np.ones(numWords)	# 创建numpy.ones数组,词条出现数初始化为1,拉普拉斯平滑p0Denom = 2.0; p1Denom = 2.0                        	# 分母初始化为2,拉普拉斯平滑for i in range(numTrainDocs):if trainCategory[i] == 1:							# 统计属于垃圾类的条件概率所需的数据,即P(w0|1),P(w1|1),P(w2|1)···p1Num += trainMatrix[i]p1Denom += sum(trainMatrix[i])else:												# 统计属于非垃圾类的条件概率所需的数据,即P(w0|0),P(w1|0),P(w2|0)···p0Num += trainMatrix[i]p0Denom += sum(trainMatrix[i])p0Vect = np.log(p0Num/p0Denom)p1Vect = np.log(p1Num/p1Denom)							# 取对数,防止下溢出return p0Vect,p1Vect,pAbusive							# 返回属于非垃圾类的条件概率数组,属于垃圾类的条件概率数组,邮件属于垃圾类的概率def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):p1 = sum(vec2Classify * p1Vec) + np.log(pClass1)    	# 对应元素相乘。logA * B = logA + logB,所以这里加上log(pClass1)p0 = sum(vec2Classify * p0Vec) + np.log(1.0 - pClass1)if p1 > p0:return 1else:return 0def spamTest():docList = []; classList = []for i in range(1, 26):                                                  # 遍历25个txt文件wordList = textParse(open('spam/%d.txt' % i, 'r').read())     # 读取每个垃圾邮件,并字符串转换成字符串列表docList.append(wordList)classList.append(1)                                                 # 标记垃圾邮件,1表示垃圾文件wordList = textParse(open('ham/%d.txt' % i, 'r').read())      # 读取每个非垃圾邮件,并字符串转换成字符串列表docList.append(wordList)classList.append(0)                                                 # 标记非垃圾邮件,0表示非垃圾文件vocabList = createVocabList(docList)                                 # 创建词汇表,不重复errorrate = 0for i in range(10):                                                         # 迭代10次求平均错误率trainingSet = list(range(50)); testSet = []                             # 创建存储训练集的索引值的列表和测试集的索引值的列表for i in range(10):                                                     # 从50个邮件中,随机挑选出40个作为训练集,10个做测试集randIndex = int(random.uniform(0, len(trainingSet)))                # 随机选取索索引值testSet.append(trainingSet[randIndex])                              # 添加测试集的索引值del(trainingSet[randIndex])                                         # 在训练集列表中删除添加到测试集的索引值trainMat = []; trainClasses = []                                        # 创建训练集矩阵和训练集类别标签系向量for docIndex in trainingSet:                                            # 遍历训练集trainMat.append(setOfWords2Vec(vocabList, docList[docIndex]))       # 将生成的词集模型添加到训练矩阵中trainClasses.append(classList[docIndex])                            # 将类别添加到训练集类别标签系向量中p0V, p1V, pSpam = trainNB0(np.array(trainMat), np.array(trainClasses))  # 训练朴素贝叶斯模型errorCount = 0                                                          # 错误分类计数for docIndex in testSet:                                                # 遍历测试集wordVector = setOfWords2Vec(vocabList, docList[docIndex])           # 测试集的词集模型if classifyNB(np.array(wordVector), p0V, p1V, pSpam) != classList[docIndex]:    # 如果分类错误errorCount += 1                                                 # 错误计数加1print("分类错误的测试集:",docList[docIndex],end=" ")if classList[docIndex]:print(docList[docIndex], '属于正常文件')else:print(docList[docIndex], '属于垃圾文件')elif classifyNB(np.array(wordVector), p0V, p1V, pSpam):print(docList[docIndex], '属于垃圾文件')  # 执行分类并打印分类结果else:print(docList[docIndex], '属于正常文件')print('错误率:%.2f%%' % (float(errorCount) / len(testSet) * 100))errorrate += float(errorCount) / len(testSet) * 100print('10次总的错误率为:%.2f%%' % errorrate)print('平均错误率为:%.2f%%' % (errorrate / 10))if __name__ == '__main__':spamTest()
['peter', 'the', 'hotels', 'are', 'the', 'ones', 'that', 'rent', 'out', 'the', 'tent', 'they', 'are', 'all', 'lined', 'the', 'hotel', 'grounds', 'much', 'for', 'being', 'one', 'with', 'nature', 'more', 'like', 'being', 'one', 'with', 'couple', 'dozen', 'tour', 'groups', 'and', 'nature', 'have', 'about', '100m', 'pictures', 'from', 'that', 'trip', 'can', 'through', 'them', 'and', 'get', 'you', 'jpgs', 'favorite', 'scenic', 'pictures', 'where', 'are', 'you', 'and', 'jocelyn', 'now', 'new', 'york', 'will', 'you', 'come', 'tokyo', 'for', 'chinese', 'new', 'year', 'perhaps', 'see', 'the', 'two', 'you', 'then', 'will', 'thailand', 'for', 'winter', 'holiday', 'see', 'mom', 'take', 'care'] 属于正常文件
['that', 'cold', 'there', 'going', 'retirement', 'party', 'are', 'the', 'leaves', 'changing', 'color'] 属于正常文件
['bargains', 'here', 'buy', 'phentermin', 'buy', 'genuine', 'phentermin', 'low', 'cost', 'visa', 'accepted', '130', '219', '292', '120', '366', '180', '513'] 属于垃圾文件
['percocet', '625', 'withoutprescription', 'tabs', '225', 'percocet', 'narcotic', 'analgesic', 'used', 'treat', 'moderate', 'moderately', 'severepain', 'top', 'quality', 'express', 'shipping', '100', 'safe', 'discreet', 'private', 'buy', 'cheap', 'percocet', 'online'] 属于垃圾文件
['you', 'have', 'everything', 'gain', 'incredib1e', 'gains', 'length', 'inches', 'yourpenis', 'permanantly', 'amazing', 'increase', 'thickness', 'yourpenis', 'betterejacu1ation', 'control', 'experience', 'rock', 'harderecetions', 'explosive', 'intenseorgasns', 'increase', 'volume', 'ofejacu1ate', 'doctor', 'designed', 'and', 'endorsed', '100', 'herbal', '100', 'natural', '100', 'safe', 'the', 'proven', 'naturalpenisenhancement', 'that', 'works', '100', 'moneyback', 'guaranteeed'] 属于垃圾文件
['there', 'was', 'guy', 'the', 'gas', 'station', 'who', 'told', 'that', 'knew', 'mandarin', 'and', 'python', 'could', 'get', 'job', 'with', 'the', 'fbi'] 属于正常文件
['yay', 'you', 'both', 'doing', 'fine', 'working', 'mba', 'design', 'strategy', 'cca', 'top', 'art', 'school', 'new', 'program', 'focusing', 'more', 'right', 'brained', 'creative', 'and', 'strategic', 'approach', 'management', 'the', 'way', 'done', 'today'] 属于正常文件
['percocet', '625', 'withoutprescription', 'tabs', '225', 'percocet', 'narcotic', 'analgesic', 'used', 'treat', 'moderate', 'moderately', 'severepain', 'top', 'quality', 'express', 'shipping', '100', 'safe', 'discreet', 'private', 'buy', 'cheap', 'percocet', 'online'] 属于垃圾文件
['bargains', 'here', 'buy', 'phentermin', 'buy', 'genuine', 'phentermin', 'low', 'cost', 'visa', 'accepted', '130', '219', '292', '120', '366', '180', '513'] 属于垃圾文件
['hydrocodone', 'vicodin', 'brand', 'watson', 'vicodin', '750', '195', '120', '570', 'brand', 'watson', '750', '195', '120', '570', 'brand', 'watson', '325', '199', '120', '588', 'noprescription', 'required', 'free', 'express', 'fedex', 'days', 'delivery', 'for', 'over', '200', 'order', 'major', 'credit', 'cards', 'check'] 属于垃圾文件
错误率:0.00%
['you', 'have', 'everything', 'gain', 'incredib1e', 'gains', 'length', 'inches', 'yourpenis', 'permanantly', 'amazing', 'increase', 'thickness', 'yourpenis', 'betterejacu1ation', 'control', 'experience', 'rock', 'harderecetions', 'explosive', 'intenseorgasns', 'increase', 'volume', 'ofejacu1ate', 'doctor', 'designed', 'and', 'endorsed', '100', 'herbal', '100', 'natural', '100', 'safe'] 属于垃圾文件
['thanks', 'peter', 'definitely', 'check', 'this', 'how', 'your', 'book', 'going', 'heard', 'chapter', 'came', 'and', 'was', 'good', 'shape', 'hope', 'you', 'are', 'doing', 'well', 'cheers', 'troy'] 属于正常文件
['get', 'off', 'online', 'watchesstore', 'discount', 'watches', 'for', 'all', 'famous', 'brands', 'watches', 'arolexbvlgari', 'dior', 'hermes', 'oris', 'cartier', 'and', 'more', 'brands', 'louis', 'vuitton', 'bags', 'wallets', 'gucci', 'bags', 'tiffany', 'jewerly', 'enjoy', 'full', 'year', 'warranty', 'shipment', 'via', 'reputable', 'courier', 'fedex', 'ups', 'dhl', 'and', 'ems', 'speedpost', 'you', 'will', '100', 'recieve', 'your', 'order', 'save', 'off', 'quality', 'watches'] 属于垃圾文件
['arvind', 'thirumalai', 'commented', 'your', 'status', 'arvind', 'wrote', 'you', 'know', 'reply', 'this', 'email', 'comment', 'this', 'status'] 属于正常文件
['there', 'was', 'guy', 'the', 'gas', 'station', 'who', 'told', 'that', 'knew', 'mandarin', 'and', 'python', 'could', 'get', 'job', 'with', 'the', 'fbi'] 属于正常文件
['been', 'working', 'running', 'website', 'using', 'jquery', 'and', 'the', 'jqplot', 'plugin', 'not', 'too', 'far', 'away', 'from', 'having', 'prototype', 'launch', 'you', 'used', 'jqplot', 'right', 'not', 'think', 'you', 'would', 'like'] 属于正常文件
['oem', 'adobe', 'microsoft', 'softwares', 'fast', 'order', 'and', 'download', 'microsoft', 'office', 'professional', 'plus', '2007', '2010', '129', 'microsoft', 'windows', 'ultimate', '119', 'adobe', 'photoshop', 'cs5', 'extended', 'adobe', 'acrobat', 'pro', 'extended', 'windows', 'professional', 'thousand', 'more', 'titles'] 属于垃圾文件
['get', 'off', 'online', 'watchesstore', 'discount', 'watches', 'for', 'all', 'famous', 'brands', 'watches', 'arolexbvlgari', 'dior', 'hermes', 'oris', 'cartier', 'and', 'more', 'brands', 'louis', 'vuitton', 'bags', 'wallets', 'gucci', 'bags', 'tiffany', 'jewerly', 'enjoy', 'full', 'year', 'warranty', 'shipment', 'via', 'reputable', 'courier', 'fedex', 'ups', 'dhl', 'and', 'ems', 'speedpost', 'you', 'will', '100', 'recieve', 'your', 'order'] 属于垃圾文件
['you', 'have', 'everything', 'gain', 'incredib1e', 'gains', 'length', 'inches', 'yourpenis', 'permanantly', 'amazing', 'increase', 'thickness', 'yourpenis', 'betterejacu1ation', 'control', 'experience', 'rock', 'harderecetions', 'explosive', 'intenseorgasns', 'increase', 'volume', 'ofejacu1ate', 'doctor', 'designed', 'and', 'endorsed', '100', 'herbal', '100', 'natural', '100', 'safe', 'the', 'proven', 'naturalpenisenhancement', 'that', 'works', '100', 'moneyback', 'guaranteeed'] 属于垃圾文件
['peter', 'the', 'hotels', 'are', 'the', 'ones', 'that', 'rent', 'out', 'the', 'tent', 'they', 'are', 'all', 'lined', 'the', 'hotel', 'grounds', 'much', 'for', 'being', 'one', 'with', 'nature', 'more', 'like', 'being', 'one', 'with', 'couple', 'dozen', 'tour', 'groups', 'and', 'nature', 'have', 'about', '100m', 'pictures', 'from', 'that', 'trip', 'can', 'through', 'them', 'and', 'get', 'you', 'jpgs', 'favorite', 'scenic', 'pictures', 'where', 'are', 'you', 'and', 'jocelyn', 'now', 'new', 'york', 'will', 'you', 'come', 'tokyo', 'for', 'chinese', 'new', 'year', 'perhaps', 'see', 'the', 'two', 'you', 'then', 'will', 'thailand', 'for', 'winter', 'holiday', 'see', 'mom', 'take', 'care'] 属于正常文件
错误率:0.00%
['this', 'mail', 'was', 'sent', 'from', 'notification', 'only', 'address', 'that', 'cannot', 'accept', 'incoming', 'mail', 'please', 'not', 'reply', 'this', 'message', 'thank', 'you', 'for', 'your', 'online', 'reservation', 'the', 'store', 'you', 'selected', 'has', 'located', 'the', 'item', 'you', 'requested', 'and', 'has', 'placed', 'hold', 'your', 'name', 'please', 'note', 'that', 'all', 'items', 'are', 'held', 'for', 'day', 'please', 'note', 'store', 'prices', 'may', 'differ', 'from', 'those', 'online', 'you', 'have', 'questions', 'need', 'assistance', 'with', 'your', 'reservation', 'please', 'contact', 'the', 'store', 'the', 'phone', 'number', 'listed', 'below', 'you', 'can', 'also', 'access', 'store', 'information', 'such', 'store', 'hours', 'and', 'location', 'the', 'web', 'http', 'www', 'borders', 'com', 'online', 'store', 'storedetailview_98'] 属于正常文件
分类错误的测试集: ['home', 'based', 'business', 'opportunity', 'knocking', 'your', 'door', 'don抰', 'rude', 'and', 'let', 'this', 'chance', 'you', 'can', 'earn', 'great', 'income', 'and', 'find', 'your', 'financial', 'life', 'transformed', 'learn', 'more', 'here', 'your', 'success', 'work', 'from', 'home', 'finder', 'experts'] ['home', 'based', 'business', 'opportunity', 'knocking', 'your', 'door', 'don抰', 'rude', 'and', 'let', 'this', 'chance', 'you', 'can', 'earn', 'great', 'income', 'and', 'find', 'your', 'financial', 'life', 'transformed', 'learn', 'more', 'here', 'your', 'success', 'work', 'from', 'home', 'finder', 'experts'] 属于正常文件
['there', 'was', 'guy', 'the', 'gas', 'station', 'who', 'told', 'that', 'knew', 'mandarin', 'and', 'python', 'could', 'get', 'job', 'with', 'the', 'fbi'] 属于正常文件
['arvind', 'thirumalai', 'commented', 'your', 'status', 'arvind', 'wrote', 'you', 'know', 'reply', 'this', 'email', 'comment', 'this', 'status'] 属于正常文件
['get', 'off', 'online', 'watchesstore', 'discount', 'watches', 'for', 'all', 'famous', 'brands', 'watches', 'arolexbvlgari', 'dior', 'hermes', 'oris', 'cartier', 'and', 'more', 'brands', 'louis', 'vuitton', 'bags', 'wallets', 'gucci', 'bags', 'tiffany', 'jewerly', 'enjoy', 'full', 'year', 'warranty', 'shipment', 'via', 'reputable', 'courier', 'fedex', 'ups', 'dhl', 'and', 'ems', 'speedpost', 'you', 'will', '100', 'recieve', 'your', 'order'] 属于垃圾文件
['linkedin', 'kerry', 'haloney', 'requested', 'add', 'you', 'connection', 'linkedin', 'peter', 'like', 'add', 'you', 'professional', 'network', 'linkedin', 'kerry', 'haloney'] 属于正常文件
['you', 'have', 'everything', 'gain', 'incredib1e', 'gains', 'length', 'inches', 'yourpenis', 'permanantly', 'amazing', 'increase', 'thickness', 'yourpenis', 'betterejacu1ation', 'control', 'experience', 'rock', 'harderecetions', 'explosive', 'intenseorgasns', 'increase', 'volume', 'ofejacu1ate', 'doctor', 'designed', 'and', 'endorsed', '100', 'herbal', '100', 'natural', '100', 'safe'] 属于垃圾文件
['that', 'cold', 'there', 'going', 'retirement', 'party', 'are', 'the', 'leaves', 'changing', 'color'] 属于正常文件
['codeine', '15mg', 'for', '203', 'visa', 'only', 'codeine', 'methylmorphine', 'narcotic', 'opioid', 'pain', 'reliever', 'have', '15mg', '30mg', 'pills', '15mg', 'for', '203', '15mg', 'for', '385', '15mg', 'for', '562', 'visa', 'only'] 属于垃圾文件
['saw', 'this', 'the', 'way', 'the', 'coast', 'thought', 'might', 'like', 'hangzhou', 'huge', 'one', 'day', 'wasn', 'enough', 'but', 'got', 'glimpse', 'went', 'inside', 'the', 'china', 'pavilion', 'expo', 'pretty', 'interesting', 'each', 'province', 'has', 'exhibit'] 属于正常文件
错误率:10.00%
['ordercializviagra', 'online', 'save', '0nline', 'pharmacy', 'noprescription', 'required', 'buy', 'canadian', 'drugs', 'wholesale', 'prices', 'and', 'save', 'fda', 'approved', 'drugs', 'superb', 'quality', 'drugs', 'only', 'accept', 'all', 'major', 'credit', 'cards'] 属于垃圾文件
['thanks', 'peter', 'definitely', 'check', 'this', 'how', 'your', 'book', 'going', 'heard', 'chapter', 'came', 'and', 'was', 'good', 'shape', 'hope', 'you', 'are', 'doing', 'well', 'cheers', 'troy'] 属于正常文件
['peter', 'sure', 'thing', 'sounds', 'good', 'let', 'know', 'what', 'time', 'would', 'good', 'for', 'you', 'will', 'come', 'prepared', 'with', 'some', 'ideas', 'and', 'can', 'from', 'there', 'regards', 'vivek'] 属于正常文件
['scifinance', 'now', 'automatically', 'generates', 'gpu', 'enabled', 'pricing', 'risk', 'model', 'source', 'code', 'that', 'runs', '300x', 'faster', 'than', 'serial', 'code', 'using', 'new', 'nvidia', 'fermi', 'class', 'tesla', 'series', 'gpu', 'scifinance', 'derivatives', 'pricing', 'and', 'risk', 'model', 'development', 'tool', 'that', 'automatically', 'generates', 'and', 'gpu', 'enabled', 'source', 'code', 'from', 'concise', 'high', 'level', 'model', 'specifications', 'parallel', 'computing', 'cuda', 'programming', 'expertise', 'required', 'scifinance', 'automatic', 'gpu', 'enabled', 'monte', 'carlo', 'pricing', 'model', 'source', 'code', 'generation', 'capabilities', 'have', 'been', 'significantly', 'extended', 'the', 'latest', 'release', 'this', 'includes'] 属于正常文件
['been', 'working', 'running', 'website', 'using', 'jquery', 'and', 'the', 'jqplot', 'plugin', 'not', 'too', 'far', 'away', 'from', 'having', 'prototype', 'launch', 'you', 'used', 'jqplot', 'right', 'not', 'think', 'you', 'would', 'like'] 属于正常文件
['bargains', 'here', 'buy', 'phentermin', 'buy', 'genuine', 'phentermin', 'low', 'cost', 'visa', 'accepted', '130', '219', '292', '120', '366', '180', '513'] 属于垃圾文件
['benoit', 'mandelbrot', '1924', '2010', 'benoit', 'mandelbrot', '1924', '2010', 'wilmott', 'team', 'benoit', 'mandelbrot', 'the', 'mathematician', 'the', 'father', 'fractal', 'mathematics', 'and', 'advocate', 'more', 'sophisticated', 'modelling', 'quantitative', 'finance', 'died', '14th', 'october', '2010', 'aged', 'wilmott', 'magazine', 'has', 'often', 'featured', 'mandelbrot', 'his', 'ideas', 'and', 'the', 'work', 'others', 'inspired', 'his', 'fundamental', 'insights', 'you', 'must', 'logged', 'view', 'these', 'articles', 'from', 'past', 'issues', 'wilmott', 'magazine'] 属于正常文件
['saw', 'this', 'the', 'way', 'the', 'coast', 'thought', 'might', 'like', 'hangzhou', 'huge', 'one', 'day', 'wasn', 'enough', 'but', 'got', 'glimpse', 'went', 'inside', 'the', 'china', 'pavilion', 'expo', 'pretty', 'interesting', 'each', 'province', 'has', 'exhibit'] 属于正常文件
['you', 'have', 'everything', 'gain', 'incredib1e', 'gains', 'length', 'inches', 'yourpenis', 'permanantly', 'amazing', 'increase', 'thickness', 'yourpenis', 'betterejacu1ation', 'control', 'experience', 'rock', 'harderecetions', 'explosive', 'intenseorgasns', 'increase', 'volume', 'ofejacu1ate', 'doctor', 'designed', 'and', 'endorsed', '100', 'herbal', '100', 'natural', '100', 'safe', 'the', 'proven', 'naturalpenisenhancement', 'that', 'works', '100', 'moneyback', 'guaranteeed'] 属于垃圾文件
['ryan', 'whybrew', 'commented', 'your', 'status', 'ryan', 'wrote', 'turd', 'ferguson', 'butt', 'horn'] 属于正常文件
错误率:0.00%
['will', 'there', 'the', 'latest'] 属于正常文件
['thought', 'about', 'this', 'and', 'think', 'possible', 'should', 'get', 'another', 'lunch', 'have', 'car', 'now', 'and', 'could', 'come', 'pick', 'you', 'this', 'time', 'does', 'this', 'wednesday', 'work', 'can', 'have', 'signed', 'copy', 'you', 'book'] 属于正常文件
['you', 'have', 'everything', 'gain', 'incredib1e', 'gains', 'length', 'inches', 'yourpenis', 'permanantly', 'amazing', 'increase', 'thickness', 'yourpenis', 'betterejacu1ation', 'control', 'experience', 'rock', 'harderecetions', 'explosive', 'intenseorgasns', 'increase', 'volume', 'ofejacu1ate', 'doctor', 'designed', 'and', 'endorsed', '100', 'herbal', '100', 'natural', '100', 'safe'] 属于垃圾文件
['there', 'was', 'guy', 'the', 'gas', 'station', 'who', 'told', 'that', 'knew', 'mandarin', 'and', 'python', 'could', 'get', 'job', 'with', 'the', 'fbi'] 属于正常文件
['zach', 'hamm', 'commented', 'your', 'status', 'zach', 'wrote', 'doggy', 'style', 'enough', 'said', 'thank', 'you', 'good', 'night'] 属于正常文件
['peter', 'with', 'jose', 'out', 'town', 'you', 'want', 'meet', 'once', 'while', 'keep', 'things', 'going', 'and', 'some', 'interesting', 'stuff', 'let', 'know', 'eugene'] 属于正常文件
['saw', 'this', 'the', 'way', 'the', 'coast', 'thought', 'might', 'like', 'hangzhou', 'huge', 'one', 'day', 'wasn', 'enough', 'but', 'got', 'glimpse', 'went', 'inside', 'the', 'china', 'pavilion', 'expo', 'pretty', 'interesting', 'each', 'province', 'has', 'exhibit'] 属于正常文件
['codeine', '15mg', 'for', '203', 'visa', 'only', 'codeine', 'methylmorphine', 'narcotic', 'opioid', 'pain', 'reliever', 'have', '15mg', '30mg', 'pills', '15mg', 'for', '203', '15mg', 'for', '385', '15mg', 'for', '562', 'visa', 'only'] 属于垃圾文件
['bargains', 'here', 'buy', 'phentermin', 'buy', 'genuine', 'phentermin', 'low', 'cost', 'visa', 'accepted', '130', '219', '292', '120', '366', '180', '513'] 属于垃圾文件
['buyviagra', '25mg', '50mg', '100mg', 'brandviagra', 'femaleviagra', 'from', 'per', 'pill', 'viagranoprescription', 'needed', 'from', 'certified', 'canadian', 'pharmacy', 'buy', 'here', 'accept', 'visa', 'amex', 'check', 'worldwide', 'delivery'] 属于垃圾文件
错误率:0.00%
['thought', 'about', 'this', 'and', 'think', 'possible', 'should', 'get', 'another', 'lunch', 'have', 'car', 'now', 'and', 'could', 'come', 'pick', 'you', 'this', 'time', 'does', 'this', 'wednesday', 'work', 'can', 'have', 'signed', 'copy', 'you', 'book'] 属于正常文件
分类错误的测试集: ['yay', 'you', 'both', 'doing', 'fine', 'working', 'mba', 'design', 'strategy', 'cca', 'top', 'art', 'school', 'new', 'program', 'focusing', 'more', 'right', 'brained', 'creative', 'and', 'strategic', 'approach', 'management', 'the', 'way', 'done', 'today'] ['yay', 'you', 'both', 'doing', 'fine', 'working', 'mba', 'design', 'strategy', 'cca', 'top', 'art', 'school', 'new', 'program', 'focusing', 'more', 'right', 'brained', 'creative', 'and', 'strategic', 'approach', 'management', 'the', 'way', 'done', 'today'] 属于垃圾文件
['peter', 'sure', 'thing', 'sounds', 'good', 'let', 'know', 'what', 'time', 'would', 'good', 'for', 'you', 'will', 'come', 'prepared', 'with', 'some', 'ideas', 'and', 'can', 'from', 'there', 'regards', 'vivek'] 属于正常文件
['linkedin', 'kerry', 'haloney', 'requested', 'add', 'you', 'connection', 'linkedin', 'peter', 'like', 'add', 'you', 'professional', 'network', 'linkedin', 'kerry', 'haloney'] 属于正常文件
['been', 'working', 'running', 'website', 'using', 'jquery', 'and', 'the', 'jqplot', 'plugin', 'not', 'too', 'far', 'away', 'from', 'having', 'prototype', 'launch', 'you', 'used', 'jqplot', 'right', 'not', 'think', 'you', 'would', 'like'] 属于正常文件
['you', 'have', 'everything', 'gain', 'incredib1e', 'gains', 'length', 'inches', 'yourpenis', 'permanantly', 'amazing', 'increase', 'thickness', 'yourpenis', 'betterejacu1ation', 'control', 'experience', 'rock', 'harderecetions', 'explosive', 'intenseorgasns', 'increase', 'volume', 'ofejacu1ate', 'doctor', 'designed', 'and', 'endorsed', '100', 'herbal', '100', 'natural', '100', 'safe', 'the', 'proven', 'naturalpenisenhancement', 'that', 'works', '100', 'moneyback', 'guaranteeed'] 属于垃圾文件
['codeine', '15mg', 'for', '203', 'visa', 'only', 'codeine', 'methylmorphine', 'narcotic', 'opioid', 'pain', 'reliever', 'have', '15mg', '30mg', 'pills', '15mg', 'for', '203', '15mg', 'for', '385', '15mg', 'for', '562', 'visa', 'only'] 属于垃圾文件
分类错误的测试集: ['home', 'based', 'business', 'opportunity', 'knocking', 'your', 'door', 'don抰', 'rude', 'and', 'let', 'this', 'chance', 'you', 'can', 'earn', 'great', 'income', 'and', 'find', 'your', 'financial', 'life', 'transformed', 'learn', 'more', 'here', 'your', 'success', 'work', 'from', 'home', 'finder', 'experts'] ['home', 'based', 'business', 'opportunity', 'knocking', 'your', 'door', 'don抰', 'rude', 'and', 'let', 'this', 'chance', 'you', 'can', 'earn', 'great', 'income', 'and', 'find', 'your', 'financial', 'life', 'transformed', 'learn', 'more', 'here', 'your', 'success', 'work', 'from', 'home', 'finder', 'experts'] 属于正常文件
['hydrocodone', 'vicodin', 'brand', 'watson', 'vicodin', '750', '195', '120', '570', 'brand', 'watson', '750', '195', '120', '570', 'brand', 'watson', '325', '199', '120', '588', 'noprescription', 'required', 'free', 'express', 'fedex', 'days', 'delivery', 'for', 'over', '200', 'order', 'major', 'credit', 'cards', 'check'] 属于垃圾文件
['oem', 'adobe', 'microsoft', 'softwares', 'fast', 'order', 'and', 'download', 'microsoft', 'office', 'professional', 'plus', '2007', '2010', '129', 'microsoft', 'windows', 'ultimate', '119', 'adobe', 'photoshop', 'cs5', 'extended', 'adobe', 'acrobat', 'pro', 'extended', 'windows', 'professional', 'thousand', 'more', 'titles'] 属于垃圾文件
错误率:20.00%
['ryan', 'whybrew', 'commented', 'your', 'status', 'ryan', 'wrote', 'turd', 'ferguson', 'butt', 'horn'] 属于正常文件
['bargains', 'here', 'buy', 'phentermin', 'buy', 'genuine', 'phentermin', 'low', 'cost', 'visa', 'accepted', '130', '219', '292', '120', '366', '180', '513'] 属于垃圾文件
['peter', 'sure', 'thing', 'sounds', 'good', 'let', 'know', 'what', 'time', 'would', 'good', 'for', 'you', 'will', 'come', 'prepared', 'with', 'some', 'ideas', 'and', 'can', 'from', 'there', 'regards', 'vivek'] 属于正常文件
['oem', 'adobe', 'microsoft', 'softwares', 'fast', 'order', 'and', 'download', 'microsoft', 'office', 'professional', 'plus', '2007', '2010', '129', 'microsoft', 'windows', 'ultimate', '119', 'adobe', 'photoshop', 'cs5', 'extended', 'adobe', 'acrobat', 'pro', 'extended', 'windows', 'professional', 'thousand', 'more', 'titles'] 属于垃圾文件
['you', 'have', 'everything', 'gain', 'incredib1e', 'gains', 'length', 'inches', 'yourpenis', 'permanantly', 'amazing', 'increase', 'thickness', 'yourpenis', 'betterejacu1ation', 'control', 'experience', 'rock', 'harderecetions', 'explosive', 'intenseorgasns', 'increase', 'volume', 'ofejacu1ate', 'doctor', 'designed', 'and', 'endorsed', '100', 'herbal', '100', 'natural', '100', 'safe'] 属于垃圾文件
['buyviagra', '25mg', '50mg', '100mg', 'brandviagra', 'femaleviagra', 'from', 'per', 'pill', 'viagranoprescription', 'needed', 'from', 'certified', 'canadian', 'pharmacy', 'buy', 'here', 'accept', 'visa', 'amex', 'check', 'worldwide', 'delivery'] 属于垃圾文件
['codeine', '15mg', 'for', '203', 'visa', 'only', 'codeine', 'methylmorphine', 'narcotic', 'opioid', 'pain', 'reliever', 'have', '15mg', '30mg', 'pills', '15mg', 'for', '203', '15mg', 'for', '385', '15mg', 'for', '562', 'visa', 'only'] 属于垃圾文件
['buy', 'ambiem', 'zolpidem', '5mg', '10mg', 'pill', 'pills', '129', 'pills', '199', '180', 'pills', '430', 'pills', '138', '120', 'pills', '322'] 属于垃圾文件
['ordercializviagra', 'online', 'save', '0nline', 'pharmacy', 'noprescription', 'required', 'buy', 'canadian', 'drugs', 'wholesale', 'prices', 'and', 'save', 'fda', 'approved', 'drugs', 'superb', 'quality', 'drugs', 'only', 'accept', 'all', 'major', 'credit', 'cards'] 属于垃圾文件
['peter', 'these', 'are', 'the', 'only', 'good', 'scenic', 'ones', 'and', 'too', 'bad', 'there', 'was', 'girl', 'back', 'one', 'them', 'just', 'try', 'enjoy', 'the', 'blue', 'sky'] 属于正常文件
错误率:0.00%
['codeine', 'the', 'most', 'competitive', 'price', 'net', 'codeine', 'wilson', '30mg', '156', 'codeine', 'wilson', '30mg', '291', 'freeviagra', 'pills', 'codeine', 'wilson', '30mg', '396', 'freeviagra', 'pills', 'codeine', 'wilson', '30mg', '120', '492', 'freeviagra', 'pills'] 属于垃圾文件
分类错误的测试集: ['home', 'based', 'business', 'opportunity', 'knocking', 'your', 'door', 'don抰', 'rude', 'and', 'let', 'this', 'chance', 'you', 'can', 'earn', 'great', 'income', 'and', 'find', 'your', 'financial', 'life', 'transformed', 'learn', 'more', 'here', 'your', 'success', 'work', 'from', 'home', 'finder', 'experts'] ['home', 'based', 'business', 'opportunity', 'knocking', 'your', 'door', 'don抰', 'rude', 'and', 'let', 'this', 'chance', 'you', 'can', 'earn', 'great', 'income', 'and', 'find', 'your', 'financial', 'life', 'transformed', 'learn', 'more', 'here', 'your', 'success', 'work', 'from', 'home', 'finder', 'experts'] 属于正常文件
['scifinance', 'now', 'automatically', 'generates', 'gpu', 'enabled', 'pricing', 'risk', 'model', 'source', 'code', 'that', 'runs', '300x', 'faster', 'than', 'serial', 'code', 'using', 'new', 'nvidia', 'fermi', 'class', 'tesla', 'series', 'gpu', 'scifinance', 'derivatives', 'pricing', 'and', 'risk', 'model', 'development', 'tool', 'that', 'automatically', 'generates', 'and', 'gpu', 'enabled', 'source', 'code', 'from', 'concise', 'high', 'level', 'model', 'specifications', 'parallel', 'computing', 'cuda', 'programming', 'expertise', 'required', 'scifinance', 'automatic', 'gpu', 'enabled', 'monte', 'carlo', 'pricing', 'model', 'source', 'code', 'generation', 'capabilities', 'have', 'been', 'significantly', 'extended', 'the', 'latest', 'release', 'this', 'includes'] 属于正常文件
['peter', 'sure', 'thing', 'sounds', 'good', 'let', 'know', 'what', 'time', 'would', 'good', 'for', 'you', 'will', 'come', 'prepared', 'with', 'some', 'ideas', 'and', 'can', 'from', 'there', 'regards', 'vivek'] 属于正常文件
['ryan', 'whybrew', 'commented', 'your', 'status', 'ryan', 'wrote', 'turd', 'ferguson', 'butt', 'horn'] 属于正常文件
['there', 'was', 'guy', 'the', 'gas', 'station', 'who', 'told', 'that', 'knew', 'mandarin', 'and', 'python', 'could', 'get', 'job', 'with', 'the', 'fbi'] 属于正常文件
['thought', 'about', 'this', 'and', 'think', 'possible', 'should', 'get', 'another', 'lunch', 'have', 'car', 'now', 'and', 'could', 'come', 'pick', 'you', 'this', 'time', 'does', 'this', 'wednesday', 'work', 'can', 'have', 'signed', 'copy', 'you', 'book'] 属于正常文件
['peter', 'these', 'are', 'the', 'only', 'good', 'scenic', 'ones', 'and', 'too', 'bad', 'there', 'was', 'girl', 'back', 'one', 'them', 'just', 'try', 'enjoy', 'the', 'blue', 'sky'] 属于正常文件
['that', 'cold', 'there', 'going', 'retirement', 'party', 'are', 'the', 'leaves', 'changing', 'color'] 属于正常文件
['percocet', '625', 'withoutprescription', 'tabs', '225', 'percocet', 'narcotic', 'analgesic', 'used', 'treat', 'moderate', 'moderately', 'severepain', 'top', 'quality', 'express', 'shipping', '100', 'safe', 'discreet', 'private', 'buy', 'cheap', 'percocet', 'online'] 属于垃圾文件
错误率:10.00%
['what', 'going', 'there', 'talked', 'john', 'email', 'talked', 'about', 'some', 'computer', 'stuff', 'that', 'went', 'bike', 'riding', 'the', 'rain', 'was', 'not', 'that', 'cold', 'went', 'the', 'museum', 'yesterday', 'was', 'get', 'and', 'they', 'had', 'free', 'food', 'the', 'same', 'time', 'was', 'giants', 'game', 'when', 'got', 'done', 'had', 'take', 'the', 'train', 'with', 'all', 'the', 'giants', 'fans', 'they', 'are', 'drunk'] 属于正常文件
分类错误的测试集: ['yay', 'you', 'both', 'doing', 'fine', 'working', 'mba', 'design', 'strategy', 'cca', 'top', 'art', 'school', 'new', 'program', 'focusing', 'more', 'right', 'brained', 'creative', 'and', 'strategic', 'approach', 'management', 'the', 'way', 'done', 'today'] ['yay', 'you', 'both', 'doing', 'fine', 'working', 'mba', 'design', 'strategy', 'cca', 'top', 'art', 'school', 'new', 'program', 'focusing', 'more', 'right', 'brained', 'creative', 'and', 'strategic', 'approach', 'management', 'the', 'way', 'done', 'today'] 属于垃圾文件
['you', 'have', 'everything', 'gain', 'incredib1e', 'gains', 'length', 'inches', 'yourpenis', 'permanantly', 'amazing', 'increase', 'thickness', 'yourpenis', 'betterejacu1ation', 'control', 'experience', 'rock', 'harderecetions', 'explosive', 'intenseorgasns', 'increase', 'volume', 'ofejacu1ate', 'doctor', 'designed', 'and', 'endorsed', '100', 'herbal', '100', 'natural', '100', 'safe'] 属于垃圾文件
['you', 'have', 'everything', 'gain', 'incredib1e', 'gains', 'length', 'inches', 'yourpenis', 'permanantly', 'amazing', 'increase', 'thickness', 'yourpenis', 'betterejacu1ation', 'control', 'experience', 'rock', 'harderecetions', 'explosive', 'intenseorgasns', 'increase', 'volume', 'ofejacu1ate', 'doctor', 'designed', 'and', 'endorsed', '100', 'herbal', '100', 'natural', '100', 'safe'] 属于垃圾文件
['arvind', 'thirumalai', 'commented', 'your', 'status', 'arvind', 'wrote', 'you', 'know', 'reply', 'this', 'email', 'comment', 'this', 'status'] 属于正常文件
['you', 'have', 'everything', 'gain', 'incredib1e', 'gains', 'length', 'inches', 'yourpenis', 'permanantly', 'amazing', 'increase', 'thickness', 'yourpenis', 'betterejacu1ation', 'control', 'experience', 'rock', 'harderecetions', 'explosive', 'intenseorgasns', 'increase', 'volume', 'ofejacu1ate', 'doctor', 'designed', 'and', 'endorsed', '100', 'herbal', '100', 'natural', '100', 'safe', 'the', 'proven', 'naturalpenisenhancement', 'that', 'works', '100', 'moneyback', 'guaranteeed'] 属于垃圾文件
['ordercializviagra', 'online', 'save', '0nline', 'pharmacy', 'noprescription', 'required', 'buy', 'canadian', 'drugs', 'wholesale', 'prices', 'and', 'save', 'fda', 'approved', 'drugs', 'superb', 'quality', 'drugs', 'only', 'accept', 'all', 'major', 'credit', 'cards'] 属于垃圾文件
['you', 'have', 'everything', 'gain', 'incredib1e', 'gains', 'length', 'inches', 'yourpenis', 'permanantly', 'amazing', 'increase', 'thickness', 'yourpenis', 'betterejacu1ation', 'control', 'experience', 'rock', 'harderecetions', 'explosive', 'intenseorgasns', 'increase', 'volume', 'ofejacu1ate', 'doctor', 'designed', 'and', 'endorsed', '100', 'herbal', '100', 'natural', '100', 'safe', 'the', 'proven', 'naturalpenisenhancement', 'that', 'works', '100', 'moneyback', 'guaranteeed'] 属于垃圾文件
['get', 'off', 'online', 'watchesstore', 'discount', 'watches', 'for', 'all', 'famous', 'brands', 'watches', 'arolexbvlgari', 'dior', 'hermes', 'oris', 'cartier', 'and', 'more', 'brands', 'louis', 'vuitton', 'bags', 'wallets', 'gucci', 'bags', 'tiffany', 'jewerly', 'enjoy', 'full', 'year', 'warranty', 'shipment', 'via', 'reputable', 'courier', 'fedex', 'ups', 'dhl', 'and', 'ems', 'speedpost', 'you', 'will', '100', 'recieve', 'your', 'order'] 属于垃圾文件
['get', 'off', 'online', 'watchesstore', 'discount', 'watches', 'for', 'all', 'famous', 'brands', 'watches', 'arolexbvlgari', 'dior', 'hermes', 'oris', 'cartier', 'and', 'more', 'brands', 'louis', 'vuitton', 'bags', 'wallets', 'gucci', 'bags', 'tiffany', 'jewerly', 'enjoy', 'full', 'year', 'warranty', 'shipment', 'via', 'reputable', 'courier', 'fedex', 'ups', 'dhl', 'and', 'ems', 'speedpost', 'you', 'will', '100', 'recieve', 'your', 'order'] 属于垃圾文件
错误率:10.00%
['peter', 'the', 'hotels', 'are', 'the', 'ones', 'that', 'rent', 'out', 'the', 'tent', 'they', 'are', 'all', 'lined', 'the', 'hotel', 'grounds', 'much', 'for', 'being', 'one', 'with', 'nature', 'more', 'like', 'being', 'one', 'with', 'couple', 'dozen', 'tour', 'groups', 'and', 'nature', 'have', 'about', '100m', 'pictures', 'from', 'that', 'trip', 'can', 'through', 'them', 'and', 'get', 'you', 'jpgs', 'favorite', 'scenic', 'pictures', 'where', 'are', 'you', 'and', 'jocelyn', 'now', 'new', 'york', 'will', 'you', 'come', 'tokyo', 'for', 'chinese', 'new', 'year', 'perhaps', 'see', 'the', 'two', 'you', 'then', 'will', 'thailand', 'for', 'winter', 'holiday', 'see', 'mom', 'take', 'care'] 属于正常文件
['ryan', 'whybrew', 'commented', 'your', 'status', 'ryan', 'wrote', 'turd', 'ferguson', 'butt', 'horn'] 属于正常文件
['ordercializviagra', 'online', 'save', '0nline', 'pharmacy', 'noprescription', 'required', 'buy', 'canadian', 'drugs', 'wholesale', 'prices', 'and', 'save', 'fda', 'approved', 'drugs', 'superb', 'quality', 'drugs', 'only', 'accept', 'all', 'major', 'credit', 'cards', 'order', 'today', 'from'] 属于垃圾文件
['get', 'off', 'online', 'watchesstore', 'discount', 'watches', 'for', 'all', 'famous', 'brands', 'watches', 'arolexbvlgari', 'dior', 'hermes', 'oris', 'cartier', 'and', 'more', 'brands', 'louis', 'vuitton', 'bags', 'wallets', 'gucci', 'bags', 'tiffany', 'jewerly', 'enjoy', 'full', 'year', 'warranty', 'shipment', 'via', 'reputable', 'courier', 'fedex', 'ups', 'dhl', 'and', 'ems', 'speedpost', 'you', 'will', '100', 'recieve', 'your', 'order'] 属于垃圾文件
['you', 'have', 'everything', 'gain', 'incredib1e', 'gains', 'length', 'inches', 'yourpenis', 'permanantly', 'amazing', 'increase', 'thickness', 'yourpenis', 'betterejacu1ation', 'control', 'experience', 'rock', 'harderecetions', 'explosive', 'intenseorgasns', 'increase', 'volume', 'ofejacu1ate', 'doctor', 'designed', 'and', 'endorsed', '100', 'herbal', '100', 'natural', '100', 'safe'] 属于垃圾文件
['thanks', 'peter', 'definitely', 'check', 'this', 'how', 'your', 'book', 'going', 'heard', 'chapter', 'came', 'and', 'was', 'good', 'shape', 'hope', 'you', 'are', 'doing', 'well', 'cheers', 'troy'] 属于正常文件
['get', 'off', 'online', 'watchesstore', 'discount', 'watches', 'for', 'all', 'famous', 'brands', 'watches', 'arolexbvlgari', 'dior', 'hermes', 'oris', 'cartier', 'and', 'more', 'brands', 'louis', 'vuitton', 'bags', 'wallets', 'gucci', 'bags', 'tiffany', 'jewerly', 'enjoy', 'full', 'year', 'warranty', 'shipment', 'via', 'reputable', 'courier', 'fedex', 'ups', 'dhl', 'and', 'ems', 'speedpost', 'you', 'will', '100', 'recieve', 'your', 'order', 'save', 'off', 'quality', 'watches'] 属于垃圾文件
['yay', 'you', 'both', 'doing', 'fine', 'working', 'mba', 'design', 'strategy', 'cca', 'top', 'art', 'school', 'new', 'program', 'focusing', 'more', 'right', 'brained', 'creative', 'and', 'strategic', 'approach', 'management', 'the', 'way', 'done', 'today'] 属于正常文件
['there', 'was', 'guy', 'the', 'gas', 'station', 'who', 'told', 'that', 'knew', 'mandarin', 'and', 'python', 'could', 'get', 'job', 'with', 'the', 'fbi'] 属于正常文件
['hommies', 'just', 'got', 'phone', 'call', 'from', 'the', 'roofer', 'they', 'will', 'come', 'and', 'spaying', 'the', 'foaming', 'today', 'will', 'dusty', 'pls', 'close', 'all', 'the', 'doors', 'and', 'windows', 'could', 'you', 'help', 'close', 'bathroom', 'window', 'cat', 'window', 'and', 'the', 'sliding', 'door', 'behind', 'the', 'don', 'know', 'how', 'can', 'those', 'cats', 'survive', 'sorry', 'for', 'any', 'inconvenience'] 属于正常文件
错误率:0.00%
10次总的错误率为:50.00%
平均错误率为:5.00%

实战四 新闻分类

数据集参考文末链接

from sklearn.naive_bayes import MultinomialNB
import matplotlib.pyplot as plt
import os
import random
import jiebadef TextProcessing(folder_path, test_size=0.2):folder_list = os.listdir(folder_path)                  # 查看folder_path下的文件data_list = []  # 数据集数据class_list = []  # 数据集类别# 遍历每个子文件夹for folder in folder_list:new_folder_path = os.path.join(folder_path, folder)    # 根据子文件夹,生成新的路径files = os.listdir(new_folder_path)                    # 存放子文件夹下的txt文件的列表j = 1for file in files:   # 遍历每个txt文件if j > 100:      # 每类txt样本数最多100个breakwith open(os.path.join(new_folder_path, file), 'r', encoding='utf-8') as f:    # 打开txt文件raw = f.read()word_cut = jieba.cut(raw, cut_all=False)      # 精简模式,返回一个可迭代的generatorword_list = list(word_cut)                    # generator转换为listdata_list.append(word_list)             # 添加数据集数据class_list.append(folder)               # 添加数据集类别j += 1data_class_list = list(zip(data_list, class_list))   # zip压缩合并,将数据与标签对应压缩random.shuffle(data_class_list)                   # 将data_class_list乱序index = int(len(data_class_list) * test_size) + 1  # 训练集和测试集切分的索引值train_list = data_class_list[index:]        # 训练集test_list = data_class_list[:index]           # 测试集train_data_list, train_class_list = zip(*train_list)    # 训练集解压缩test_data_list, test_class_list = zip(*test_list)     # 测试集解压缩all_words_dict = {}                # 统计训练集词频,建立一个空字典,键值对for word_list in train_data_list:     # 遍历每个列表for word in word_list:              # 遍历每个单词if word in all_words_dict.keys():all_words_dict[word] += 1else:all_words_dict[word] = 1# 根据键的值倒序排序all_words_tuple_list = sorted(all_words_dict.items(), key=lambda f: f[1], reverse=True)   # sorted返回的是一个新的列表all_words_list, all_words_nums = zip(*all_words_tuple_list)  # 解压缩all_words_list = list(all_words_list)  # 转换成列表return all_words_list, train_data_list, test_data_list, train_class_list, test_class_list   # 训练词汇表,训练集,测试集,训练标签,测试标签def MakeWordsSet(words_file):words_set = set()      # 创建set集合with open(words_file, 'r', encoding='utf-8') as f:  # 打开文件for line in f.readlines():  # 一行一行读取word = line.strip()  # 去回车if len(word) > 0:  # 有文本,则添加到words_set中words_set.add(word)return words_set  # 返回处理结果def words_dict(all_words_list, deleteN, stopwords_set):feature_words = []  # 特征列表n = 1for t in range(deleteN, len(all_words_list), 1):if n > 1000:  # feature_words的维度为1000break# 如果这个词不是数字,并且不是指定的结束语,并且单词长度大于1小于5,那么这个词就可以作为特征词if not all_words_list[t].isdigit() and all_words_list[t] not in stopwords_set and 1 < len(all_words_list[t]) < 5:feature_words.append(all_words_list[t])n += 1return feature_words# 根据feature_words将文本向量化
def TextFeatures(train_data_list, test_data_list, feature_words):def text_features(text, feature_words):  # 出现在特征集中,则置1text_words = set(text)                     # 首先对text去重,没有重复的值,作为词汇表features = [1 if word in text_words else 0 for word in feature_words]return featurestrain_feature_list = [text_features(text, feature_words) for text in train_data_list]test_feature_list = [text_features(text, feature_words) for text in test_data_list]return train_feature_list, test_feature_list  # 训练集,测试集向量化# 新闻分类器
def TextClassifier(train_feature_list, test_feature_list, train_class_list, test_class_list):classifier = MultinomialNB().fit(train_feature_list, train_class_list)test_accuracy = classifier.score(test_feature_list, test_class_list)return test_accuracyif __name__ == '__main__':# 文本预处理folder_path = './SogouC/Sample'  # 训练集存放地址all_words_list, train_data_list, test_data_list, train_class_list, test_class_list = TextProcessing(folder_path)# 生成stopwords_setstopwords_file = './stopwords_cn.txt'stopwords_set = MakeWordsSet(stopwords_file)test_accuracy_list = []'''deleteNs = range(0, 1000, 20)  # 0 20 40 60 ... 980for deleteN in deleteNs:feature_words = words_dict(all_words_list, deleteN, stopwords_set)train_feature_list, test_feature_list = TextFeatures(train_data_list, test_data_list, feature_words)test_accuracy = TextClassifier(train_feature_list, test_feature_list, train_class_list, test_class_list)test_accuracy_list.append(test_accuracy)plt.figure()plt.plot(deleteNs, test_accuracy_list)plt.title('Relationship of deleteNs and test_accuracy')plt.xlabel('deleteNs')plt.ylabel('test_accuracy')plt.show()'''feature_words = words_dict(all_words_list, 450, stopwords_set)train_feature_list, test_feature_list = TextFeatures(train_data_list, test_data_list, feature_words)test_accuracy = TextClassifier(train_feature_list, test_feature_list, train_class_list, test_class_list)test_accuracy_list.append(test_accuracy)ave = lambda c: sum(c) / len(c)print(ave(test_accuracy_list))clt = MultinomialNB()clt.fit(train_feature_list, train_class_list)final_class_list = list(zip(test_data_list, clt.predict(test_feature_list)))  # zip压缩合并,将测试数据与标签对应压缩for each in final_class_list:print(each)
0.5789473684210527
(['\u3000', '\u3000', '20', '位', '网友', '领到', '免费', '回家', '机票', '\n', '\u3000', '\u3000', '自从', 'Qunar', '与', '搜狐', '、', '天益游', '网站', '合办', '“', '夺宝奇兵', '”', '的', '活动', '以来', ',', '已经', '有', '好多', '人中', '得', '免费', '机票', ',', '其中', '有', '二十位', '已经', '定', '好', '回家', '的', '机票', ',', '时间', '就', '在', '临近', '春节', '之前', '。', '为了', '让', '大家', '能够', '轻松愉快', '的', '领到', '机票', ',', 'Qunar', '和', '天益游', '决定', '把', '领票', '地点', '放在', '咖啡店', ',', '让', '大家', '既', '可', '领到', '免费', '机票', ',', '又', '可以', '享受', '到', '咖啡', '的', '浓香', ',', '让', '活动', '至始', '至', '终有', '个', '完美', '的', '诠释', '。', '\n', '\u3000', '\u3000', '上周五', '晚上', '六点', '多', '钟', ',', '中奖人', '陆陆续续', '来到', '领奖', '现场', ',', '在', 'Qunar', '几个', '工作人员', '的', '组织', '下', ',', '由', '去', '哪儿', '旅游', '搜索引擎', '合伙人', '庄臣', '超', '和', '天益游', '总经理', '谭', '治国', '把', '机票', '发到', '每位', '中奖人', '手中', '。', '先来', '的', '惊诧', ',', '后来', '的', '惊讶', ',', '大家', '都', '没想到', '有', '这么', '多中', '得', '大奖', '的', '人', '可以', '拿到', '年前', '的', '免费', '机票', '。', '其中', '有', '好几位', '家离', '北京', '都', '很', '远', ',', '家', '在', '贵阳', '、', '兰州', '、', '重庆', '、', '广州', '的', '都', '有', ',', '每次', '都', '挺', '害怕', '过年', ',', '而', '今年', '他们', '不再', '为此', '而', '担心', '了', '。', '当', '大家', '听到', '还有', '到', '机场', '的', '免费', '接送', '时', ',', '不由得', '发出', '欢乐', '的', '笑声', '。', '\n', '\u3000', '\u3000', '活动', '很快', '结束', '了', ',', '大家', '留下', '合影', ',', '也', '回去', '了', '。', '对', '某些', '人', '来说', '这', '一刻', '已经', '在', '记忆', '中', '消失', ',', '而', '对于', '某些', '人', '来说', ',', '这', '一刻', '刻骨铭心', '!'], 'C000022')
(['\u3000', '\u3000', '关键字', ':', '裁员', '\u3000', '美国在线', '\u3000', '呼叫', '中心', '\n', '\u3000', '\u3000', '标题', ':', '美国在线', '计划', '裁员', '1300', '人', '占', '全球', '员工', '总数', '7%', '\n', '\u3000', '\u3000', '时间', ':', '美国', '东部', '时间', '5', '月', '9', '日', '上午', '10', '时', '30', '分', '消息', '\n', '\u3000', '\u3000', '来源', ':', '英文', '雅虎', '\n', '\u3000', '\u3000', '内容摘要', ':', '美国在线', '计划', '裁员', '1300', '人', ',', '约', '占', '其', '全球', '员工', '总数', '的', '7%', ',', '位于', '费罗', '里', '达州', '杰克逊', '维尔', '呼叫', '中心', '将', '被', '关闭', ',', '此外', ',', '位于', '犹他州', '奥格登', '美国', '亚利桑那州', '图森', '的', '呼叫', '中心', '也', '被', '列入', '此次', '裁员', '的', '范围', '。', '这', '是', '自', '去年', '秋天', '美国在线', '裁员', '700', '人', '以来', '最', '大规模', '的', '一次', '人员', '精简', '行动', '。', '去年', '10', '月份', ',', '面对', '拨号上网', '用户数量', '持续', '下跌', ',', '美国在线', '关闭', '奥兰多', '的', '呼叫', '中心', ',', '位于', '杰克逊', '维尔和', '总部', '杜勒斯', '的', '呼叫', '中心', '有', '部分', '职位', '被', '削减', ',', '总共', '裁员', '700', '人', ',', '约', '占', '其', '全球', '员工', '总数', '的', '4%', ',', '尽管', '美国在线', '的', '用户', '流失', '现象', '严重', ',', '但', '该', '公司', '的', '发言人', '尼古拉斯', '-', '格', '拉汉姆', '将', '这', '一', '结果', '归咎于', '用户', '对', '电脑', '的', '日益', '了解', '以及', '更', '多', '工具', '的', '出现', ',', '他', '表示', ':', '“', '与', '1996', '年', '美国在线', '建立', '会员中心', '相比', ',', '2006', '年', '的', '英特网', '世界', '是', '一个', '完全', '不同', '的', '世界', ',', '美国在线', '的', '会员', '们', '头脑', '更加', '灵活', ',', '具备', '更加', '丰富', '的', '电脑知识', ',', '他们', '几乎', '都', '是', '电脑', '通', ',', '一般', '的', '故障', '都', '能', '自己', '排除', ',', '呼叫', '中心', '的', '功能', '日趋', '减弱', '。', '”', '一项', '数据', '显示', ',', '自', '2004', '年', '以来', ',', '美国在线', '的', '呼叫', '量', '下降', '了', '近一半', '。', '\n', '\u3000', '\u3000', '关键字', ':', '手机', '销售', '\u3000', '排名', '\u3000', '瑞典', '\n', '\u3000', '\u3000', '标题', ':', '4', '月份', 'Telia', '商店', '手机', '销售', '排名', '前', '10', '位', '\n', '\u3000', '\u3000', '时间', ':', '美国', '东部', '时间', '5', '月', '9', '日', '上午', '11', '时', '35', '分', '消息', '\n', '\u3000', '\u3000', '来源', ':', '法新社', '\n', '\u3000', '\u3000', '内容摘要', ':', '瑞典', '最大', '的', '通信', '产品', '零售店', 'Telia', '今天', '公布', '2006', '年', '4', '月份', '手机', '销售', '排行榜', ',', '进入', '销售', '前十', '的', '手机', '中索', '爱', '占', '5', '款', ',', '诺基亚', '占', '3', '款', ',', '三星', '占', '2', '款', ',', '其中', '有', '两款', '是', '3G', '手机', '(', '诺基亚', '6280', '和', '三星', 'Z140', ')', ',', '六款', '有', '照相', '功能', ',', '六款', '有', 'MP3', '播放', '功能', ',', '具体', '的', '排名', '为', ':', '排名', '前', '十位', '的', '手机', '为', ':', '(', '1', ')', '索爱', 'K750i', '(', '上', '月', '排名', '第四', ')', '、', '(', '2', ')', '诺基亚', '3120', '(', '上', '月', '排名', '第三', ')', '、', '(', '3', ')', '诺基亚', '5140i', '(', '上', '月', '排名', '第一', ')', '、', '(', '4', ')', '索爱', 'Z300i', '(', '上', '月', '排名', '第五', ')', '、', '(', '5', ')', '诺基亚', '6280', '(', '与', '上', '月', '的', '排名', '一致', ')', '、', '(', '6', ')', '索爱', 'W810i', '(', '与', '上', '月', '的', '排名', '一致', ')', '、', '(', '7', ')', '三星', 'X660', '(', '与', '上', '月', '的', '排名', '一致', ')', '、', '(', '8', ')', '索爱', 'Z520i', '(', '上', '月', '排名', '第二', ')', '、', '(', '9', ')', '索爱', 'W800i', '(', '上', '月', '排名', '第六', ')', '、', '(', '10', ')', '三星', 'Z140', '(', '上', '月', '排名', '第九', ')', '。', 'Telia', '是', '瑞典', '最大', '的', '移动电话', '零售店', ',', '拥有', '78', '个', '商店', ',', '该', '排名', '就是', '依据', '各', '商店', '的', '销售', '数据', '得出', '的', '结果', ',', 'Telia', '市场部', '的', '负责人', '指出', ',', '“', '照相', '以及', 'MP3', '播放', '功能', '已经', '成为', '许多', '客户', '对', '手机', '的', '基本', '要求', ',', '手机用户', '对于', '移动', '电视', '的', '需求', '也', '在', '不断', '增加', '。', '”', '\n', '\u3000', '\u3000', '关键字', ':', '业内', '合作', '\u3000', '下载', '\u3000', '电视', '连续剧', '\n', '\u3000', '\u3000', '标题', ':', '苹果公司', '提供', '福克斯', '娱乐', '集团', '出品', '的', '电视', '连续剧', '的', '下载', '\n', '\u3000', '\u3000', '时间', ':', '美国', '东部', '时间', '5', '月', '9', '日', '上午', '11', '时', '20', '分', '消息', '\n', '\u3000', '\u3000', '来源', ':', '英文', '雅虎', '\n', '\u3000', '\u3000', '内容摘要', ':', '苹果公司', '日前', '宣布', ',', 'iTunes', '音乐', '商店', '(', 'Music', ' ', 'Store', ')', '已经', '开始', '销售', '福克斯', '娱乐', '集团', '出品', '的', '电视', '连续剧', ',', '例如', '此前', '风靡', '全球', '的', '《', '24', '》', '。', '苹果公司', '介绍', '称', ',', '每部', '电视', '连续剧', '的', '下载', '费用', '为', '1.99', '美元', ',', '除了', '《', '24', '》', '之外', ',', '《', '盾牌', '》', '、', '《', '越狱', '》', '、', '《', '吸血鬼', '猎人', '巴菲', '》', '也', '在', '下载', '之', '列', '。', '此前', ',', 'iTunes', '音乐', '商店', '提供', '来自', 'ABC', '、', 'CBS', '以及', 'NBC', '的', '节目', '下载', '服务', '。', '\n', '\u3000', '\u3000', '关键字', ':', '民意测验', '\u3000', '电子游戏', '\u3000', '美国', '\n', '\u3000', '\u3000', '标题', ':', '40%', '美国', '成年', '男子', '玩', '电子游戏', '\n', '\u3000', '\u3000', '时间', ':', '美国', '东部', '时间', '5', '月', '9', '日', '上午', '10', '时', '20', '分', '消息', '\n', '\u3000', '\u3000', '来源', ':', '英文', '雅虎', '\n', '\u3000', '\u3000', '内容摘要', ':', '美联社', '与', '美国在线', '近期', '开展', '的', '一项', '民意测验', '显示', ',', '十个', '成年', '美国', '男人', '当中', '有四人', '通过', '电脑', '或者', '游戏机', '玩', '电子游戏', ',', '其中', '有', '45%', '的', '人', '通过', '因特网', '玩', '电子游戏', ',', '多于', '三分之一', '的', '人', '2005', '年', '花费', '在', '网络游戏', '上', '的', '资金', '达到', '两百', '美元', ',', '42%', '的', '人', '每周', '玩', '电子游戏', '的', '时间', '超过', '了', '四个', '小时', ',', '26%', '的', '人', '通过', '游戏机', '玩', '电子游戏', ',', '六分之一', '的', '人', '每周', '在线', '玩游戏', '的', '时间', '为', '十个', '小时', '。', '关于', '游戏', '的', '内容', ',', '战略', '游戏', '最', '受欢迎', ',', '其次', '为', '体育', '游戏', ',', '冒险游戏', '还有', '射击', '游戏', '以及', '仿真', '游戏', '。', '\n', '\u3000', '\u3000', '关键字', ':', '打击', '盗版', '\u3000', '下载', '\u3000', '华纳', '兄弟', '\n', '\u3000', '\u3000', '标题', ':', '华纳', '兄弟', '计划', '通过', 'BitTorrent', '提供', '影片', '下载', '服务', '\n', '\u3000', '\u3000', '时间', ':', '美国', '东部', '时间', '5', '月', '9', '日', '上午', '11', '时', '55', '分', '消息', '\n', '\u3000', '\u3000', '来源', ':', '英文', '雅虎', '\n', '\u3000', '\u3000', '内容摘要', ':', '美国', '娱乐业', '巨头', '华纳', '兄弟', '公司', '(', 'Warner', ' ', 'Brothers', ')', '将', '成为', '第一家', '向', 'BitTorrent', '用户', '提供', '电影', '内容', '下载', '服务', '的', '公司', ',', '该', '公司', '希望', '通过', '此举', '打击', '盗版', '行为', '。', '华纳', '兄弟', '家庭', '娱乐', '公司总裁', 'Tsujihara', '表示', ':', '“', '盗版', '的', '问题', '变得', '越来越', '严重', ',', '我们', '的', '这种', '作法', '是', '将', '这', '一', '问题', '变成', '一种', '机会', ',', '如果', '我们', '能够', '将', '5%', ',', '10%', '甚至', '是', '15%', '的', '这些', '用户', '转化成', '合法', '的', '用户', ',', '其', '影响力', '将会', '十分', '的', '重大', '。', '”', '华纳', '兄弟', '公司', '指出', ',', '用户', '可以', '租用', '或者', '下载', '那些', '可以', '被', '制作', '成', 'DVD', '的', '拷贝', ',', '但是', '此项', '服务', '推出', '日期', '以及', '具体', '的', '定价', '目前', '还', '不得而知', '。', '此前', ',', '华纳', '兄弟', '准备', '将', '电影', '如', '《', '蝙蝠侠', '》', '、', '电视', '连续剧', '《', '玩酷', '世代', '》', '等', '影片', '通过', 'P2P', '网络', '在', '网路上', '销售', '。', '该', '公司', '一', '负责人', '指出', ',', '成功', '打败', '目前', '线上', '剽窃', '行为', '最', '有效', '的', '武器', '之一', '就是', '向', '用户', '提供', '合法', '且', '容易', '使用', '的', '替代性', '选择', '。', 'In2Movies', '服务', '使', '观众', '能够', '合法', '下载', '华纳', '旗下', '百视', '达', '的', '电影', '、', '地区性', '节目', '。', '\n', '\u3000', '\u3000', '关键字', ':', '业绩', '\u3000', '荷兰', '电讯', '公司', '\u3000', '净收入', '\n', '\u3000', '\u3000', '标题', ':', '荷兰', '电讯', '公司', 'Royal', ' ', 'KPN', ' ', 'NV', '周二', '表示', '其', '第一季度', '净收入', '达到', '3.83', '亿美元', '\n', '\u3000', '\u3000', '时间', ':', '美国', '东部', '时间', '5', '月', '9', '日', '上午', '11', '时', '20', '分', '消息', '\n', '\u3000', '\u3000', '来源', ':', '道琼斯', '新闻', '\n', '\u3000', '\u3000', '内容摘要', ':', '荷兰', '电讯', '公司', 'Royal', ' ', 'KPN', ' ', 'NV', '周二', '表示', '其', '第一季度', '净收入', '达到', '3.83', '亿美元', ',', '比', '去年同期', '的', '2.74', '亿美元', '增长', '了', '40%', ',', '销售收入', '也', '达到', '了', '37.2', '亿美元', '。', '在', '固定', '电话', '部门', '收入', '下降', '2.3%', '达到', '21.4', '亿美元', '的', '情况', '下', ',', '移动', '收入', '增长', '了', '15%', ',', '达到', '了', '19', '亿美元', '。', '此外', ',', '该', '公司', '在', '德国', '新', '增加', '用户', '70', '万', '。', '\n', '\u3000', '\u3000', '关键字', ':', '新举措', '\u3000', '漫游费', '\u3000', '沃达丰', '\n', '\u3000', '\u3000', '标题', ':', '沃达丰', '表示', '将', '在', '明年', '降低', '手机', '漫游', '资费', '\n', '\u3000', '\u3000', '时间', ':', '美国', '东部', '时间', '5', '月', '9', '日', '上午', '10', '时', '25', '分', '消息', '\n', '\u3000', '\u3000', '来源', ':', '道琼斯', '新闻', '\n', '\u3000', '\u3000', '内容摘要', ':', '迫于', '欧洲委员会', '的', '压力', ',', '英国', '电信', '巨头', '沃达丰公司', '(', 'Vodafone', ')', '近日', '表示', '将', '在', '明年', '降低', '手机', '漫游', '资费', ',', '其', '低价', '幅度', '将', '达到', '40%', '。', '欧洲委员会', '此前', '的', '建议', '称', ',', '当', '欧洲', '用户', '出国', '后', ',', '他们', '不', '应该', '被', '收取', '漫游费', ',', '不能', '因为', '他们', '出国', '旅行', '而', '缴纳', '更', '高', '的', '费用', '。', '\n', '\u3000', '\u3000', '关键字', ':', '新', '产品', '\u3000', '超薄', '手机', '\u3000', '三星', '\n', '\u3000', '\u3000', '标题', ':', '三星公司', '在', '莫斯科', '电信展', '推出', '两款', '超薄', '手机', '\n', '\u3000', '\u3000', '时间', ':', '美国', '东部', '时间', '5', '月', '9', '日', '上午', '10', '时', '40', '分', '消息', '\n', '\u3000', '\u3000', '来源', ':', '英文', '雅虎', '\n', '\u3000', '\u3000', '内容摘要', ':', '在', '莫斯科', '的', 'Sviaz', ' ', 'ExpoComm', ' ', '2006', '电信展', '上', ',', '三星公司', '推出', '两款', '超薄', '手机', ',', '其中', '一款', '为', 'SGH', '-', 'X820', ',', '厚', '6.9', '毫米', ',', '重', '66', '克', ',', '内置', '200', '万', '像素', '摄像头', '和', 'MP3', '播放器', ',', '容量', '80MB', ',', '支持', '视频', '录制', '、', '蓝牙', '和', '电视', '输出', '。', '另外', '一款', '为', '滑盖式', '手机', 'SGH', '-', 'D900', ',', '厚度', '及', '重量', '比', 'SGH', '-', 'X820', '稍大', '一些', ',', '内置', '300', '万', '像素', '摄像头', ',', '支持', 'Quad', '-', 'band', ' ', 'GSM', '网络', ',', '但', '三星公司', '并', '没有', '透露', '这', '两款', '手机', '的', '价格', '。', '\n', '\u3000', '\u3000', '关键字', ':', '服务', ' ', '高清晰', ' ', '数字', '广播', '\n', '\u3000', '\u3000', '标题', ':', '英国广播公司', '(', 'BBC', ')', '首次', '推出', '免费', '的', '数字', '广播', '服务', '\n', '\u3000', '\u3000', '时间', ':', '美国', '东部', '时间', '5', '月', '9', '日', '上午', '7', '时', '10', '分', '消息', '\n', '\u3000', '\u3000', '来源', ':', '路透社', '\n', '\u3000', '\u3000', '内容摘要', ':', '英国广播公司', '(', 'BBC', ')', '本周', '内', '首次', '推出', '了', '使用', '电视', '格式', '的', '高清晰', '数字', '广播', ',', '这项', '服务', '将', '进行', '为期', '一年', '的', '试验', '。', '根据', '此前', '英国广播公司', '所作', '的', '调查', '显示', ',', '了解', '高清晰', '数字', '广播', '的', '听众', '都', '期待', '着', 'BBC', '尽早', '开通', '高清晰', '数字', '广播', '服务', ',', '并', '希望', '在', '任何', '频道', '都', '能', '收到', '该', '广播', '。', '据', '报道', ',', '该项', '广播', '将', '从', '5', '月', '11', '日', '正式', '开通', ',', '开通', '之初', '仅限于', '拥有', '高清晰', '设备', '的', '用户', '。', 'BBC', '公司', '同时', '还', '证实', '了', '在', '世界杯', '期间', ',', '在', '某些', '地区', '数字', '广播', '能', '用', '电缆', '进行', '传播', '。', '从', '6', '月', '9', '日', '开始', ',', 'BBC', '公司', '将', '对', '世界杯', '进行', '高清晰', '无线电', '和', '电视', '的', '同时', '联播', '。', '这种', '联播', '还', '将', '应用', '于', '温布尔登', '主要', '的', '赛事', '。', 'BBC', '电视', '部门', '总监', '加纳', '?', '贝内特', '(', 'Jana', ' ', 'Bennett', ')', '说', ':', '“', '高清晰', '数字', '广播', '是', 'BBC', '公司', '计划', '在', '未来', '向', '全世界', '提供', '高清晰', '服务', '的', '而', '迈出', '的', '第一步', ',', '虽然', '步幅', '小', ',', '但是', '是', '激动人心', '的', '。', '”', '\n', '\u3000', '\u3000', '关键字', ':', '电脑', '黑客', ' ', '审判', ' ', '服刑', '\n', '\u3000', '\u3000', '标题', ':', '美国', '电脑', '黑客', '安契塔', '被判', '入狱', '57', '个', '月', '\n', '\u3000', '\u3000', '时间', ':', '美国', '东部', '时间', '5', '月', '9', '日', '上午', '10', '时', '35', '分', '消息', '\n', '\u3000', '\u3000', '来源', ':', '法新社', '\n', '\u3000', '\u3000', '内容摘要', ':', '美国', '电脑', '黑客', '安契塔', '被判', '入狱', '57', '个', '月', '。', '检方', '指出', ',', '安契塔', ',', '20', '岁', ',', '是', '知名', '秘密', '骇客', '网络', '“', '地下', '蠕虫', '大师', '”', '的', '要员', ',', '于', '去年', '十一月', '被捕', ',', '这是', '第一', '起遭', '起诉', '的', '相关', '案件', '。', '他', '被控', '侵入', '四十万', '余部', '电脑', '(', '或称', '僵尸', '网路', ',', 'bot', ' ', 'nets', ')', '损害', '其', '系统', ',', '并', '促使', '受害', '电脑', '大量', '寄发', '垃圾邮件', '。', '遭', '安契塔', '入侵', '的', ',', '还', '包括', '美国', '军方', '的', '服务器', '。', ' ', '在', '洛杉矶', '的', '联邦', '法庭', '上', ',', '面对', '17', '项', '指控', ',', '安契塔', '承认', '密谋', '违反', '电脑', '诈欺', '滥用', '法', '、', '反', '垃圾邮件', '法', ',', '和', '损及', '美国', '军方', '电脑', '。', '他', '并', '坦承', '散播', '能', '促使', '电脑', '发送', '垃圾邮件', '、', '广告', '以及', '对', '网站', '发动', '瘫痪', '性', '攻击', '的', '恶意', '软体', '。', ' ', '检方', '发言人', '莫柴克', '说', ':', '“', '安契塔', '尤其', '对', '这', '一连串', '的', '秘密', '犯行', '负有责任', ',', '他', '入侵', '加州', '近', '五十万', '部', '电脑系统', ',', '受', '波及', '的', '电脑', '并', '不', '限于', '家用电脑', ',', '这', '也', '让', '他', '与', '他人', '得以', '发动', '大规模', '的', '攻击', '。', '”', ' ', '安契塔', '在', '庭上', '同意', '赔偿', '军事', '单位', '一万五千', '美元', ',', '他', '的', '不法', '获益', '也', '遭', '没收', ',', '其中', '包括', '逾', '六万美元', '现金', '、', '一辆', 'B', 'M', 'W', '汽车', '与', '一些', '电脑设备', '。', '(', '章田', '编译', ')'], 'C000008')
(['\u3000', '\u3000', '\u3000', '世界', '的', '旅游业', '越来越', '熟悉', '一个', '新名词', '—', '—', '中国', '的', '黄金周', '。', '每到', '这个', '时候', ',', '中国', '都', '会', '迎来', '一次', '旅游', '高潮', ',', '一直', '席卷', '周边', '甚至', '更为', '遥远', '的', '一些', '国家', '和', '地区', ',', '使', '他们', '也', '跟', '随着', '这种', '固定', '的', '周期', '迎来', '一个个', '旅游', '、', '消费', '旺季', '。', '\n', '\u3000', '\u3000', '尽管', '出入境', '管理', '部门', '尚未', '公布', '具体', '数字', ',', '全国假日办', '负责人', '预测', '说', ',', '今年', '“', '五一', '”', '黄金周', ',', '出境', '旅游', '规模', '很', '可能', '超过', '去年', '“', '五一', '”', '黄金周', '1000', '多万人次', '的', '水平', '。', '\n', '\u3000', '\u3000', '中国', '游客', '涌', '来', '\n', '\u3000', '\u3000', '“', '标志', '”', '泰国', '从', '海啸', '中', '复苏', '\n', '\u3000', '\u3000', '5', '月', '2', '日', ',', '从事', '服装设计', '的', '胡明明', '第四次', '飞往', '泰国', '普吉岛', '度假', '。', '黄金周', '对', '她', '而言', ',', '就是', '躺', '在', '普吉岛', '沙滩', '上', ',', '晒', '一周', '太阳', '。', '作为', '中国', '公民', '最早', '的', '旅游', '目的地', '代表', '景点', ',', '普吉岛', '代表', '了', '东南亚', '国家', '在', '中国', '消费者', '心目', '中', '的', '独特', '地位', ':', '回头客', '越来越', '多', '。', '\n', '\u3000', '\u3000', '泰国', '国家旅游局', '的', '数据', '显示', ',', '2005', '年', '前往', '普吉', '的', '中国', '旅游者', '达', '10', '万人次', '左右', ',', '预计', '2006', '年', '将', '突破', '15', '万', ',', '从而', '成为', '泰国', '南部', '旅游业', '在', '印度洋', '海啸', '后', '全面', '恢复', '的', '“', '重要', '标志', '”', '。', '\n', '\u3000', '\u3000', '目前', '中国', '人', '出境游', '基本', '都', '是', '第一次', '出国', ',', '因此', '更', '看重', '价格', '。', '“', '中国', '人', '喜欢', '出访', '大城市', ',', '且', '往往', '都', '是', '走马观花', ',', '到', '哪里', '都', '要', '先', '照相', '。', '”', '一', '旅行社', '总经理', '助理', '郭明', '告诉', '记者', '。', '出境', '爱', '购物', '可能', '是', '中国', '人', '出境游', '的', '又', '一大', '特色', '。', '\n', '\u3000', '\u3000', '俄罗斯', '、', '蒙古', '游', '\n', '\u3000', '\u3000', '国人', '今年', '出游', '“', '新亮点', '”', '\n', '\u3000', '\u3000', '东南亚', '国家', '打出', '“', '山水相连', '”', '牌', ',', '韩国', '和', '日本', '旅游界', '则', '希望', '以', '“', '文化', '渊源', '”', '赢得', '中国', '“', '休闲', '商机', '”', '。', '在', '《', '大长', '今', '》', '、', '“', '韩流', '”', '等', '文化', '因素', '刺激', '之下', ',', '中', '韩', '两国之间', '的', '航线', '变得', '越来越', '繁忙', '。', '就', '在', '“', '五一', '”', '前', ',', '大', '韩', '航空', '宣布', '计划', '5', '年内', '将', '韩中', '航线', '增至', '50', '条', '。', '\n', '\u3000', '\u3000', '旅游', '交通', '经济', '分析', '师刘斌', '说', ',', '2006', '年', '“', '五一', '”', '黄金周', ',', '中国', '周边旅游', '的', '新亮点', '是', '俄罗斯', '、', '蒙古国', '。', '随着', '夏季', '到来', ',', '北亚', '风光', '呈现出', '独特', '的', '吸引力', '。', '目前', ',', '俄罗斯', '专门', '为', '中国', '旅游者', '成立', '的', '“', '无国界', '世界', '”', '协会', '正', '全力以赴', '利用', '中', '俄', '两国', '互办', '“', '国家', '年', '”', '的', '机遇', ',', '吸引', '更', '多', '中国', '游客', '“', '北上', '消费', '”', '。', '\n', '\u3000', '\u3000', '羡慕', '黄金周', '\n', '\u3000', '\u3000', '印度', '日本', '都', '“', '心动', '”', '了', '\n', '\u3000', '\u3000', '旅游', '观察家', '指出', ',', '中国', '“', '旅游', '休闲', '”', '商机', ',', '正', '从', '东南亚', '向', '东北亚', '“', '扇形', '展开', '”', ',', '并', '惠及', '越来越', '多', '的', '邻邦', '。', '\n', '\u3000', '\u3000', '刘斌', '认为', ',', '目前', '东南亚', '抢', '得', '中国', '“', '休闲', '潮', '”', '之先', ',', '可以', '为', '中国', '东盟', '经济', '贸易', '一体化', '“', '推波助澜', '”', '。', '东北亚地区', '作为', '中国', '主要', '客源', '市场', ',', '“', '双向', '流动', '”', '将', '催生', '“', '东北亚', '旅游圈', '”', ',', '从而', '与', '东南亚', '旅游圈', '南北', '呼应', '。', '这样', ',', '中国', '人', '的', '休闲', '不仅', '将', '成为', '所有', '周边国家', '的', '商机', ',', '而且', '将', '成为', '中国', '与', '这些', '国家', '睦邻友好', '的', '“', '休闲', '纽带', '”', '。', '\n', '\u3000', '\u3000', '从', '发展', '旅游', '经济', '的', '角度', '来说', ',', '中国', '的', '黄金周', '无疑', '让', '各国', '羡慕', '。', '印度', '的', '一家', '报纸', '曾', '对', '中国政府', '“', '聪明', '并且', '执行', '有力', '的', '黄金周', '政策', '”', '大加', '赞赏', ',', '认为', '印度政府', '应当', '向', '中国', '学习', '。', '而', '日本', '为了', '促进', '旅游', '、', '拉动', '内需', ',', '也', '修改', '了', '“', '节日', '法', '”', ',', '人为', '地', '制造', '出', '更', '多', '的', '长假', ',', '方便', '人们', '外出', '旅游', '或', '安排', '各种', '休闲活动', '。', '(', '新华', '每日电讯', ')', '\n', '\u3000', '\u3000', '新闻', '链接', '\n', '\u3000', '\u3000', '悉尼', '\n', '\u3000', '\u3000', '“', '处处', '是', '中国', '人', ',', '还', '以为', '回国', '了', '”', '\n', '\u3000', '\u3000', '“', '到', '悉尼', '来', '旅游', ',', '到处', '都', '能', '看到', '中国', '人', '的', '面孔', '。', '要不是', '看到', '外国人', '多点', ',', '还', '以为', '又', '回到', '了', '中国', '呢', '!', '”', '一位', '来自', '北京', '的', '张姓', '游客', '说', '。', '\n', '\u3000', '\u3000', '这', '也', '是', '不少', '中国', '游客', '初到', '澳大利亚', '时', '的', '感觉', '。', '去年', ',', '有', '28', '万', '中国', '游客', '赴', '澳', '旅游', ',', '占来', '澳', '游客', '总数', '的', '5.2%', '。', '\n', '\u3000', '\u3000', '在', '去年', '12', '月', '澳大利亚联邦政府', '发布', '的', '旅游', '战略', '中', ',', '中国', '被', '认为', '是', '澳', '旅游业', '增长', '最快', '的', '市场', '。', '据澳', '旅游业', '预测', '委员会', '预计', ',', '中国', '到', '澳大利亚', '旅游', '的', '人数', '将', '以', '每年', '16.5%', '的', '速度', '增长', ',', '到', '2014', '年', ',', '将会', '有', '110', '万', '中国', '游客', '来澳', '旅游', ',', '澳大利亚', '每', '7', '名', '游客', '中', '就', '有', '1', '名', '中国', '公民', '。', '届时', ',', '中国', '将', '有望', '成为', '澳大利亚', '最大', '的', '客源国', ',', '中国', '游客', '每年', '将', '为', '澳', '旅游业', '贡献', '60', '亿澳元', '。', '\n', '\u3000', '\u3000', '巴黎', '\n', '\u3000', '\u3000', '中国', '人', '不再', '“', '上车', '睡觉', '下车', '拍照', '”', '\n', '\u3000', '\u3000', '四五', '月份', '本是', '中国', '人', '赴法', '旅游', '的', '淡季', ',', '但', '“', '五一', '”', '长假', '却是', '淡季', '中', '的', '旺季', ',', '法国', '各大', '华人', '旅行社', '在此期间', '接待', '的', '中国', '游客', '数量', '几乎', '是', '平时', '的', '两倍', '。', '而', '中国', '人', '对', '赴', '法国', '乃至', '欧洲', '旅游', '的', '观念', '也', '发生', '改变', '。', '\n', '\u3000', '\u3000', '据', '法国', '文华', '旅行社', '总经理', '陈超英', '介绍', ',', '过去', ',', '中国', '游客', '总想', '在', '最', '短时间', '内以', '最少', '费用', '游览', '到', '最', '多', '数量', '的', '法国', '及其', '周边国家', '景点', '。', '一时间', ',', '“', '上车', '睡觉', ',', '下车', '拍照', ',', '一问', '什么', '都', '不', '知道', '”', '这', '段', '顺口溜', '成', '了', '此类', '贪多', '求全', '的', '旅游', '方式', '的', '生动', '写照', '。', '\n', '\u3000', '\u3000', '几年', '过去', ',', '随着', '出境游', '机会', '增加', ',', '越来越', '多', '的', '中国', '游客', '迷上', '了', '欧美', '游客', '所', '青睐', '的', '休闲游', '和', '主题', '游', '。', '陈超英', '说', ',', '以', '文华', '旅行社', '为例', ',', '参加', '休闲游', '和', '主题', '游', '的', '中国', '游客', '三年', '前', '只', '占', '中国', '游客', '总数', '的', '5%', ',', '现在', '已', '占', '到', '了', '30%', ',', '预计', '三年', '后', '将', '达到', '50%', '左右', '。', '他', '说', ',', '这', '不仅', '说明', '中国', '游客', '的', '消费', '能力', '提高', ',', '也', '说明', '他们', '的', '消费', '心理', '趋于', '成熟', '。', '\n', '\u3000', '\u3000'], 'C000016')
(['\u3000', '\u3000', '万络', '给', '止痛药', '市场', '带来', '的', '阴霾', '久久', '仍未散', '去', ',', '但', '这', '丝毫', '不能', '说明', '该', '市场', '的', '需求', '在', '减少', '。', '在', '既定', '的', '需求', '现实', '下', ',', 'C', 'O', 'X', '-', '2', '抑制剂', '的', '衰落', ',', '必然', '引来', '趁虚而入', '者', '。', '不久前', '我国', '河南', '帅克', '制药', '和', '贵州', '益佰', '先后', '宣称', '将', '倚靠', '新', '的', '止痛药', '进入', '该', '领域', ',', '一场', '“', '分羹', '”', '之战', '显然', '已经', '急促', '展开', '。', '\n', '\u3000', '\u3000', '潜力', '巨大', '的', '镇痛药', '市场', '一直', '是', '跨国公司', '的', '天下', ',', '而', '最近', '它们', '的', '优势', '地位', '正', '经受', '挑战', ',', '其', '缘由', '是', '2', '0', '0', '4', '年', '8', '月份', '王牌', '止痛药', '万络', '爆出', '安全性', '问题', '引发', '了', '市场', '对', '新型', '非甾体', '止痛药', '的', '不信任感', '。', '\n', '\u3000', '\u3000', '去年', '9', '月', '万络', '自动', '撤出', '我国', '后', '腾出', '了', '巨大', '的', '市场', '空间', ',', '引起', '了', '众多', '企业', '的', '觊觎', ',', '去年', '5', '月', '1', '3', '日', ',', '中美史克', '曾经', '发起', '“', '霞光', '行动', '”', ',', '试图', '从', '困境', '中', '挽救', '其', 'O', 'T', 'C', '王牌', '药', '芬必得', ',', '但', '更', '多', '的', '国内', '企业', '则', '尽量', '避开', '身处', '安全性', '危机', '旋涡', '中', '的', 'C', 'O', 'X', '-', '2', '抑制剂', '领域', ',', '希望', '从', '新', '的', '镇痛', '领域', '入手', '找到', '征战', '止痛药', '市场', '的', '新', '武器', '。', '\n', '\u3000', '\u3000', '不久前', '我国', '河南', '帅克', '制药', '和', '贵州', '益佰', '先后', '宣称', '将', '倚靠', '新', '的', '止痛药', '进入', '这个', '潜力', '仅次于', '感冒药', '的', '新', '领域', ',', '据帅克', '制药', '董事长', '张克军', '透露', ',', '帅克', '开发', '的', '止痛', '新药', '氨酚', '曲马', '多片', '即将', '上市', '。', '据', '记者', '了解', ',', '该', '产品', '也', '是', '今年', '西安', '杨森', '力推', '的', '重点', '产品', '。', '而', '贵州', '益佰', '方面', '则', '透露', ',', '该', '公司', '将', '凭借', '一种', '止痛', '中药', '来', '分切', '国内', '巨大', '的', '止痛药', '市场', '。', '\n', '\u3000', '\u3000', '显然', ',', '一场', '新', '的', '止痛药', '市场', '“', '分羹', '”', '大战', '已经', '打响', '。', '\n', '\u3000', '\u3000', '止痛药', '市场', '依然', '是', '金矿', '\n', '\u3000', '\u3000', '分析', '人士', '指出', ',', '尽管', '目前', '使用', '最多', '的', 'C', 'O', 'X', '-', '2', '抑制剂', '正', '遭遇', '安全性', '危机', ',', '但', '对于', '整个', '止痛药', '并', '不', '构成', '影响', ',', '此', '事件', '的', '最大', '可能', '是', '各大类', '止痛药', '由此', '进行', '一轮', '市场', '替代', ',', '而', '与此同时', ',', '整个', '市场', '还', '在', '继续', '增长', '。', '\n', '\u3000', '\u3000', '中国', '已经', '步入', '老龄化', '社会', ',', '中老年', '人口', '约', '有', '5', '亿', '。', '风湿', '和', '类风湿', '关节炎', '、', '肩周炎', '、', '颈椎病', '、', '骨质增生', '等', '疾病', '在', '老年', '甚至', '中年人', '群中', '属于', '常见病', '、', '多发病', ',', '各类', '疼痛', '病症', '患者', '约', '占', '中老年', '群体', '的', '6', '5', '%', ',', '而且', '这一', '群体', '数量', '还', '在', '不断', '的', '增加', '。', '\n', '\u3000', '\u3000', '另外', ',', '随着', '我国', '制造业', '大国', '地位', '的', '不断', '提升', ',', '产业工人', '数量', '急剧', '膨胀', ',', '长期', '的', '劳作', '容易', '导致', '各种', '机体', '劳损', '和', '关节', '疼痛', ',', '因此', ',', '该', '群体', '已经', '成为', '疼痛', '药物', '消费', '的', '另', '一个', '大', '群体', '。', '由于', '电脑', '等', '工具', '的', '引入', ',', '人们', '的', '工作', '和', '生活', '方式', '已经', '发生', '了', '根本', '的', '改变', ',', '长期', '的', '静坐', '催生', '了', '这', '一', '人群', '各种', '疼痛', '的', '出现', ',', '这是', '导致', '疼痛', '人群', '增长', '的', '又', '一个', '重要', '因素', '。', '\n', '\u3000', '\u3000', '据', 'I', 'M', 'S', '国际', '咨询', '公司', '预测', ',', '2', '0', '0', '5', '年', ',', '全球', '止痛剂', '市场', '总量', '达', '8', '0', '0', '亿美元', '以上', '。', '目前', ',', '美国', '、', '欧洲', '和', '日本', '是', '全球', '最大', '的', '止痛药', '市场', ',', '过去', '3', '0', '年', '来', '止痛药', '市场', '销售额', '一直', '在', '稳步', '上升', '。', '国内', '的', '资料', '也', '显示', ':', '我国', '非处方药', '市场', '上', '止痛药', '增长', '迅速', ',', '其', '销售', '仅次于', '感冒药', ',', '大约', '占', '到', '了', '2', '0', '%', '的', '比例', '。', '\n', '\u3000', '\u3000', '与此同时', ',', '目前', '医学', '更加', '注重', '病人', '的', '生活', '质量', ',', '对患', '各种', '疾病', '引起', '的', '疼痛', '的', '治疗', '也', '催生', '了', '新', '的', '止痛药', '市场', '。', '以', '癌症', '疼痛', '为例', ',', '\n', '\u3000', '\u3000', '据', '我国', '卫生部', '统计数据', '显示', ',', '2', '0', '世纪', '9', '0', '年代', '我国', '肿瘤', '发病率', '已', '上升', '为', '1', '2', '7', '例', '/', '1', '0', '万人', '。', '近年来', '我国', '每年', '新增', '肿瘤', '患者', '1', '6', '0', '万', '~', '1', '7', '0', '万人', ',', '死', '于', '恶性肿瘤', '人数', '达', '1', '4', '0', '万人', ',', '肿瘤', '患者', '总数', '估计', '在', '4', '5', '0', '万人', '左右', '。', '肿瘤', '患者', '中', '至少', '有', '1', '/', '3', '存在', '着', '不同', '程度', '的', '疼痛', ',', '其中', '晚期', '患者', '占', '6', '0', '%', '~', '9', '0', '%', '。', '\n', '\u3000', '\u3000', '市场', '加速', '洗牌', '\n', '\u3000', '\u3000', '由于', '止痛药', '使用', '领域', '及其', '广泛', ',', '所以', '各类', '药物', '的', '使用', '不能', '一概而论', ',', '但', '就', '医院', '处方', '板块', '分析', ',', '目前', '主要', '有', '四大', '类', '镇痛药', ',', '分别', '为', '阿片类', '镇痛药', '、', '非甾体', '类', '镇痛药', '、', '植物', '类', '镇痛药', '以及', '抗', '偏头痛', '制剂', '。', '非甾体', '类', '镇痛药', '原本', '是', '被', '寄予', '了', '厚望', ',', '在', '万络', '以及', '西乐', '葆', '等', '一批', '新型', '药物', '的', '带动', '下', '整个', '市场', '发展趋势', '非常', '喜人', '。', '1', '9', '9', '8', '年', ',', '全国', '1', '4', '个', '典型', '城市', '入网', '医院', '的', '非甾体', '抗炎药', '购药', '金额', '为', '9', '9', '0', '3', '.', '3', '万元', ',', '到', '2', '0', '0', '2', '年', '已经', '增长', '至', '1', '4', '0', '2', '2', '.', '3', '万元', '(', '见表', '1', ')', '。', '\n', '\u3000', '\u3000', '不过', '由于', '非甾体', '类', '镇痛药', '的', '安全性', '问题', ',', '其', '市场', '有', '逐渐', '下滑', '的', '趋势', ',', '而', '阿片类', '药物', '则', '有', '上升', '的', '势头', ',', '相互', '市场', '取代', '现象', '比较', '明显', '。', '以', '使用', '较', '多', '的', '癌症', '镇痛', '为例', ',', '在', '2', '0', '0', '2', '~', '2', '0', '0', '4', '年', '样本', '医院', '镇痛', '类药物', '使用', '情况', '(', '见表', '2', ')', '中', ',', '阿片类', '镇痛药', '的', '市场', '分额', '由', '2', '0', '0', '2', '年', '的', '6', '2', '.', '4', '%', '上升', '到', '2', '0', '0', '4', '年', '的', '6', '8', '.', '4', '%', '。', '而', '非甾体', '类', '镇痛药', '的', '份额', '却', '从', '2', '0', '0', '2', '年', '的', '3', '4', '.', '4', '%', '下跌', '至', '2', '0', '0', '4', '年', '的', '2', '9', '.', '2', '%', '。', '\n', '\u3000', '\u3000', '在', '阿片类', '镇痛药', '中', ',', '目前', '主要', '由曲', '马多', '、', '芬太尼', '和', '吗啡', '3', '大', '品种', '领衔', ',', '这三大', '品种', '占', '整个', '阿片类', '药品', '使用', '金额', '的', '7', '0', '%', '以上', '(', '见', '附图', ')', '。', '\n', '\u3000', '\u3000', '芬太尼', '为', '人工合成', '的', '非', '衍生物', '类', '阿片', '药片', ',', '属于', '强', '阿片类', '镇痛药', ',', 'W', 'H', 'O', '将', '它', '归入', '第三', '阶梯', '镇痛药', ',', '其', '主要', '通过', '激动', '阿片类', '受体', '(', 'μ', '受体', ')', '而', '发挥', '镇痛', '作用', ',', '止痛', '作用', '为', '相同', '剂量', '吗啡', '的', '5', '0', '~', '1', '0', '0', '倍', '。', '吗啡', '主要', '用于', '晚期', '癌症', '患者', '第三', '阶梯', '止痛', '。', '从', '市场趋势', '来看', ',', '曲马多', '增长', '后劲', '十足', ',', '该', '产品', '是', '胺', '苯环', '醇类', '人工合成', '弱', '阿片类', '药物', ',', '镇痛', '强度', '在', '同等', '剂量', '时', ',', '相当于', '吗啡', '的', '1', '/', '5', ',', '但', '明显', '强于', '其他', '非', '类固醇', '抗炎药', ',', '适用', '于', '中', '、', '重度', '癌性', '疼痛', ',', '被', 'W', 'H', 'O', '列为', '癌痛', '三', '阶梯', '止痛', '治疗', '的', '第二', '阶梯', '推荐', '药物', '。', '该药', '与', '阿片', '受体', '的', '亲和力', '比', '吗啡', '弱', '6', '0', '0', '0', '倍', ',', '基本', '不', '存在', '成瘾性', ',', '可以', '长期', '使用', ',', '因此', '在', '治疗', '剂量', '下', ',', '不', '产生', '呼吸', '抑制', ',', '不', '影响', '心血管', '功能', ',', '也', '不', '产生', '便秘', '、', '排尿', '困难', '等', '不良反应', '。', '由于', '该药', '的', '管制', '相对', '较松', ',', '除', '可以', '用于', '癌症', '疼痛', '的', '治疗', '外', ',', '还', '可以', '在', '骨关节炎', '、', '腰椎间盘', '突出', '症', '、', '肩关节', '周围', '炎', '、', '创伤', '、', '手术', '后', '疼痛', '和', '骨质疏松症', '所致', '的', '腰腿痛', '中', '使用', '。', '该类', '药', '在', '医保', '目录', '中属', '乙类', '药物', ',', '目前', '癌痛', '临床', '应用', '中多为', '缓释片', '。', '\n', '\u3000', '\u3000', '复合', '使用', '药物', '增长势头', '明显', '\n', '\u3000', '\u3000', '目前', '镇痛药', '市场', '还有', '一个', '明显', '的', '趋势', '就是', '越来越', '强调', '联合', '用药', ',', '根据', '2', '0', '0', '5', '年前', '三季度', '典型', '医院', '用药', '情况', '显示', ',', '一些', '复合', '使用', '的', '药物', '增长势头', '明显', ',', '像', '氨基', '比林', '+', '安替比林', '+', '巴比', '妥', ',', '克痛宁', '+', '曲马多', '+', '布洛芬', ',', '羟考', '酮', '+', '对乙酰氨基酚', '等', '。', '\n', '\u3000', '\u3000', '张克军', '也', '认为', ',', '鉴于', '止痛', '新药', '不断', '遭受', '安全性', '问题', ',', '复方', '用药', '将', '是', '镇痛药', '今后', '新', '产品开发', '的', '一个', '重要', '方向', ',', '一些', '新型', '的', '复方', '产品', '正', '显示', '良好', '的', '市场前景', ',', '目前', '选择', '的', '重点', '就是', '将', '一些', '原来', '在', '临床', '使用', '多年', ',', '疗效', '确切', ',', '安全性', '高', '的', '药', '组合', '在', '一起', '。', '像', '最近', '上市', '的', '氨酚', '曲马', '多片', '就是', '由', '阿片类', '和', '非甾体', '类', '使用', '最久', '的', '盐酸', '曲马多', '和', '对乙酰氨基酚', '组合', '在', '一起', '的', '复方', '产品', ',', '临床', '研究', '证实', '该药', '主要', '用于', '缓解', '中度', '及', '重度', '疼痛', ',', '起效', '迅速', ',', '镇痛', '效果', '明显', ',', '无', '成瘾性', ',', '不良反应', '相比', '其', '单方', '制剂', '和', '其他', '参比', '制剂', '明显', '更', '低', ',', '该', '产品', '2', '0', '0', '1', '年', '8', '月', '在', '美国', '由', 'F', 'D', 'A', '批准', '上市', '。', '西安', '杨森', '在', '去年', '将', '该药', '引进', '我国', ',', '目前', '正在', '力拓', '市场', '。', '鉴于', '该', '产品', '在', '我国', '无', '相关', '产权保护', ',', '河南', '帅克', '制药', '在', '国内', '企业', '中', '抢先', '仿制', '了', '这个', '产品', '。', '张克军', '透露', ',', '该', '产品', '目前', '已经', '上市', ',', '有望', '培养', '成为', '一个', '镇痛药', '的', '大', '品种', ',', '或许', '依靠', '新型', '复方', '制剂', '可以', '参与', '重新', '划分', '止痛药', '市场', '的', '格局', '。'], 'C000008')
(['\u3000', '\u3000', '牙防组', '事件', '再起', '风波', ',', '此次', '争议', '的', '核心', '是', ',', '口腔', '用品', '认证', '办法', '的', '管理', '对象', '应该', '是', '“', '保健', '”', '品', '还是', '“', '护理', '”', '品', '。', '\n', '\u3000', '\u3000', '本报', '独家', '获悉', ',', '4', '月', '24', '日', ',', '中国', '口腔', '清洁', '护理', '用品', '工业协会', '(', '原', '牙膏', '工业协会', ',', '下称', '“', '牙膏', '协会', '”', ')', '以', '书面形式', '向', '国家', '认证', '认可', '监督管理', '委员会', '(', '下称', '“', '认监委', '”', ')', '递交', '了', '一份', '文件', ',', '称', '如果', '把', '牙膏', '纳入', '认证', ',', '将', '不利于', '企业', '的', '发展', '。', '\n', '\u3000', '\u3000', '文件', '陈述', '了', '数条', '理由', ',', '诸如', '牙膏', '企业', '的', '每个', '产品', '都', '必须', '认证', '将会', '影响', '到', '生产', '和', '销售', '的', '效率', '等等', '。', '\n', '\u3000', '\u3000', '文件', '还称', ',', '即便', '必须', '认证', ',', '也', '应该', '是', '认证', '“', '口腔', '护理', '”', '用品', ',', '而', '不是', '“', '口腔', '保健', '”', '用品', '。', '\n', '\u3000', '\u3000', '4', '月', '13', '日', ',', '认监委', '发布', '了', '《', '口腔', '保健用品', '认证', '管理', '办法', '(', '征求意见', '稿', ')', '》', '。', '\n', '\u3000', '\u3000', '自', '发布', '之', '日', '以来', ',', '围绕', '这', '两个', '词', '的', '拉锯', '始终', '没有', '停止', '。', '而', '在', '意见', '征求', '期', '过后', ',', '卫生部', '法规', '司将', '根据', '程序', '将', '这个', '办法', '发布', '成为', '部颁标准', '。', '\n', '\u3000', '\u3000', '“', '如', '不', '采用', '‘', '保健', '’', ',', '而', '采用', '‘', '护理', '’', ',', '那么', '办法', '将', '失去', '意义', '。', '”', '江苏', '雪豹', '日化', '有限公司', '的', '董事长', '童渝于', '昨日', '向', '认监委', '提交', '了', '一份', '针锋相对', '的', '建议', '。', '\n', '\u3000', '\u3000', '据', '知情', '人士', '透露', ',', '牙膏', '协会', '如此', '激烈', '反对', '的', '原因', '是', ',', '一旦', '“', '保健', '”', '认证', '推行', ',', '将会', '由', '具备', '专业', '团队', '的', '相关', '单位', '来', '担当', '。', '而', '牙膏', '协会', '属于', '原', '轻工', '系统', ',', '缺乏', '这些', '资源', '。', '\n', '\u3000', '\u3000', '“', '所以', '他们', '更', '倾向', '于用', '‘', '护理', '’', '一词', ',', '可以', '名正言顺', '地', '把', '认证', '权', '纳入', '自己', '的', '管理', '范畴', '。', '”', '\n', '\u3000', '\u3000', '相对', '于', '强调', '牙膏', '功能性', '的', '“', '保健', '”', ',', '“', '护理', '”', '一词', '在', '字面', '的', '意义', '更', '倾向', '于', '清洁', '。', '前者', '的', '主管部门', '是', '卫生部门', ',', '后者', '则', '是', '牙膏', '协会', '。', '\n', '\u3000', '\u3000', '有', '消息人士', '称', ',', '现在', '已有', '数百家', '单位', '开始', '申请', '成为', '合法', '的', '牙膏', '认证', '机构', '。', '\n', '\u3000', '\u3000', '“', '最后', '的', '认证', '机构', '已经', '基本', '成型', '。', '”', '有关', '人士', '透露', '说', ',', '这个', '即将', '浮出', '水面', '的', '机构', '与', '卫生系统', '下属', '的', '全国', '牙防组', '有着', '紧密', '的', '“', '血缘', '”', '关系', '。', '\n', '\u3000', '\u3000', '在此之前', '的', '牙防组', '事件', '中', ',', '没有', '认证', '资格', '的', '全国', '牙防组', '违规', '认证', '十多年', ',', '被', '北京', '律师', '李纲告', '上', '法庭', '。', '此后', ',', '认监委', '紧急', '启动', '认证', '程序', ',', '目前', '最后', '的', '用词', '尚', '不明朗', '。'], 'C000008')
(['\u3000', '\u3000', '设想', '一下', ',', '如果', '某', '家', '银行', '花', '了', '大', '力气', '进行', '品牌', '建设', ',', '可', '顾客', '每每', '面对', '的', '是', '铁栅栏', '后面', '一张', '冷冰冰', '的', '脸', ',', '敷衍', '推诿', ',', '甚至', '恶语相向', ',', '他们', '自然', '很难', '相信', '这家', '银行', '所作', '的', '品牌', '承诺', ',', '也', '会', '动摇', '对', '银行', '的', '信任', '\n', '\u3000', '\u3000', '本报记者', '范松璐', '发自', '上海', '\n', '\u3000', '\u3000', '在', '一个', '金融服务', '品牌', '提升', '研讨会', '上', ',', '扬特', '品牌', '欧洲', '的', '董事长', 'TerryTyrrell', '饶有兴趣', '地', '展示', '了', '一些', '别出心裁', '的', '银行', '标志', ',', '从', '图案', '的', '设计', '中', '很', '容易', '发现', '为', '人们', '所', '熟悉', '的', '知名', '公司', '品牌', '的', '影子', ',', '比如', '麦当劳', '那个', '醒目', '的', '“', 'm', '”', '和', '苹果电脑', '缺', '了', '口', '的', '苹果', ',', '而', '类似', '可口可乐', '的', '标志', '下', ',', '索性', '写', '着', '“', 'CocaCash', '”', ',', '看到', '这些', '易于', '识别', '和', '引发', '联想', '的', '标志', ',', '台下', '观众', '发出', '一阵阵', '会心', '的', '笑声', '。', '\n', '\u3000', '\u3000', '“', '当然', ',', '这些', '银行', '标志', '只是', '我', '的', '想象', ',', '不过', ',', '目前', '在', '金融', '服务业', '领域', ',', '有没有', '像', '这', '几家', '企业', '那样', '影响', '深远', '的', '品牌', '呢', '?', '恐怕', '还', '没有', '。', '”', 'Terry', '说', '。', '在', '激烈', '的', '竞争', '环境', '中', ',', '弱势', '品牌', '可能', '会', '被', '猎食', ',', '不过', ',', '只', '知道', '掏钱', '购买', '弱势', '品牌', '、', '而', '并', '不能', '建立', '一个', '强大', '品牌', '的', '猎食', '者', '也', '未必', '能', '得到', '良好', '的', '投资', '回报', '。', '对', '现有', '的', '银行', '而言', ',', '建立', '自身', '的', '强势', '品牌', '适逢其时', ',', '而且', '相当', '重要', '。', '\n', '\u3000', '\u3000', '应求', '与众不同', '\n', '\u3000', '\u3000', '国内', '金融', '服务业', '暗流', '汹涌', '。', '2006', '年', '是', '中国', '进入', 'WTO', ',', '承诺', '开放', '金融市场', '的', '关键', '一年', ',', '外资银行', '即将', '进入', ',', '竞争', '格局', '正', '发生变化', ',', '市场', '内部', '也', '萌生', '诸多', '影响', '零售', '银行业务', '成长', '的', '因素', '—', '—', '高强度', '的', '经济', '发展', '、', '政府', '收缩', '对', '社会福利', '的', '补助', '、', '房屋', '私有', '率', '提高', '、', '人口', '日益', '老龄化', '、', '个人消费', '成为', '经济', '发展', '的', '关键', '动力', ',', '而且', '企业', '银行业务', '要', '利用', '总体性', '平衡', '来', '管理', '中小型', '企业', '贷款', '、', '开发', '收费', '产品', '。', '\n', '\u3000', '\u3000', '讲', '到', '银行', '现存', '的', '症结', ',', '人们', '的', '第一', '反应', '往往', '是', '不良贷款', '比率', '偏高', '、', '风险', '评估', '实战经验', '不足', '、', '消费性', '金融', '产品', '缺失', '、', '企业', '管理', '标准', '不够', '完备', '等等', '。', '但', '另一方面', ',', '不容忽视', '的', '是', ',', '国内', '银行', '的', '品牌', '建设', '也', '存在', '某种', '滞后', '—', '—', '鲜有', '差异化', '的', '品牌', '定位', '、', '品牌', '经营', '思维', '和', '以', '客户', '为本', '的', '鲜明形象', ',', '顾客', '感受', '到', '的', '环境', '和', '服务', '面目', '雷同', ',', '甚至', '干脆', '一模一样', '。', '扬特', '中国区', '创意', '总监', '黄鼎杰', '展示', '了', '一页', '图片', ',', '是', '某家', '知名', '商业银行', '的', '营业厅', ',', '“', '能', '看', '出来', '这', '是', '哪', '一家', '银行', '吗', '?', '”', '的确', ',', '对', '多数', '人', '来说', ',', '只能', '感觉', '似曾相识', ',', '却', '基本', '无从', '分辨', '究竟', '是', '哪', '一家', '。', '\n', '\u3000', '\u3000', '再', '看', '银行', '的', '图标', ',', '如果', '把', '具体', '的', '图案', '及', '字体', '隐', '去', ',', '会', '发现', '图标', '的', '颜色', '和', '形状', '极其', '接近', ',', '比如', '四大', '国有', '商业银行', '的', '图标', '都', '是', '圆形', '图案', '加上', '银行', '名字', '。', '“', '圆形', ',', '应该', '是', '钱币', '的', '意思', ',', '不过', '是否', '可以', '改换', '一下', '视觉', '形象', ',', '让', '自己', '更', '醒目', '些', ',', '区分', '性会', '带来', '更', '多', '机会', '。', '”', '黄鼎杰', '还', '展示', '了', '某家', '美国银行', '的', '营业厅', '照片', ',', '乍一看', '去', ',', '难以想象', '这', '居然', '会', '是', '银行', ',', '而', '更', '像', '一家', '前卫', '酒吧', '—', '—', '设计', '活泼', '明快', ',', '各种', '独特', '有趣', '的', '细节', '点缀', '夺人', '眼球', ',', '还有', '咖啡', '台', '和', '上网', '的', '电脑', ',', '“', '在', '这样', '的', '银行', '里', ',', '等待', '也', '似乎', '不', '那么', '让', '人', '心焦', '了', '—', '—', '不过', '这种', '风格', '在', '国内', '还是', '有些', '超前', ',', '可能', '很多', '人会', '不', '放心', '把', '钱', '放进去', '。', '”', '黄鼎杰', '觉得', ',', '毕竟', '大多数', '顾客', '对', '银行', '的', '期望', '还是', '以', '“', '专业', '、', '安全', '、', '权威', '”', '为主', ',', '在', '此基础', '上', ',', '如果', '适当', '加入', '更', '多', '“', '友善', '、', '亲切', '”', '的', '元素', ',', '会', '进一步', '提升', '银行', '在', '顾客', '心中', '的', '形象', '。', '比如', '在', '香港', ',', '大多数', '银行', '的', '保安', '并', '不', '穿', '制服', ',', '这些', '细节', '往往', '能', '拉近', '顾客', '的', '心理', '距离', '。', '\n', '\u3000', '\u3000', '对', '银行', '来说', ',', '通过', '识别系统', '、', '广告', '活动', '等', '方式', '来', '建立', '品牌', '构造', '是', '远远不够', '的', ',', '必须', '有', '更', '高标准', ',', '还要', '更', '多', '地', '从', '感情', '上', '联结', '顾客', ',', '建立', '强烈', '的', '认同感', '。', '银行业', '正在', '掀起', '一场', '争取', '客户', '心智', '的', '战役', '。', '\n', '\u3000', '\u3000', '别', '让', '冰山', '倾覆', '\n', '\u3000', '\u3000', 'Terry', '展示', '了', '一幅', '冰山', '的', '图片', ',', '在', '他', '看来', ',', '人们', '从', '外面', '感受', '一家', '企业', ',', '就', '如同', '看到', '露出', '海面', '的', '冰山', ',', '其中', '包括', '品牌', '的', '定位', '、', '个性', '、', '表述', '等', '方面', ',', '而', '水面', '以下', '深藏不露', '的', '更', '大部分', '则', '是', '企业', '自身', '对内', '的', '战略', '、', '愿景', '、', '价值', '和', '激励', ',', '这些', '是', '令', '品牌', '长久', '保持', '活力', '的', '源泉', ',', '作用', '更为', '关键', ',', '正', '所谓', '“', '吸引', '人', '的', '真实', '”', '(', 'com', ' ', 'p', ' ', 'e', ' ', 'llin', ' ', 'g', ' ', 'tru', ' ', 'th', ')', '。', '露出', '水面', '的', '冰山', '可以', '吸引', '外界', '注意', ',', '但', '倘若', '缺少', '真实', '的', '根基', ',', '冰山', '终究', '难逃', '倾覆', '的', '命运', '。', '\n', '\u3000', '\u3000', '很多', '企业', '在', '努力', '建立', '和', '管理', '品牌', '的', '时候', ',', '不觉', '间会犯', '一个', '错误', ',', '只', '把', '注意力', '聚焦', '在', '顾客', '身上', ',', '而', '忽略', '了', '对', '员工', '的', '沟通', '、', '了解', '和', '重视', '。', '\n', '\u3000', '\u3000', '“', '如果', '不能', '把', '员工', '培养', '成', '忠实', '的', '内部', '品牌', '拥护者', ',', '那', '就', '太', '可惜', '了', '。', '”', '扬特', '中国区', '董事', '总经理', 'Debora', ' ', 'Chatwin', ' ', '认为', ',', '前线', '员工', '应该', '成为', '真正', '的', '品牌', '大使', ',', '发挥', '独特', '能力', ',', '和', '顾客', '建立', '良好', '关系', ',', '给', '公司', '带来', '利润', ',', '自己', '也', '得到', '更大', '的', '满足', '。', '\n', '\u3000', '\u3000', '员工', '投入', '度', '对', '公司', '的', '回报', '影响', '不可', '忽视', ',', '《', '星期日', '泰晤士报', '》', '在', '2002', '年', '一项', '“', '最佳雇主', '”', '调查', '中', '也', '指出', ',', '获得', '雇员', '好评', '的', '公司', '股价', '和', '股息', '收益', '增幅', '达', '25', '%', ',', '远高于', '同期', '英国', '全股', '指数', '6.3%', '的', '上涨幅度', '。', '再', '回到', '国内', ',', '盖勒', '普', '2004', '年', '进行', '了', '一项', '调查', ',', '将', '工作', '的', '人们', '分为', '“', '投入', '型', '”', '、', '“', '不', '投入', '型', '”', '、', '“', '积极', '投入', '型', '”', '三种', '类型', ',', '结果显示', ',', '有', '68%', '的', '人', '属于', '“', '不', '投入', '型', '”', ',', '对', '工作', '没有', '激情', ',', '觉得', '工作', '与', '自己', '个人', '关系不大', ',', '工作', '时', '几乎', '形同', '梦游', '。', '粗暴', '、', '冷漠', '、', '不', '满足', '的', '员工', '会', '伤及', '客户', '和', '公司', '自身', ',', '身处', '服务业', '的', '银行', '更是如此', '。', '\n', '\u3000', '\u3000', '设想', '一下', ',', '如果', '某', '家', '银行', '花', '了', '大', '力气', '进行', '品牌', '建设', ',', '可', '顾客', '每每', '面对', '的', '是', '铁栅栏', '后面', '一张', '冷冰冰', '的', '脸', ',', '敷衍', '推诿', ',', '甚至', '恶语相向', ',', '他们', '自然', '很难', '相信', '这家', '银行', '所作', '的', '品牌', '承诺', ',', '也', '会', '动摇', '对', '银行', '的', '信任', '。', '许多', '国有', '商业银行', '在', '此', '方面', '可能', '需要', '多一些', '反思', '。', '“', '领导层', '的', '重视', '是', '使得', '员工', '与', '品牌', '紧密', '联结', '在', '一起', '的', '重要', '因素', '。', '”', 'Terry', '表示', '。', '\n', '\u3000', '\u3000', '“', '员工', '联结', '”', '修固', '品牌', '根基', '\n', '\u3000', '\u3000', '银行', '的', '顾客', '细分', '、', '产品开发', '、', '风险管理', '都', '需要', '高水平', '的', '管理者', '和', '职员', ',', '有些', '人才', '要', '从', '外部', '市场', '引进', '并', '整合', '到', '银行', '的', '运营', '和', '文化', '中', ',', '这', '一点', '上', ',', '超越', '金钱', '奖励', '而', '创造', '积极向上', '的', '企业', '文化', '可能', '更为', '长远', '。', '\n', '\u3000', '\u3000', '渣打银行', '在', '员工', '联结', '方面', '的', '努力', '产生', '了', '一定', '的', '效果', ',', '面对', '资源', '收缩', '、', '员工', '士气', '开始', '低落', '的', '现象', ',', '银行', '开展', '了', '名为', '“', '树立', '典范', '”', '(', 'TaketheLead', ')', '的', '内部', '沟通', '计划', ',', '希望', '将', '所有', '人力资源', '和', '传播', '活动', '加以', '整合', ',', '清晰', '传递', '管理层', '的', '承诺', ',', '对', '员工', '进行', '积极', '有效', '的', '奖励', ',', '使', '他们', '重获', '工作', '的', '信心', '和', '自豪感', ',', '表现', '自己', '的', '领导', '才能', '。', '\n', '\u3000', '\u3000', '计划', '的', '代言人', '是', '一个', '活泼', '的', '卡通人物', '“', 'StarMan', '”', '(', '星仔', ')', ',', '它', '的', '各种', '形象', '代表', '了', '各种', '“', '树立', '典范', '”', '的', '行动', ',', '力求', '将', '抽象', '鼓励', '变成', '具体', '榜样', '。', '渣打银行', '向', '高级', '经理', '们', '发放', '一套', '介绍', '计划', '的', '录像带', '和', '新', '的', '员工', '通讯录', ',', '贯彻', '名为', '“', 'JustSayThankYou', '”', '(', '说句', '谢谢您', ')', '的', '员工', '表扬', '计划', ',', '用', '有', '“', '星', '”', '形象', '的', '卡片', '给', '努力', '工作', '的', '同事', '写', '谢谢', ',', '公司', '刊物', '也', '更名', '为', '“', 'TheLeader', '”', '(', '典范', ')', '。', '另外', ',', '银行', '在', '对外', '的', '信息', '传递', '中', '也', '采用', '很多', '“', '星仔', '”', '标志', ',', '这', '一切', '都', '使', '员工', '对', '整个', '计划', '的', '印象', '不断', '深化', ',', '并', '逐步', '加强', '认同感', '。', '最终', ',', '顾客', '满意度', '显著', '上升', ',', '员工', '流失', '减少', ',', '对', '品牌', '内涵', '的', '理解', '更深', '。', '\n', '\u3000', '\u3000', '“', '员工', '联结', '”', '不', '只是', '让', '大伙儿', '了解', '正在', '发生', '的', '事情', ',', '更要', '得到', '他们', '的', '投入', '和', '参与', ',', '与', '品牌', '之间', '产生', '一种', '紧密', '的', '情感', '。', '这样', '不仅', '能', '使', '冰山', '露出', '水面', '的', '部分', '看上去', '很', '美', ',', '深埋在', '水下', '、', '不易', '为', '人', '所', '见', '的', '真实', '根基', '也', '会', '更加', '牢固', ',', '做到', '这些', ',', '依靠', '银行', '自身', '长久', '的', '修为', '。'], 'C000008')
(['\u3000', '\u3000', '杭州', '\u3000', '\u3000', '时间', ':', '2005', '年', '10', '月', '9', '日', '-', '11', '日', ' ', ' ', '9', ':', '00', '-', '18', ':', '00', '\u3000', '\u3000', '地址', ':', '杭州', '华辰', '国际饭店', ' ', '四层', '会议厅', '(', '杭州', '平', '海路', '27', '号', ')', '\u3000', '\u3000', '南京', '\u3000', '\u3000', '时间', ':', '2005', '年', '10', '月', '17', '日', '-', '19', '日', ' ', ' ', ' ', '9', ':', '00', '-', '18', ':', '00', '\u3000', '\u3000', '地址', ':', '南京', '希尔顿', '国际', '大酒店', ' ', '二层', 'A', '厅', '(', '南京', '中山东路', '319', '号', ')', '\u3000', '\u3000', '上海', '\u3000', '\u3000', '时间', ':', '2005', '年', '10', '月', '21', '日', '-', '23', '日', ' ', '9', ':', '00', '-', '18', ':', '00', '\u3000', '\u3000', '地址', ':', '上海图书馆', ' ', '第一', '展厅', '(', '上海市', '淮海中路', '1555', '号', ')', '\u3000', '\u3000', '济南', '\u3000', '\u3000', '时间', ':', '2005', '年', '10', '月', '27', '日', '-', '29', '日', ' ', '9', ':', '00', '-', '18', ':', '00', '\u3000', '\u3000', '地址', ':', '山东', '大厦', ' ', '一层', '多功能厅', '(', '济南市', '马鞍山', '路', '2', '-', '1', '号', ')', '\u3000', '\u3000', '北京', '\u3000', '\u3000', '时间', ':', '2005', '年', '11', '月', '1', '日', '-', '3', '日', ' ', '9', ':', '00', '-', '18', ':', '00', '\u3000', '\u3000', '地址', ':', '北京', '港澳', '中心', ' ', '二层', '宴会', '大厅', '(', '北京', '朝阳门', '北大街', '2', '号', ')', '\u3000', '\u3000', '\u3000', '\u3000', '拍', ' ', '卖', ' ', '预', ' ', '展', '\u3000', '\u3000', '时间', ':', '2005', '年', '11', '月', '23', '日', '-', '25', '日', ' ', ' ', ' ', '9', ':', '00', '-', '20', ':', '00', '\u3000', '\u3000', '地点', ':', '北京', '亚洲', '大酒店', '(', '北京', '工体', '北路', '新中', '西街', '8', '号', ')', '\u3000', '\u3000', '拍', ' ', ' ', ' ', ' ', ' ', '卖', '\u3000', '\u3000', '时间', ':', '\u3000', '\u3000', '2005', '年', '11', '月', '26', ' ', ' ', ' ', '上午', '9', ':', '30', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', '2005', '年', '11', '月', '26', ' ', ' ', '下午', '13', ':', '00', '\u3000', '\u3000', '中国书画', '(', '一', ')', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', '中国书画', '(', '二', ')', '\u3000', '\u3000', '2005', '年', '11', '月', '27', ' ', ' ', ' ', '上午', '9', ':', '30', '\u3000', '\u3000', '中国书画', '(', '三', ')', ' ', ' ', '-', '-', '《', '当代', '中国画', '风貌', '》', '\u3000', '\u3000', '2005', '年', '11', '月', '27', ' ', ' ', '下午', '13', ':', '00', '\u3000', '\u3000', '中国', '油画', '\u3000', '\u3000', '地点', ':', '北京', '亚洲', '大酒店', ' ', '三层', '多功能厅', '(', '北京', '工体', '北路', '新中', '西街', '8', '号', ')', '\u3000', '\u3000', '搜狗', '(', 'www', '.', 'sogou', '.', 'com', ')', '搜索', ':', '“', '书画', '”', ',', '共', '找到', '2', ',', '095', ',', '334', '\n', '个', '相关', '网页', '.', '\x00', '\x00'], 'C000023')
(['\u3000', '\u3000', '新华网', '深圳', '3', '月', '3', '日电', '(', '记者', '贾文军', ')', '全国', '拳击', '锦标赛', '3', '日', '在', '深圳市', '龙岗', '体育中心', '拉开战幕', ',', '在', '接下来', '的', '一周', '里', ',', '来自', '全国', '各地', '的', '200', '多名', '拳击', '健儿', '将', '在', '这里', '展开', '角逐', '。', '\n', '\n', '\u3000', '\u3000', '本次', '锦标赛', '由', '国家体育总局', '拳击', '跆拳道', '运动', '管理中心', '主办', '。', '比赛', '设置', '了', '51', '公斤', '、', '57', '公斤', '、', '64', '公斤', '、', '75', '公斤', '和', '91', '公斤', '5', '个', '级别', ',', '全国', '各地', '共有', '45', '支', '代表队', '参赛', '。', '\n', '\n', '\u3000', '\u3000', '此前', ',', '中国', '拳击', '队', '已经', '在', '深圳', '进行', '了', '3', '个', '月', '的', '冬训', '。', '国家体育总局', '拳击', '跆拳道', '运动', '管理中心', '副', '主任', '崔', '富国', '表示', ',', '要', '通过', '这次', '比赛', '来', '检验', '冬训', '的', '成果', ',', '也', '要', '根据', '比赛', '成绩', '为', '2008', '年', '北京', '奥运会', '选拔', '优秀人才', '。', '\n'], 'C000014')
(['\u3000', '\u3000', '中广网', '5', '月', '9', '日', '广州', '图库', '消息', '(', '记者', '何伟奇', ' ', '通讯员', '仇文确', ')', '据', '广东', '肇庆', '图库', '旅游', '部门', '统计', ',', '“', '五一', '”', '黄金周', '到', '肇庆', '各地', '主要', '旅游', '景区', '的', '游客', '人数', '达', '106', '万人次', ',', '与', '去年', '同期相比', '增长', '16%', ',', '其中', '城市', '接待', '旅游者', '人数', '为', '55.95', '万人次', ',', '同比', '增长', '10.2%', ',', '旅游', '收入', '2.09', '亿元', ',', '同比', '增长', '12.4%', '。', '\n', '\u3000', '\u3000', ' ', '\n', '\n', '\n', '\n', '\n', '\n', '\n', '\u3000', '\u3000', '\u3000', '“', '五一', '”', '黄金周', '肇庆', '鼎湖山', '举行', '“', '山泉', '泼水节', '”', '\n', '\u3000', '\u3000', '“', '五一', '”', '黄金周', '期间', ',', '七星岩', '图库', '推出', '的', '“', '十里', '走单骑', '”', '自行车', '环湖', '游', '、', '鼎湖山', '“', '山泉', '泼水节', '”', '、', '德庆', '醇正', '岭面', '古迹', '游', '、', '封开', '萝筐', '节', '、', '梦多奇', '溶洞', '、', '怀集', '燕峰峡', '温泉', '漂流', '、', '广宁', '竹海', '美食', '、', '四', '会', '造纸', '村', '访古', '、', '高', '要', '生态园', '寻梦', '等', '活动', '让', '游客', '感受', '到', '肇庆', '千里', '旅游', '走廊', '旅游', '“', '天天', '有', '新意', '、', '日日', '景', '不同', '”', '的', '休闲', '旅游', '新体验', '。', '\n', '\u3000', '\u3000', '\n', '\n', '\u3000', '\u3000', '\u3000', '\u3000', '肇庆', '千里', '旅游', '走廊', '如诗如画', '\n', '\u3000', '\u3000', '今年', '肇庆市', '不断完善', '旅游', '配套', '设施', '建设', ',', '在', '千里', '旅游', '走廊', '上', '新', '增设', '了', '多个', '一目了然', '的', '景区', '指引', '牌', ',', '为', '自驾车', '旅游', '人士', '提供', '了', '清晰', '的', '指引', '。', '此外', '还', '加强', '了', '旅游', '安全', '生产', '管理', '和', '规范', '旅游', '服务质量', '管理', ',', '推出', '了', '旅游', '志愿者', '服务', ',', '为', '到达', '景区', '的', '游客', '免费', '提供方便', '指引', ',', '受到', '众多', '中外', '旅游者', '的', '欢迎', '。', '\n', '\u3000', '\u3000', '来源', ':', '中国', '广播网'], 'C000016')
(['\n', '\u3000', '\u3000', '皇帝', '“', '金口', '”', '吓', '走', '奇才', '\n', '\u3000', '\u3000', '詹姆斯', '绝对', '全能', ',', '能', '突破', '、', '能', '投篮', '、', '能', '运球', '、', '能', '传球', ',', '还', '能', '…', '…', '用', '嘴', '赢得', '比赛', '。', '在', '骑士队', '114', '比', '113', '战胜', '奇才队', '以', '总比分', '4', '比', '2', '晋级', '东区', '半决赛', '的', '比赛', '中', ',', '詹姆斯', '就', '施展', '了', '一回', '他', '的', '嘴', '上', '功夫', ',', '仅', '只言片语', '就', '说', '得', '阿里', '纳斯罚', '输', '了', '比赛', '。', '刚刚', '在', '联盟', '里', '混', '了', '三年', '的', '詹姆斯', ',', '已经', '开始', '向伯德', '、', '米勒', '等', '“', '口技', '”', '出众', '的', '老前辈', '看齐', '了', '。', '\n', '\u3000', '\u3000', '现场', ' ', '一', '张嘴', '战败', '一', '双手', '\n', '\u3000', '\u3000', '阿里', '纳斯有', '一双', '投手', '的', '手', ',', '这', '双手', '可以', '让', '他', '投中', '三分', '线', '两米', '开外', '的', '三分球', ',', '可以', '让', '他', '在', '对', '骑士队', '的', '生死', '大战', '上', '独得', '36', '分', '。', '然而', '阿里', '纳斯', '没有', '想到', ',', '当', '这', '双', '可以', '把', '罚球', '命中率', '控制', '在', '80', '%', '以上', '的', '手', '遭遇', '詹姆斯', '宽', '而', '厚', '的', '双唇', '时', ',', '竟然', '抖', '得', '连', '一个', '球', '也', '罚', '不进', '。', '\n', '\u3000', '\u3000', '是', '阿里', '纳斯', '的', '手', '葬送', '了', '奇才队', ',', '还是', '从', '詹姆斯', '唇间', '吐出', '的', '只言片语', '成就', '了', '骑士', '?', '\n', '\u3000', '\u3000', '一切', '应该', '从', '比赛', '最后', '两秒', '说起', '。', '当时', ',', '得到', '球', '的', '阿里', '纳斯', '没有', '选择地', '在', '三分', '线', '两米', '开外', '起跳', '投篮', '。', '球', '出手', '后', ',', '阿里', '纳斯', '的', '双眼', '一直', '盯', '着', '皮球', '在', '空中', '飞行', '的', '轨迹', ',', '当球', '进筐', '的', '一刹那', ',', '阿里', '纳斯', '几乎', '和', '全场', '观众', '的', '惊呼', '声', '同步', '举起', '双手', '。', '这', '是', '他', '对', '这', '双手', '的', '感谢', ',', '是', '它们', '让', '奇才队', '出现', '了', '一丝', '生', '的', '希望', '。', '或许', ',', '当时', '的', '阿里', '纳斯', '已经', '开始', '认为', '胜利', '女神', '在', '这', '一天', '是', '站', '在', '他们', '这边', '的', '。', '\n', '\u3000', '\u3000', '可', '一切', '并', '不', '顺利', ',', '阿里', '纳斯', '的', '最后', '一投', '好像', '耗尽', '了', '他', '的', '神奇', '。', '在', '加时赛', '里', ',', '骑士队', '的', '防守', '让', '他', '一分', '未得', '。', '直到', '比赛', '还', '剩', '15', '秒', ',', '休斯', '对', '阿里', '纳斯', '犯规', ',', '后者', '才', '获得', '了', '两次', '轻易', '得分', '的', '罚球', '机会', '。', '而', '这时', ',', '奇才队', '领先', '一分', '。', '\n', '\u3000', '\u3000', '本赛季', '罚球', '命中率', '高达', '82%', '的', '阿里', '纳斯', '走上', '了', '罚球线', ',', '在', '习惯性', '的', '将', '球', '绕身', '三周', '之后', ',', '他', '的', '第一', '罚', '并', '没有', '罚中', '。', '手感', '还', '没有', '恢复', ',', '阿里', '纳斯', '深吸', '了', '一口气', '。', '\n', '\u3000', '\u3000', '就', '在', '这时', ',', '詹姆斯', '走', '到', '阿里', '纳斯', '身边', ',', '拍', '着', '对方', '的', '胸口', ',', '低着头', '轻轻地', '说道', ':', '“', '如果', '你', '连', '第二', '罚', '也', '错失', '了', ',', '你', '知道', '谁', '会', '来', '终结', '比赛', '。', '”', '在', '之前', '第三场', '和', '第五场', '的', '较量', '中', ',', '骑士队', '均', '以', '一分', '优势', '险胜', ',', '而且', '都', '是', '由', '詹姆斯', '在', '最后', '时刻', '强攻', '上篮', '投中', '制胜球', '。', '\n', '\u3000', '\u3000', '阿里', '纳斯', '的', '表情', '变得', '很', '凝重', ',', '而', '他', '的', '罚篮', '准备', '动作', '也', '发生', '了', '改变', '。', '他', '第二次', '罚球', '前', ',', '并', '没有', '在', '腰间', '绕球', ',', '而是', '直接', '罚篮', '。', '这是', '平时', '的', '阿里', '纳斯', '绝不会', '做', '的', '事情', '。', '阿里', '纳斯', '心急', '了', ',', '方寸大乱', '!', '结果', ',', '第二', '罚球', '偏得', '比', '第一', '罚时', '还', '离谱', '。', '骑士队', '反攻', '的', '机会', '来', '了', '。', '\n', '\u3000', '\u3000', '战术', ' ', '皇帝', '发话', ' ', '小兵', '下手', '\n', '\u3000', '\u3000', '詹姆斯', '真的', '履行', '了', '对', '阿里', '纳斯', '的', '“', '诺言', '”', ',', '在', '接下来', '的', '进攻', '中', '对', '奇才队', '进行', '了', '绝杀', '吗', '?', '没有', '。', '完成', '绝杀', '的', '是', '阿里', '纳斯', '根本', '想不到', '的', '达蒙', '·', '琼斯', '。', '应该', '说', ',', '詹姆斯', '的话', '完全', '是', '一次', '攻心', '战术', '。', '\n', '\u3000', '\u3000', '在', '阿里', '纳斯罚', '失两球', '后', ',', '骑士队', '随即', '叫', '了', '暂停', '。', '主帅', '布朗', '布置', '了', '他', '这场', '比赛', '的', '最后', '一个', '战术', ':', '詹姆斯', '主攻', ',', '休斯', '接应', ',', '如果', '休斯', '还', '没有', '机会', ',', '球', '就', '交给', '琼斯', '投', '。', '\n', '\u3000', '\u3000', '比赛', '再次', '开始', ',', '詹姆斯', '一', '接到', '球', ',', '阿里', '纳斯', '和', '丹尼尔斯', '马上', '跟', '出', '三分', '线', ',', '对', '詹姆斯', '进行', '包夹', ',', '奇才队', '显然', '不', '希望', '再', '重蹈', '前', '几场', '的', '覆辙', ',', '因此', '立刻', '对', '其', '采取', '包夹', '战术', '。', '已经', '知道', '如何', '应对', '的', '“', '小', '皇帝', '”', '将球', '传给', '休斯', ',', '而', '在', '一旁', '防守', '琼斯', '的', '巴特勒', '立刻', '选择', '了', '放弃', '对', '琼斯', '的', '防守', ',', '去', '盯防', '休斯', '。', '而', '此时', '琼斯', '在', '底线', '无人', '防守', ',', '休斯', '立即', '传球', ',', '琼斯', '一击', '命中', '。', '\n', '\u3000', '\u3000', ' ', '\n', '“', '很', '显然', ',', '胜利', '女神', '今晚', '并', '没有', '站', '在', '我们', '这边', '。', '你', '能', '想象', '吗', '?', '一个', '罚球', '命中率', '在', '80%', '的', '投手', ',', '在', '最后', '时刻', '竟然', '两罚', '不', '中', '。', '我', '只能', '说', ',', '今晚', '太', '糟糕', '了', '。', '”', '比赛', '已经', '结束', ',', '阿里', '纳斯', '还', '在', '想着', '刚才', '发生', '的', '事情', '。', '\n', '\u3000', '\u3000', '历史', ' ', '“', '邮差', '周日', '不', '送信', '”', '\n', '\u3000', '\u3000', '詹姆斯', '并', '不是', '第一个', '使用', '攻心', '战术', '帮助', '球队', '获胜', '的', '人', '。', '这', '其中', '最', '经典', '的', '莫过于', '原', '公牛队', '著名', '球星', '皮蓬', '对', '马龙', '说', '的', '那句', '“', '邮差', '周日', '不', '送信', '”', ',', '简直', '就是', '詹姆斯', '对', '阿里', '纳斯', '的', '翻版', '。', '\n', '\u3000', '\u3000', '1996', '-', '97', '赛季', '公牛', '与', '爵士', '总决赛', '第六场', ',', '那', '是', '一个', '星期天', '。', '两支', '球队', '杀得', '难解难分', ',', '终场', '前', '35', '秒', '战成', '82', '比', '82', '平', '。', '马龙', '在', '最后', '关头', '获得', '罚球', '机会', ',', '但', '站', '在', '一边', '的', '皮蓬', '对', '绰号', '“', '邮差', '”', '的', '马龙', '说', ':', '“', '星期天', '邮差', '不', '送信', '。', '”', '一句', '话', '让', '马龙', '“', '心惊胆战', '”', ',', '结果', '终场', '前', '9.2', '秒', '居然', '两次', '关键', '罚球', '砸', '筐', '而', '出', '。', '\n', '\u3000', '\u3000', '而', '此后', '“', '飞人', '”', '乔丹', '在', '下', '一', '回合', '进攻', '时', ',', '一个', '胯下', '运球', ',', '突然', '急停', '并', '向', '后撤', '步', ',', '一记', '稳稳', '的', '跳投', '随着', '终场哨', '响', '飞入', '篮筐', ',', '公牛队', '84', '比', '82', '两分', '险胜', '。', '这一球', '也', '是', '近', '20', '年来', 'NBA', '总决赛', '中', '惟一', '一个', '真正', '的', '压哨', '绝杀', '球', '。', '\n', '\u3000', '\u3000', '“', '口技', '大师', '”', ' ', '各有', '绝活', '\n', '\u3000', '\u3000', '用', '言语', '干扰', '对手', '心态', ',', '从', '精神', '上', '击败', '对手', '的', '情况', '在', 'NBA', '的', '赛场', '上', '很', '普遍', ',', '包括', '伯德', '、', '乔丹', '、', '米勒', '在内', '的', '一批', '天皇巨星', '都', '会', '利用', '这', '招来', '打击', '对手', '的', '自信心', '。', '然而', '每位', '巨星', '运用', '“', '口技', '”', '的', '特点', '却', '各不相同', '。', '\n', '\u3000', '\u3000', '伯德', ' ', '先知', '型', '\n', '\u3000', '\u3000', '伯德', '喜欢', '对', '某个', '事件', '进行', '“', '预测', '”', ',', '再', '把', '他', '“', '预测', '”', '的', '结果', '告诉', '对手', ',', '最后', '用', '自己', '的', '实力', '将', '他', '的', '“', '预言', '”', '实现', '。', '\n', '\u3000', '\u3000', '“', '我要', '在', '这里', '进', '三分', '送', '你们', '回家', '。', '”', '—', '—', '伯德', '在', '一场', '比赛', '的', '最后', '一次', '进攻', '前', '指着', '三分', '线外', '的', '一块', '地板', '对', '对手', '说', ',', '当时', '拥有', '进攻', '权', '的', '凯尔特人', '队', '与', '对手', '平分', '。', '结果', '界外球', '开出', '后', ',', '伯德', '真的', '在', '那里', '接球', '投进', '压哨', '三分', ',', '赢下', '比赛', '。', '\n', '\u3000', '\u3000', '“', '你们', '决定', '谁', '要', '拿', '第二名', '了', '吗', '?', '”', '—', '—', '1986', '年', '全明星', '三分球', '大赛', '前', ',', '伯德', '一进', '休息室', '就', '问', '所有', '参赛者', '。', '伯德', '最终', '夺得', '了', '那届', '三分', '大赛', '的', '冠军', '。', '\n', '\u3000', '\u3000', '乔丹', ' ', '显摆', '型', '\n', '\u3000', '\u3000', '乔丹', '喜欢', '向', '所有人', '炫耀', '自己', '的', '超人', '实力', ',', '因此', ',', '使用', '“', '口技', '”', '也', '就', '变成', '了', '他', '向', '对手', '显摆', '的', '工具', '。', '在', '他', '使用', '这', '招时', ',', '完全', '是', '一副', '上帝', '对', '凡人', '训诫', '的', '模样', '。', '\n', '\u3000', '\u3000', '“', '你', '投', '呀', ',', '我', '让', '你', '投', '…', '…', '投呀', '!', '”', '—', '—', '乔丹', '在', '防守', '时', '最常', '说', '的话', ',', '通常', '情况', '下', '对手', '都', '会', '投篮不中', '。', '\n', '\u3000', '\u3000', '“', '加油', ',', '你', '差点', '就', '守住', '我', '了', '。', '”', '—', '—', '乔丹', '在', '进攻', '得手', '之后', '最常', '说', '的话', '。', '\n', '\u3000', '\u3000', '姚明', ' ', '\n', '努力', '型', '\n', '\u3000', '\u3000', '别以为', '母语', '是', '汉语', '的', '姚明', '不会', '使用', '“', '口技', '”', '。', '在', 'NBA', '征战', '了', '三个', '赛季', '的', '姚明', '融入', 'NBA', '是', '全方位', '的', ',', '在', '口技', '方面', '虽然', '不比', '之前', '几位', '大师', ',', '但', '也', '有', '上乘之作', '。', '\n', '\u3000', '\u3000', '“', '我要', '打得', '你', '把', '护齿', '都', '吞下去', '。', '”', '—', '—', '2005', '年', '2', '月', '10', '日', ',', '在', '火箭队', '105', '比', '92', '战胜', '公牛队', '的', '比赛', '中', ',', '姚明', '对', '公牛队', '中锋', '钱德勒', '说', '。', '在', '说完', '这句', '话', '后', ',', '姚明', '在', '对手', '头上', '连得', '6', '分', '。', '是', '役', ',', '他', '10', '投', '9', '中', '砍', '下', '21', '分', '。', '\n', '\u3000', '\u3000', '“', '口技', '对决', '”', '米勒', '太嫩', '\n', '\u3000', '\u3000', '使用', '“', '口技', '”', '攻击', '对手', ',', '并', '不是', '百分之百', '能', '成功', '的', '。', '在', 'NBA', '的', '历史', '中', ',', '经常', '使用', '“', '口技', '”', '的', '雷杰', '·', '米勒', '就', '碰到', '过', '使用', '“', '口技', '”', '得到', '反', '效果', '的', '事情', ',', '因为', '他', '攻击', '的', '对象', '是', '心理素质', '超强', '且', '更', '擅长', '“', '口技', '”', '的', '伯德', '。', '\n', '\u3000', '\u3000', '在', '米勒', '的', '新秀', '赛季', ',', '年轻', '的', '米勒', '在', '步行者队', '的', '主场', '第一次', '碰到', '伯德', '。', '当时', '步行者队', '落后', '两分', ',', '伯德', '获得', '罚球', '机会', '。', '米勒', '随即', '向伯德', '发出', '“', '嘿', '!', '嘿', '!', '”', '的', '干扰', '声', '。', '“', '你', '没', '开玩笑', '吧', ',', '菜鸟', '?', '”', '伯德', '对', '米勒', '说', ',', '然后', '从容', '地', '罚进', '一', '球', '。', '当伯德', '再次', '得到', '球时', ',', '他', '又', '说', ':', '“', '菜鸟', ',', '我', '告诉', '你', ',', '我', '是', '现在', '联盟', '里', '最', '顶尖', '的', '投手', ',', '全', 'NBA', '!', '知道', '吗', '?', '你', '还有', '什么', '想', '说', '的', '吗', '?', '”', '接着', ',', '伯德', '又', '罚进', '一', '球', '。', '“', '我', '当时', '真是', '蠢到', '十八层', '地狱', '去', '了', '。', '”', '米勒', '在', '自己', '的', '回忆录', '中', '提到', '这', '段', '往事', '时', ',', '评价', '自己', '当时', '的', '表现', '说', '。'], 'C000014')
(['\n', '【', '倾城', '之恋', '】', '&', 'nbsp', ';', '&', 'nbsp', ';', '&', 'nbsp', ';', '&', 'nbsp', ';', ' ', '1984', '年', '香港', '邵氏', '公司出品', '\n', '倾城', '之恋', '\n', '&', 'nbsp', ';', '&', 'nbsp', ';', '&', 'nbsp', ';', '&', 'nbsp', ';', '&', 'nbsp', ';', ' ', '到处', '都', '是', '传奇', ',', '可', '不见得', '有', '这么', '圆满', '的', '收场', '。', '胡琴', '咿咿呀呀', '拉着', ',', '在', '万盏', '灯火', '的', '夜晚', ',', '拉过来', '又', '拉', '过去', ',', '说', '不尽', '的', '苍凉', '的', '故事', '—', '—', '不问', '也罢', '!', '---', '【', '倾城', '之恋', '】', '\n', '出品', ':', '邵逸夫', '原著', ':', '张爱玲', '改编', ':', '蓬草', '美术', ':', '区丁平', '摄影', ':', '何东尼', '作曲', ':', '林敏怡', '作词', ':', '林敏聪', '演唱', ':', '汪明荃', '片长', ':', '95min', '语言', ':', '粤语', '/', '普通话', '外文', '别名', ':', 'Love', ' ', 'in', ' ', 'a', ' ', 'FallenCity', '(', '1984', ')', '副', '导演', ':', '关锦鹏', '、', '曹建南', '导演', ':', '许鞍华', '主演', ':', '周润发', '&', 'nbsp', ';', ' ', '饰', '&', 'nbsp', ';', ' ', '范柳原', '&', 'nbsp', ';', '&', 'nbsp', ';', '&', 'nbsp', ';', '&', 'nbsp', ';', '&', 'nbsp', ';', ' ', '缪骞', '人', '&', 'nbsp', ';', ' ', '饰', '&', 'nbsp', ';', ' ', '白流苏', '获奖', ':', '第', '25', '届', '金马奖', '最佳', '服装设计', ' ', '&', 'nbsp', ';', '&', 'nbsp', ';', '&', 'nbsp', ';', '&', 'nbsp', ';', '&', 'nbsp', ';', ' ', '第', '4', '届', '香港电影', '金像奖', '最佳', '音乐', '\n', '【', '剧情简介', '】', '&', 'nbsp', ';', '&', 'nbsp', ';', '&', 'nbsp', ';', '&', 'nbsp', ';', '&', 'nbsp', ';', '&', 'nbsp', ';', ' ', '本片', '改编自', '张爱玲', '的', '同名', '原著', '小说', ',', '是', '一部', '具有', '相当', '怀旧', '色彩', '的', '爱情故事', ',', '讲述', '一个', '城市', '(', '香港', ')', '的', '陷落', ',', '是', '为了', '成全', '范柳原', '(', '周润发', ')', '和', '白流苏', '(', '缪骞', '人', ')', '的', '爱情', '。', '导演', '许鞍华', '捕捉到', '了', '男女之间', '那种', '似假', '还', '真的', '微妙', '感情', ',', '但', '对白', '有所', '拘紧', ',', '局限', '在', '原著', '小说', '中', ',', '有', '欠', '挥洒自如', '。', '本片', '的', '情节', '发展', '为', '前后', '二', '部分', ',', '前半部', '描写', '离婚', '多年', '的', '白流苏', '在', '上海', '的', '娘家', '饱爱', '兄嫂', '的', '讽刺', '欺凌', ',', '后半部', '白流苏', '到', '了', '香港', ',', '跟', '风流', '浪子', '周润发', '展开', '了', '拉锯', '式', '的', '爱情', '。', '缪演', '得', '相当', '敏感', '而', '细腻', ',', '把', '一个', '不错', '的', '上海', '女子', '塑造', '得', '相当', '有', '味道', ',', '而周', '也', '卖弄', '了', '他', '的', '俊雅', '潇洒', '。', '幸而', '导演', '掌握', '了', '对白', '独有', '的', '尖刻', '嘲讽', ',', '重现', '了', '香港', '四十年代', '的', '风情', '。', '上', '一页', '&', 'nbsp', ';', '[', '1', ']', '&', 'nbsp', ';', '[', '2', ']', '&', 'nbsp', ';', '[', '3', ']', '&', 'nbsp', ';', '[', '4', ']', '&', 'nbsp', ';', '[', '5', ']', '&', 'nbsp', ';', '[', '6', ']', '&', 'nbsp', ';', '[', '7', ']', '&', 'nbsp', ';', '[', '8', ']', '&', 'nbsp', ';', '[', '9', ']', '&', 'nbsp', ';', '下', '一页', '&', 'nbsp', ';'], 'C000023')
(['\u3000', '\u3000', '时报讯', ' ', '昨天', '是', '五一', '黄金周', '的', '最后', '一天', ',', '游客', '们', '纷纷', '踏上', '了', '回家', '的', '旅程', ',', '宁波', '各大', '景区', '全面', '“', '退烧', '”', '。', '而', '此时', ',', '宁波', '的', '各大', '餐饮', '商场', '负责人', '却', '喜笑颜开', '。', '\n', '\u3000', '\u3000', '宁波市', '假日办', '统计数据', '显示', ',', '7', '天', '时间', '内', ',', '宁波市', '共', '接待', '游客', '216', '.', '3', '万人次', ',', '创', '历年', '五一', '黄金周', '新高', '。', '全市', '旅游', '总收入', '达', '12', '.', '9', '亿元', '人民币', ',', '同比', '增长', '12', '.', '5%', '。', '也就是说', ',', '游客', '在', '宁波', '的', '人均', '旅游', '单项', '消费', '近', '600', '元', '。', '\n', '\u3000', '\u3000', '随着', '人们', '旅游', '需求', '层次', '的', '提高', ',', '旅游', '正', '从', '观光', '时代', '转向', '休闲', '时代', ',', '这个', '特点', '在', '今年', '更为', '明显', '。', '“', '吃', '农家饭', '、', '住', '农家', '屋', '、', '学', '农家', '活', '、', '享', '农家乐', '”', ',', '乡村', '旅游', '景区', '成为', '了', '热点', '。', '\n', '\u3000', '\u3000', '从', '宁波市', '接待', '的', '游客', '分布', '情况', '分析', ',', '大部分', '来自', '省内', '周边地区', '和', '上海', '、', '江苏', '等', '地', ',', '景区', '内', '各地', '牌照', '的', '私家车', '成为', '亮点', '和', '看点', ',', '特别', '是', '随着', '高速公路', '网络', '的', '完善', ',', '来自', '长三角', '地区', '、', '福建', '、', '江西', '等', '地', '的', '私家车', '明显', '增多', ',', '宁波市', '已', '成为', '长三角', '地区', '一个', '重要', '的', '旅游', '目的地', '。', '\n', '\u3000', '\u3000', '今年', '的', '五一', '黄金周', ',', '宁波', '游客', '的', '出游', '观念', '趋于', '理性', '。', '和', '去年', '相比', ',', '出境游', '人数', '下降', ',', '国内游', '人数', '增长', ',', '但', '长线', '游', '的', '人数', '增长幅度', '不', '大', ',', '短线', '游', '和', '休闲', '度假', '线', '人气旺盛', '。', '宁波', '市民', '长线', '游', '主要', '集中', '在', '北京', '、', '海南', '、', '桂林', '[', '图库', ']', '、', '西安', '[', '图库', ']', '、', '大连', '[', '图库', ']', '、', '香港', '等', '地', ',', '长三角', '周边', '景点', '成为', '短线', '游', '的', '热点', '。', '甬金', '高速', '开通', '以后', ',', '往', '金华', '、', '江西', '方向', '的', '游客', '数量', '也', '呈', '快速增长', '态势', '。', '\n', '\u3000', '\u3000'], 'C000016')
(['\u3000', '\u3000', '新华社', '电', ' ', '美国宇航局', '官员', '近日', '说', ',', '宇航局', '已', '决定', '设立', '一项', '总', '奖金', '为', '2', '5', '0', '万美元', '的', '大奖赛', ',', '希望', '用', '这种', '方式', '选出', '未来', '登陆', '月球', '的', '飞行器', '设计方案', '。', '\n', '\u3000', '\u3000', '美宇航局', '副局长', '戴尔', '5', '月', '5', '日', '在', '加利福尼亚州', '举行', '的', '一次', '航天', '会议', '上', '说', ',', '宇航局', '已', '选定', '“', 'X', '大奖', '”', '基金会', '管理', '这项', '竞赛', ',', '宇航局', '除了', '出', '奖金', '外', ',', '也', '将', '在', '未来', '的', '月球', '登陆', '计划', '中', '应用', '获奖', '方案', '。', '\n', '\u3000', '\u3000', '这项', '大奖赛', '要求', '参赛者', '设计', '出能', '在', '月球', '上', '飞行', '、', '着陆', '的', '飞行器', '原型', '。', '“', 'X', '大奖', '”', '基金会', '说', ',', '它', '将', '比赛', '分成', '两个', '级别', ',', '在', '地球', '上', '模拟', '月球', '飞行', '。', '第一阶段', ',', '参赛', '飞行器', '要求', '从', '地球', '上', '的', '发射点', '发射', '到', '5', '0', '米', '高度', ',', '盘旋', '飞行', '9', '0', '秒钟', ',', '并', '在', '距', '发射点', '1', '0', '0', '米处', '的', '指定', '地点', '着陆', ',', '比赛', '的', '第一名', '将', '获得', '3', '5', '万美元', '奖金', '。', '\n', '\u3000', '\u3000', '而', '第二级', '别的', '难度', '高得', '多', '。', '参赛', '飞行器', '要求', '从', '发射点', '发射', '至', '5', '0', '米', '高度', ',', '盘旋', '飞行', '1', '8', '0', '秒', ',', '并', '在', '1', '0', '0', '米外', '类似', '月球', '表面', '的', '一处', '崎岖', '地点', '精确', '着陆', '。', '这项', '比赛', '的', '第一名', '将', '获得', '1', '2', '5', '万美元', '的', '奖金', ',', '其', '方案', '很', '可能', '被', '宇航局', '采纳', ',', '作为', '未来', '登陆', '月球', '的', '飞行器', '的', '原型', '。', '\n', '\u3000', '\u3000', '“', 'X', '大奖', '”', '基金会', '因', '举办', '私人', '设计', '航天器', '大奖赛', '而', '著名', ',', '著名', '航天', '设计师', '伯特', '·', '鲁坦', '设计', '的', '“', '宇宙飞船', '一号', '”', '于', '2', '0', '0', '4', '年', '成功', '地', '飞入', '亚', '轨道', ',', '成为', '全世界', '第一个', '私人', '设计', '建造', '的', '航天器', ',', '并', '赢得', '了', '1', '0', '0', '0', '万美元', '的', '“', 'X', '大奖', '”', '。'], 'C000013')
(['\u3000', '\u3000', '大学生', '小', '袁', '网上', '投', '简历', '求职', ',', '一家', '自称', '设在', '广东', '的', '跨国公司', '分公司', '很快', '就', '打来', '电话', '进行', '“', '面试', '”', '。', '然而', '小', '袁', '查询', '该', '公司', '在', '上海', '的', '总部', '得知', ',', '他们', '没有', '在', '广东', '设立', '分公司', ',', '也', '没有', '在', '广东', '进行', '招聘', '。', '警方', '提醒', ',', '这', '很', '可能', '是', '个', '骗局', '。', '\n', '\u3000', '\u3000', '小', '袁是', '在', '一', '知名', '人才', '网站', '上', '发出', '电子', '简历', '的', ',', '令小', '袁', '意外', '的', '是', ',', '简历', '没投', '几天', ',', '就', '有', '一家', '比较', '知名', '的', '半导体', '跨国公司', '给', '自己', '打', '来', '电话', '。', '一位', '姓', '曹', '的', '女士', '告诉', '他', ',', '公司', '现在', '正要', '\n', '\u3000', '\u3000', '引进', '一批', '毕业生', ',', '年前', '就', '到', '岗', '培训', ',', '询问', '小', '袁', '有没有', '去', '的', '意向', '。', '欣喜若狂', '的', '小', '袁', '当即', '就', '同意', '了', '。', '1', '月', '15', '日', ',', '对方', '煞有介事', '地', '给', '小', '袁', '进行', '了', '电话', '招聘', '面试', '。', '三天', '后', ',', '小', '袁', '接到', '电话', '通知', '面试', '通过', '了', ',', '于', '1', '月', '22', '日到', '广东', '东莞', '体检', '、', '复试', '。', '\n', '\u3000', '\u3000', '据', '小', '袁', '所知', ',', '这家', '半导体', '公司', '好像', '是', '在', '上海', ',', '而', '对方', '让', '去', '东莞', '复试', ',', '他', '有点', '纳闷', '。', '曹', '女士', '解释', '说', ',', '公司', '要', '在', '东莞', '设立', '分点', ',', '亟待', '一批', '相关', '专业', '的', '大学生', '加盟', '。', '随后', ',', '她', '又', '把', '公司', '丰厚', '的', '工资', '、', '住房', '待遇', '向小袁', '作', '了', '一番', '介绍', '。', '\n', '\u3000', '\u3000', '小', '袁', '动心', '了', ',', '1', '月', '17', '日', '他', '来到', '火车站', ',', '准备', '预订', '到', '东莞', '的', '车票', '。', '由于', '没有', '直达车', ',', '到', '广州', '的', '票', '也', '没有', '了', ',', '他', '只好', '又', '回到', '了', '学校', '。', '此时', ',', '冷静下来', '的', '小', '袁才', '感觉', '事情', '有点', '不对劲', '。', '随后', ',', '他', '上网', '搜索', '了', '这家', '公司', '的', '详细资料', ',', '发现', '只有', '上海', '总部', '在', '发布', '招聘启事', ',', '其他', '地方', '根本', '就', '没有', '设立', '分公司', '。', '东莞', '的', '114', '也', '根本', '查不到', '这家', '公司', '的', '电话', '。', '\n', '\u3000', '\u3000', '随后', ',', '小', '袁', '拨打', '了', '东莞', '110', '报警', '电话', ',', '当地', '民警', '告知', '这', '很', '可能', '是', '个', '骗局', '。', '此前', '就', '有', '不少', '急于', '找', '工作', '的', '大学生', ',', '被', '不法分子', '骗进', '传销', '窝点', '。', '\n', '\u3000', '\u3000', '(', '来源', ':', '北京', '人才', '市场报', ')'], 'C000022')
(['\u3000', '\u3000', '话题', '多', '、', '题材', '广', '、', '时间', '紧', '、', '要求', '高', '的', '议论文', '写作', '一直', '是', '雅思', '写作', '中', '的', '难点', ',', '思维', '狭窄', '、', '词汇', '不足', '也', '一直', '是', '中国', '考生', '的', '通病', ',', '如何', '在', '议论文', '写作', '中', '拓宽', '思路', '?', '怎样', '背诵', '8000', '个', '雅思', '词汇', '?', '备考', '雅思', '写作', '的', '误区', '和', '应对', '方法', '又', '是', '什么', '?', '上周末', ',', '启德', '教育', '吴建业', '老师', '在', '广州', '图书馆', '给', '广大', '考生', '上', '了', '一堂', '生动', '的', '雅思', '议论文', '写作', '课', '。', '\n', '\u3000', '\u3000', '开拓', '思维', '的', '十大', '原则', '\n', '\u3000', '\u3000', '据统计', ',', '近年来', '雅思', '议论文', '写作', '共有', '265', '个', '话题', ',', '常考', '的', '涉及', '环保', '、', '经济', '、', '社会', '、', '教育', '、', '犯罪', '等', '题材', ',', '十分', '广泛', '。', '鉴于', '很多', '考生', '写作', '时', '感觉', '无话可说', ',', '吴建业', '提醒', '考生', '从', '经济', '、', '时间', '、', '健康', '、', '情感', '、', '教育', '、', '心理', '、', '权利', '、', '文化', '、', '环保', '和', '道德', '十大', '原则', '来', '思考', '话题', '的', '意义', '。', '他', '以养', '狗', '为例', ':', '经济', '上要', '花', '很多', '钱', ';', '情感', '上', '亲近', '狗', '就', '会', '在', '一定', '程度', '上', '疏远', '家人', ';', '遛狗', '、', '给', '狗', '冲凉', '等', '浪费时间', ';', '狗', '传播', '疾病', '会', '影响', '健康', ';', '养狗会', '影响', '学习', ';', '狗', '很', '忠诚', ',', '养狗会', '让', '人', '从', '心理', '上', '疏远', '狡诈', '的', '人类', ';', '侵犯', '邻居', '的', '权利', ';', '狗', '到处', '排泄', '会', '破坏', '环境', '等', '。', '“', '这样', '大家', '碰到', '任何', '一个', '话题', '都', '不用', '心虚', '了', '。', '”', '但是', '他', '同时', '提醒', '广大', '考生', '不必', '面面俱到', ',', '只要', '挑出', '十大', '原则', '中', '的', '两三点', '来', '自圆其说', '就', '绰绰有余', '了', '。', '\n', '\u3000', '\u3000', '记住', '800', '个', '核心', '词汇', '\n', '\u3000', '\u3000', '“', '垃圾', '怎么', '说', '?', '可回收', '垃圾', '?', '可降解', '的', '垃圾', '?', '…', '…', '”', '课堂', '上', ',', '吴建业', '关于', '垃圾', '的', '几个', '提问', '难倒', '了', '很多', '在场', '的', '英语专业', '的', '学生', '。', '吴建业', '老师', '表示', ',', '中国', '学生', '在', '学校', '学习', '的', '词汇', '在', '很多', '场合', '用不上', ',', '比如', '英语专业', '八级', '侧重于', '文学名著', ',', '商务英语', '则', '侧重', '谈判', '、', '商业', '词汇', '。', '雅思', '需要', '8000', '词汇', ',', '但', '相当', '一部分', '考生', '疯狂', '地', '从', 'A', '背到', 'Z', ',', '还', '存在', '想', '说', '却说', '不', '出来', ',', '即使', '说', '得', '出来', '也', '衔接', '不来', '的', '问题', '。', '怎么办', '?', '\n', '\u3000', '\u3000', '“', '分类', '背诵', ',', '联想', '记忆', '。', '”', '吴建业', '告诉', '广大', '考生', ',', '只要', '掌握', '了', '800', '个', '词汇', ',', '就', '可', '轻松', '应对', '雅思', '写作', '。', '“', '当然', '这些', '词汇', '是', '剔除', '了', 'dog', '、', 'pig', '之类', '的', '核心', '词汇', '。', '”', '那', '什么', '词才', '叫', '核心', '词汇', '呢', '?', '吴建业', '举', '了', '一个', '例子', ',', '如由', '奢侈', '→', '贫穷', '→', '救助', '→', '难民', '→', '…', '…', ',', '就', '这样', '把', '相关联', '的', '词汇', '串通', '起来', '背诵', ',', '既', '掌握', '了', '词汇', ',', '而', '这些', '词汇', '往往', '是', '一篇', '文章', '中', '可能', '涉及', '的', '内容', '。', '\n', '\u3000', '\u3000', '写', '个性化', '的', '八股文', '\n', '\u3000', '\u3000', '吴', '老师', '还', '指出', '了', '考生', '的', '备考', '误区', '和', '应对', '方法', '。', '针对', '很多', '人', '希望', '通过', '学习', '外文', '名著', '来', '提高', '写作水平', '的', '想法', ',', '吴', '老师', '认为', '外国名著', '对', '大多数', '中国', '考生', '而言', '是', '可望而不可及', '的', '。', '“', '外国人', '学', '汉语', '要', '学习', '汉语', '说得好', '的', '大山', '和', '大牛', ',', '而', '不', '可能', '让', '他们', '学习', '鲁迅', '先生', '的', '《', '药', '》', '、', '《', '孔乙己', '》', '等', '名篇', '。', '”', '同样', ',', '中国', '考生', '要', '学习', '英语', '学得', '优秀', '的', '中国', '人', ',', '他', '认为', '真正', '优秀', '的', '教材', '其实', '是', '中国', '考生', '的', '优秀', '范文', '。', '\n', '\u3000', '\u3000', '提到', '一些', '辅导', '老师', '教育', '学生', '写作文', '一定', '要', '真情流露', ',', '想到', '什么', '就', '说', '什么', ',', '吴', '老师', '认为', '这', '是', '不', '现实', '的', ',', '因为', '对', '大多数', '中国', '考生', '来说', ',', '做到', '挥洒自如', '、', '下笔', '自若', '、', '真情流露', '很难', '。', '而', '很多', '人', '争相', '背诵', '名师', '的', '范文', '又', '搞', '得', '千人一面', ',', '味同嚼蜡', '。', '鉴于', '此', ',', '他', '认为', '既', '要', '学习', '范文', '的', '格式', ',', '又', '要', '有所', '改装', ',', '加入', '自己', '的', '东西', ',', '凸显', '个性', ',', '“', '写', '个性化', '的', '八股文', '”', '。', '\n', '\u3000', '\u3000', '讲座', '上', ',', '吴', '老师', '还', '提醒', '考生', '写作', '时', '不要', '想着', '标新立异', '、', '旁征博引', ',', '只要', '能够', '自圆其说', ',', '多用', '权威', '、', '翔实', '的', '数据', '事例', '来', '说明', '观点', '就', '好', ',', '否则', '会', '画蛇添足', '。'], 'C000020')
(['\u3000', '\u3000', '科龙德', '勤案', '又', '有', '新进展', ':', '已有', '多位', '科龙', 'H股', '股东', '到', '律师', '处', '咨询', '、', '登记', ',', '所涉', '股份', '达', '200', '余万股', '。', '而', '这些', '投资者', '正在', '为', '等待', '提起', '民事', '赔偿', '所', '需', '的', '前置条件', '焦急', '等待', '。', '\n', '\u3000', '\u3000', '4', '月', '29', '日', ',', '上海', '新', '望闻达', '律师', '事务所律师', '宋一欣', '、', '秦桢凯', '在', '中国', '证券', '网上', '发表', '了', '《', '向', '境内', '外科', '龙', 'H股', '投资者', '征集', '民事', '赔偿', '诉讼', '代理', '的', '启事', '》', ',', '全面', '接受', '科龙电器', '流通', 'H股', '及', 'A股', '投资者', '的', '诉讼', '及', '仲裁', '委托', '代理', '事项', '。', '宋一欣', '律师', '告诉', '《', '上海', '证券报', '》', '记者', ',', '“', '《', '启事', '》', '刊登', '当天', ',', '就', '有', 'H股', '股东', '前来', '咨询', '登记', ',', '由于', '五一', '长假', ',', '事务所', '休息', ',', '许多', 'H股', '股东', '想方设法', '找到', '我', '的', '电子信箱', '同', '我', '联系', '。', '截至', '今天', ',', '已有', '七八位', 'H股', '股东', '前来', '咨询', '、', '登记', ',', '所', '涉及', '股份', '己', '达', '50', '余万股', ',', '损失', '金额', '有待', '统计', '。', '这些', 'H股', '股东', '中有', '境外', '居民', '。', '他们', '正', '焦急', '等待', '此案', '前置程序', '的', '满足', '。', '”', '\n', '\u3000', '\u3000', '首位', '代表', '科龙', '股东', '状告', '德勤', '的', '上海市', '光明', '律师', '事务所', '南京', '分', '所', '律师', '涂勇则', '向', '记者', '透露', ':', '“', '多位', '科龙', 'H股', '股东', '前来', '向', '我', '咨询', '起诉', '事宜', '。', '其中', '一位', '就', '持有', '150', '万股', '科龙', 'H股', ',', '持股', '成本', '高达', '300', '多万元', '。', '他', '非常', '渴望', '前置程序', '能', '尽快', '满足', ',', '以便', '诉上', '公堂', '。', '”', '\n', '\u3000', '\u3000', '据', '宋一欣', '介绍', ',', '“', '根据', '最高人民法院', '司法解释', '的', '规定', ',', '提起', '虚假', '陈述', '民事', '赔偿', '诉讼', '必须', '满足', '前置条件', ',', '即', '中国证监会', '或', '财政部', '的', '行政处罚', '决定', ',', '或', '有关', '法院', '认定', '有罪', '并', '生效', '的', '刑事', '判决书', ',', '两者', '以先', '出台', '者', '为准', '。', '”', '\n', '\u3000', '\u3000', '“', '在', '科龙案', '中', ',', '中国证监会', '已经', '对', '科龙电器', '与', '德勤', '会计师', '事务所', '进行', '了', '行政处罚', '前', '的', '听证', '程序', ',', '如果', '没有', '意外', ',', '估计', '今年', '上半年', '内', '行政处罚', '决定', '将', '出台', ';', '而', '顾雏军', '编制', '虚假', '财务报告', '罪案', '已经', '被', '广东省', '佛山市', '人民检察院', '立案', '、', '即将', '提起公诉', ',', '刑事', '审判', '在', '即', '。', '因此', ',', '包括', 'H股', '股东', '在内', '的', '科龙电器', '权益', '受损', '的', '投资者', '提起', '民事', '赔偿', '应该', '不成问题', ',', '只是', '需要', '等待', ',', '万事俱备', '、', '只欠东风', '。', '”', '宋一欣', '进一步', '解释', '道', '。', '\n', '\u3000', '\u3000', '谈及', '此案', '的', '被告', ',', '宋一欣', '表示', ',', '“', '科龙电器', '虚假', '陈述', '可', '涉及', '很多', '被告', ',', '如', '科龙电器', '公司', ';', '顾雏军', '等', '原', '董事', '、', '高管', '人员', '及', '直接', '责任人员', ';', '存在', '失职', '的', '原', '监事会', '成员', '和', '独立', '董事', ';', '进行', '审计', '的', '会计师', '事务所', '(', '会计师', '行', ')', '及其', '承担责任', '的', '合伙人', '、', '相关', '注册', '会计师', ';', '由于', '虚假', '陈述', '而', '获益', '的', '关联', '企业', '、', '控股', '股东', '等', '。', '但', '主要', '被告', '有', '三', ',', '即', '科龙电器', '公司', '、', '顾雏军', '、', '德勤华', '永', '会计师', '事务所', '(', 'A股', '股东', ')', '或德勤', '·', '关黄陈', '会计师', '行', '(', 'H股', '股东', ')', '。', '”', '\n', '\u3000', '\u3000', '宋一欣', '称', ',', '“', '证券', '民事', '赔偿', '诉讼', '应当', '采取', '目前', '《', '民事', '诉讼法', '》', '规定', '的', '共同', '诉讼', '方式', ',', '科龙案', '也', '是', '如此', '。', '以', '共同', '诉讼', '提起', '的', '原告', '由于', '合并', '后', '按', '比例', '计算', '诉讼费', ',', '故其', '支出', '的', '诉讼费', '要', '比', '单独', '诉讼', '提起', '的', '原告', '所', '支付', '的', '诉讼费', '要少', '。', '所以', ',', '作为', '代理律师', ',', '从', '投资者', '的', '角度', '考虑', ',', '我', '需要', '筹集', '到', '一定', '数量', '投资者', '委托', '后', '才', '安排', '起诉', '。', '”', '(', '本报记者', ' ', '岳敬飞', ' ', '何军', ')'], 'C000008')
(['\u3000', '\u3000', '大学生', '小', '袁', '网上', '投', '简历', '求职', ',', '一家', '自称', '设在', '广东', '的', '跨国公司', '分公司', '很快', '就', '打来', '电话', '进行', '“', '面试', '”', '。', '然而', '小', '袁', '查询', '该', '公司', '在', '上海', '的', '总部', '得知', ',', '他们', '没有', '在', '广东', '设立', '分公司', ',', '也', '没有', '在', '广东', '进行', '招聘', '。', '警方', '提醒', ',', '这', '很', '可能', '是', '个', '骗局', '。', '\n', '\u3000', '\u3000', '小', '袁是', '在', '一', '知名', '人才', '网站', '上', '发出', '电子', '简历', '的', ',', '令小', '袁', '意外', '的', '是', ',', '简历', '没投', '几天', ',', '就', '有', '一家', '比较', '知名', '的', '半导体', '跨国公司', '给', '自己', '打', '来', '电话', '。', '一位', '姓', '曹', '的', '女士', '告诉', '他', ',', '公司', '现在', '正要', '\n', '\u3000', '\u3000', '引进', '一批', '毕业生', ',', '年前', '就', '到', '岗', '培训', ',', '询问', '小', '袁', '有没有', '去', '的', '意向', '。', '欣喜若狂', '的', '小', '袁', '当即', '就', '同意', '了', '。', '1', '月', '15', '日', ',', '对方', '煞有介事', '地', '给', '小', '袁', '进行', '了', '电话', '招聘', '面试', '。', '三天', '后', ',', '小', '袁', '接到', '电话', '通知', '面试', '通过', '了', ',', '于', '1', '月', '22', '日到', '广东', '东莞', '体检', '、', '复试', '。', '\n', '\u3000', '\u3000', '据', '小', '袁', '所知', ',', '这家', '半导体', '公司', '好像', '是', '在', '上海', ',', '而', '对方', '让', '去', '东莞', '复试', ',', '他', '有点', '纳闷', '。', '曹', '女士', '解释', '说', ',', '公司', '要', '在', '东莞', '设立', '分点', ',', '亟待', '一批', '相关', '专业', '的', '大学生', '加盟', '。', '随后', ',', '她', '又', '把', '公司', '丰厚', '的', '工资', '、', '住房', '待遇', '向小袁', '作', '了', '一番', '介绍', '。', '\n', '\u3000', '\u3000', '小', '袁', '动心', '了', ',', '1', '月', '17', '日', '他', '来到', '火车站', ',', '准备', '预订', '到', '东莞', '的', '车票', '。', '由于', '没有', '直达车', ',', '到', '广州', '的', '票', '也', '没有', '了', ',', '他', '只好', '又', '回到', '了', '学校', '。', '此时', ',', '冷静下来', '的', '小', '袁才', '感觉', '事情', '有点', '不对劲', '。', '随后', ',', '他', '上网', '搜索', '了', '这家', '公司', '的', '详细资料', ',', '发现', '只有', '上海', '总部', '在', '发布', '招聘启事', ',', '其他', '地方', '根本', '就', '没有', '设立', '分公司', '。', '东莞', '的', '114', '也', '根本', '查不到', '这家', '公司', '的', '电话', '。', '\n', '\u3000', '\u3000', '随后', ',', '小', '袁', '拨打', '了', '东莞', '110', '报警', '电话', ',', '当地', '民警', '告知', '这', '很', '可能', '是', '个', '骗局', '。', '此前', '就', '有', '不少', '急于', '找', '工作', '的', '大学生', ',', '被', '不法分子', '骗进', '传销', '窝点', '。', '\n', '\u3000', '\u3000', '(', '来源', ':', '北京', '人才', '市场报', ')'], 'C000022')
(['\n', '\n', '\n', '夜幕', '下', '的', '太和', '门', '广场', '\n', '\u3000', '\u3000', '9', '月', '18', '日晚', ',', '时值', '中国', '传统', '佳节', '农历', '八月', '十五', '中秋节', '之际', ',', '由', '中国', '故宫博物院', '主办', '、', '山东', '潍柴', '动力', '股份', '有限公司', '冠名', '赞助', '的', '“', '太和', '邀月颂', '和平', '—', '—', '潍柴', '动力', '之夜', '”', '中秋', '招待会', '在', '北京故宫', '太和', '门', '广场', '举行', '。', '来自', '国内', '政府', '、', '文化', '演艺界', '及', '企业界', '等', '各界', '精英', '汇聚', '古老', '神秘', '的', '宫内', '广场', ',', '抒发', '当代', '国人', '对', '历史', '的', '追思', '和', '对', '中华民族', '未来', '的', '憧憬', ',', '举杯', '邀月', '共度', '中秋', ',', '把', '纪念', '故宫博物院', '建院', '80', '周年', '、', '中国', '人民', '抗日战争', '胜利', '60', '周年', '两个', '活动', '再次', '推向', '了', '高潮', '。', '本次', '招待会', '由', '著名', '学者', '田青', '和', '凤凰卫视', '当家花旦', '陈鲁豫', '、', '曹', '景行', '主持', '。', '\n', '\u3000', '\u3000', '是', '日', '晚上', ',', '北京', '太和', '门', '广场', '灯光', '璀璨', ',', '高朋满座', ',', '文化氛围', '浓郁', '。', '来自', '戏曲界', '、', '演奏', '界', '、', '表演', '界', '的', '大师', '们', '给', '与会者', '奉献', '上', '了', '《', '思乡曲', '》', '《', '二泉映月', '》', '《', '八月', '十五', '月', '光明', '》', '等', '著名', '的', '传统', '曲目', ',', '著名', '表演家', '濮存昕', '、', '吴俊全', '等', '还', '朗诵', '了', '《', '水调歌头', '》', '《', '雪落', '在', '中国', '土地', '上', '》', '等', '著名', '古今', '诗歌', ',', '表达', '了', '对', '中华民族', '优秀', '传统', '文化', '的', '追思', '和', '对', '民族', '昌盛', '的', '期盼', '。', '此外', ',', '来自', '书画界', '的', '大师', '们', '还', '现场', '泼墨', ',', '鉴赏', '经典', '古画', ',', '并', '留下', '墨宝', '以作', '纪念', '。', '艺术表演', '家们', '在', '舞台', '上', '精彩', '的', '表现', '赢得', '了', '与会', '各界', '嘉宾', '的', '阵阵', '掌声', ',', '人们', '乘着', '朗朗', '月色', ',', '举杯', '邀月', ',', '畅谈', '古今', ',', '抒发', '着', '当代', '中国', '对', '历史', '的', '铭记', '和', '对', '未来', '民族', '复兴', '的', '祈盼', '。', '\n', '独唱', '《', '今夜', '无人', '入睡', '》', '—', '—', '著名', '男高音', '歌唱家', '莫华伦', '\n', '小提琴', '演奏家', '陈曦', '与', '主持人', '陈鲁豫', '交流', '\n', '\u3000', '\u3000', '今年', '是', '北京故宫博物院', '成立', '八十周年', ',', '八十年', '来', ',', '北京故宫', '为', '弘扬', '中华民族', '的', '传统', '文化', ',', '为', '保护', '我国', '珍贵', '的', '历史', '遗产', '作出', '了', '巨大', '的', '贡献', ';', '同时', ',', '今年', '也', '是', '中国', '人民', '抗日', '胜利', '六十周年', ',', '身处', '北京故宫', '的', '太和', '门', '广场', '正是', '当年', '日寇', '华北', '方面军', '向', '中国', '统辖', '华北地区', '的', '第十一', '战区', '投降', '的', '仪式', '举行', '的', '地方', '。', '可以', '说', ',', '身处', '紫禁城', '的', '太和殿', '见证', '了', '我国', '历史', '的', '兴衰', '荣辱', ',', '见证', '了', '中国', '人民', '抗日战争', '的', '伟大胜利', ';', '六十年', '后', ',', '在', '同一', '地点', '举行', '纪念活动', ',', '意义', '非同小可', '。', '它', '告诉', '我们', '要', '铭记', '历史', ',', '继往开来', ',', '要', '为', '中华民族', '的', '伟大', '复兴', ',', '为', '世界', '各族人民', '的', '和平', '而', '不懈', '奋斗', '!', '\n', '濮存昕', '朗诵', '\n', '\u3000', '\u3000', '据悉', ',', '来自', '潍柴', '动力', '股份', '有限公司', '的', '领导', '介绍', ',', '作为', '国内', '知名', '的', '内燃机', '研发', '、', '制造', '、', '销售', '骨干企业', ',', '潍柴', '动力', '一直', '关注', '首都', '文化产业', '的', '发展', ',', '希望', '凭借', '此次', '活动', ',', '给', '中国', '的', '精英', '人士', '提供', '一个', '更好', '的', '交流', '机会', '和', '场所', ',', '拓展', '企业', '发展', '平台', ',', '振奋', '民族', '精神', ',', '为', '繁荣', '国际', '文化交流', ',', '进一步', '开辟', '中国', '文化', '传承', '空间', '贡献', '更', '多', '的', '力量', '!', '\n', '书法', '表演', '\n', '\u3000', '\u3000', '晚会', '在', '著名', '男高音', '歌唱家', '莫华伦', '的', '一曲', '《', '今夜', '无人', '入眠', '》', '中', '结束', ',', '留给', '了', '节日', '的', '京城', '一个', '难忘', '的', '夜晚', '。', '\n', '\u3000', '\u3000', '搜狗', '(', 'www', '.', 'sogou', '.', 'com', ')', '搜索', ':', '“', '太和', '”', ',', '共', '找到', '322', ',', '079', '\n', '个', '相关', '网页', '.', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00'], 'C000022')
(['\u3000', '\u3000', '50', '余名', '沈阳市', '职业', '学校', '校长', '近日', '走进', '清华园', ',', '在', '沈阳市', '教育局', '与', '清华大学', '共同', '举办', '的', '首期', '沈阳市', '职业', '学校', '校长', '高级', '研修班', '上', '为', '自己', ',', '更为', '沈阳', '的', '职业', '教育', '而', '“', '充电', '”', '。', '\n', '\u3000', '\u3000', '沈阳市', '中等职业', '学校', '重组', '于', '上', '世纪', '80', '年代', ',', '绝大部分', '学校', '是', '由', '薄弱', '学校', '改造', '而成', '。', '近年来', ',', '随着', '国家', '、', '省', '、', '市', '各级', '政府', '对', '职业', '教育', '的', '重视', ',', '沈阳市', '职业', '教育', '\n', '\u3000', '\u3000', '有', '了', '较大', '发展', '。', '目前', ',', '沈阳市', '已有', '中等职业', '学校', '131', '所', ',', '中等职业', '学校', '教师', '9500', '人', ',', '专业', '教师', '4800', '人', ',', '在校生', '9', '万余', '人', ',', '年', '毕业生', '3', '万余', '人', '。', '\n', '\u3000', '\u3000', '2006', '年', ',', '为了', '让', '职业', '教育', '有', '一个', '更大', '的', '发展', ',', '沈阳市', '决定', '不仅', '在', '硬件', '上', '加大', '投入', ',', '按照', '国家级', '示范校', '的', '标准', '建', '6', '所万人', '规模', '的', '中等职业', '学校', ',', '同时', ',', '还要', '在', '在', '软件', '建设', '上', '有', '一个', '新', '突破', ',', '按照', '国家', '职业', '教育', '教学质量', '评估', '标准', ',', '全面', '提升', '沈阳市', '中等职业', '学校', '教育', '教学质量', '。', '为此', ',', '沈阳市', '教育局', '借助', '清华大学', '这样', '一个', '高层次', '的', '培训', '平台', ',', '举办', '各种', '层次', '的', '共', '10', '期', '研修班', ',', '对', '分管', '各项', '工作', '的', '副校长', '和', '专业', '教师', '约', '500', '人', '进行', '培训', ',', '通过', '国家教育部', '职业', '与', '成人教育', '司', '有关', '领导', '、', '国内', '优秀', '企业家', '、', '教育', '专家', '、', '知名', '学者', '和', '国内', '重点', '职业院校', '校长', '的', '讲座', '及', '经验交流', ',', '使', '参加', '研修', '人员', '政策', '水平', '、', '理论知识', '、', '教学管理', '能力', '及', '个人', '学养', '得到', '提高', ',', '从而', '全面', '提升', '沈阳市', '职业院校', '的', '内涵', '建设', ',', '进一步', '培养', '、', '打造出', '一支', '高水平', '的', '职业院校', '优秀', '的', '管理者', '和', '“', '双师型', '”', '教师队伍', '。', '\n', '\u3000', '\u3000', '沈阳市', '副', '市长', '王玲', '、', '沈阳市', '教育局', '局长', '李梦玲', '、', '教育部', '职成司', '副司长', '刘占山', '、', '清华大学', '副校长', '陈吉宁', '参加', '了', '首期', '研修班', '的', '开班', '仪式', '。', '他们', '表示', ',', '清华大学', '和', '沈阳市', '的', '这种', '合作', ',', '必将', '促进', '沈阳市', '职业', '教育', '的', '跨越式', '发展', ',', '双方', '在', '市', '、', '校', '人才', '合作', '培养', '模式', '上', '的', '有益', '探索', ',', '不仅', '会', '加深', '和', '扩大', '双方', '在', '各个领域', '的', '合作', ',', '也', '会', '对', '全国', '的', '职业', '教育', '提供', '有益', '的', '经验', '。', '\n', '\u3000', '\u3000', '来源', ':', '光明日报'], 'C000024')

五、半朴素贝叶斯分类器

(1)半朴素贝叶斯理论

在朴素贝叶斯分类器中采用了属性条件独立性假设,但在现实任务中这个假设往往很难成立,于是半朴素贝叶斯分类器就适当考虑一部分属性间的相互依赖关系,从而既不需要进行完全联合概率计算,又不至于彻底忽略了比较强的属性依赖
在这里插入图片描述

实例1

属性依赖关系为:属性大小依赖于形状,且大小为大时,形状为圆,颜色没有依赖属性,属性形状依赖于大小,且形状为圆时,大小为大

判断属性大小为大,颜色为青,形状为圆下,是否为好果
苹果分类
先分别计算类先验概率和带有依赖属性的类条件概率,其中计算类先验概率时,由于好果只有是和否两种情况,所以分母+2,计算带有依赖属性的类条件概率时,每个属性的取值情况也恰好为2,所以分母+2,最后计算后验概率,属于一般果的后验概率较大,所以把属性大小为大,颜色为青,形状为圆的样本判别为一般果

(2)寻找父属性的三种方法

- 方法1 SPODE(Super-Parent ODE)

假设所有属性都依赖于同一个属性,称为“超父”,然后通过交叉验证等模型选择方法来确定超父属性,由此形成了SPODE方法,如图,x2,x3,…,xd都依赖于超父属性x1
在这里插入图片描述

- SPODE实战

训练集

1,青绿,蜷缩,浊响,清晰,凹陷,硬滑,是
2,乌黑,蜷缩,沉闷,清晰,凹陷,硬滑,是
5,浅白,蜷缩,浊响,清晰,凹陷,硬滑,是
6,青绿,稍蜷,浊响,清晰,稍凹,软粘,是
7,乌黑,稍蜷,浊响,稍糊,稍凹,软粘,是
9,乌黑,稍蜷,沉闷,稍糊,稍凹,硬滑,否
10,青绿,硬挺,清脆,清晰,平坦,软粘,否
11,浅白,硬挺,清脆,模糊,平坦,硬滑,否
14,浅白,稍蜷,沉闷,稍糊,凹陷,硬滑,否
15,乌黑,稍蜷,浊响,清晰,稍凹,软粘,否
16,浅白,蜷缩,浊响,模糊,平坦,硬滑,否

测试集

3,乌黑,蜷缩,浊响,清晰,凹陷,硬滑,是
4,青绿,蜷缩,沉闷,清晰,凹陷,硬滑,是
8,乌黑,稍蜷,浊响,清晰,稍凹,硬滑,是
12,浅白,蜷缩,浊响,模糊,平坦,软粘,否
13,青绿,稍蜷,浊响,稍糊,凹陷,硬滑,否
17,青绿,蜷缩,沉闷,稍糊,稍凹,硬滑,否
import math
import numpy as np
import random# 加载数据
def loadData(filename):dataSet = []f = open(filename,encoding='utf-8')for line in f.readlines():lineArr = line.strip().split(',')dataSet.append(lineArr)labels = ['编号','色泽','根蒂','敲声','纹理','脐部','触感']return dataSet,labels           # 返回数据集,标签# SPODE算法
def SPODE(dataSet,labels,testData):index = CrossValidation(dataSet, labels,testData)    # 交叉验证获取超父属性print("Super-Parent = ",labels[index])pn = [3, 3, 3, 3, 3, 2]  # 各变量的类型数tdata = dataSet[random.randint(0,len(dataSet)-1)]   # 选择一个测试样本,将其index属性作为超父属性px = np.zeros((2, 1))        # px为当前属性在类别和依赖属性下的计数pclass = 0  # 为正类的概率nclass = 0  # 为负类的概率pc = np.zeros((2, 1))        # pc为类别和依赖属性的计数,作分母tempdata = []for data in dataSet:       # 遍历训练数据,筛选出满足依赖属性的数据if (data[-1] == '是' and data[index] == tdata[index]):  # 刷选出满足依赖属性的数据pc[0] += 1tempdata.append(data)if (data[-1] == '否' and data[index] == tdata[index]):pc[1] += 1tempdata.append(data)for j in range(1, len(labels)):if (index != j):for data in tempdata:  # 遍历训练数据,筛选出符合条件数据if (data[-1] == '是' and data[index] == tdata[index] and data[j] == tdata[j]):  # 刷选出满足依赖属性的数据px[0] += 1if (data[-1] == '否' and data[index] == tdata[index] and data[j] == tdata[j]):px[1] += 1pclass += np.log((px[0] + 1) / (pc[0] + pn[j - 1]))         # 类条件概率nclass += np.log((px[1] + 1) / (pc[1] + pn[j - 1]))good = np.log((pc[0] + 1) / (pc[0] + pc[1] + 2)) + pclass          # 后验概率bad = np.log((pc[1] + 1) / (pc[0] + pc[1] + 2)) + nclassprint(tdata)if (good >= bad):print('P(good) =',good,'\n','P(bad) = ',bad,'\n','是',sep='')else:print('P(good) =',good,'\n','P(bad) = ',bad,'\n','否',sep='')# 交叉验证选择最优的属性
def CrossValidation(dataSet,labels,testData):pn = [3, 3, 3, 3, 3, 2]  # 各变量的类型数maxcorrect = 0index = 0for i in range(1,len(labels)):                  # 遍历所有属性,选择第i个属性作为超父correct = 0pc = np.zeros((2, 1))           # pc为类别和依赖属性的计数,作分母tempdata = []for tdata in testData:          # 遍历测试数据for data in dataSet:        # 遍历训练数据,筛选出满足依赖属性的数据if (data[-1] == '是' and data[i] == tdata[i]):pc[0] += 1tempdata.append(data)if (data[-1] == '否' and data[i] == tdata[i]):pc[1] += 1tempdata.append(data)# print(pc)for j in range(1,len(labels)):      # 该循环计算带有依赖属性的类条件概率px = np.zeros((2, 1))           # px为当前属性在依赖属性下的计数pclass = 0  # 为正类的概率nclass = 0  # 为负类的概率if (i != j):for data in tempdata:  # 遍历训练数据,筛选出符合条件数据if (data[-1] == '是' and data[i] == tdata[i] and data[j]==tdata[j] ):  # 刷选出满足依赖属性的数据px[0] += 1if (data[-1] == '否' and data[i] == tdata[i] and data[j]==tdata[j] ):px[1] += 1pclass += np.log((px[0] + 1) / (pc[0] + pn[j - 1]))nclass += np.log((px[1] + 1) / (pc[1] + pn[j - 1]))'''print(px)print(pclass)print(nclass)'''pclass = np.log((pc[0] + 1) / (pc[0] + pc[1] + 2)) + pclass            # 后验概率nclass = np.log((pc[1] + 1) / (pc[0] + pc[1] + 2)) + nclassif ((pclass >= nclass and tdata[-1]=='是') or (pclass < nclass and tdata[-1]=='否')):  # 正确的分类correct+=1if( correct > maxcorrect ):    # 正确分类最多的所依赖的属性作为”超父“maxcorrect = correctindex= ireturn indexif __name__ == '__main__':dataSet, labels_1 = loadData('train_Data.txt')testData, label_2 = loadData('test_Data.txt')SPODE(dataSet, labels_1, testData)
Super-Parent =  纹理
['1', '青绿', '蜷缩', '浊响', '清晰', '凹陷', '硬滑', '是']
P(good) =[0.23514949]
P(bad) = [-4.12274404]
是

- 方法2 TAN(Tree Augmented naive Bayes)

(1).计算任意两个属性之间的条件互信息
在这里插入图片描述
(2). 以属性为结点构建完全图,任意两个结点之间边的权重设为I(x_i,x_j|y)
(3). 构建此完全图的最大带权生成树,挑选根变量,将边置为有向。
(4). 加入类别结点y,增加从y到每个属性的有向边。

如下图,假设有4个属性(凹陷,清晰,青绿,浊响),首先计算任意两个结点间的条件互信息,得到一个无向完全图(左),再根据无向完全图构建最大带权生成数,挑选根变量(根变量的选择可以将树中所有结点均作为根结点),将边设置为有向,加入类别结点y,增加从y到每个属性的有向(右)
在这里插入图片描述

- 方法3 AODE(Averaged One-Dependent Estimator)

AODE一种基于集成学习机制、更为强大的独依赖分类器,其过程就是一个计数过程

相关计算公式:
计算公式
在这里插入图片描述
以西瓜数据集为例
在这里插入图片描述

- AODE实战

import numpy as np
import randomdef getDataSet():dataSet = [['青绿', '蜷缩', '浊响', '清晰', '凹陷', '硬滑', 0.697, 0.460, 1],['乌黑', '蜷缩', '沉闷', '清晰', '凹陷', '硬滑', 0.774, 0.376, 1],['乌黑', '蜷缩', '浊响', '清晰', '凹陷', '硬滑', 0.634, 0.264, 1],['青绿', '蜷缩', '沉闷', '清晰', '凹陷', '硬滑', 0.608, 0.318, 1],['浅白', '蜷缩', '浊响', '清晰', '凹陷', '硬滑', 0.556, 0.215, 1],['青绿', '稍蜷', '浊响', '清晰', '稍凹', '软粘', 0.403, 0.237, 1],['乌黑', '稍蜷', '浊响', '稍糊', '稍凹', '软粘', 0.481, 0.149, 1],['乌黑', '稍蜷', '浊响', '清晰', '稍凹', '硬滑', 0.437, 0.211, 1],['乌黑', '稍蜷', '沉闷', '稍糊', '稍凹', '硬滑', 0.666, 0.091, 0],['青绿', '硬挺', '清脆', '清晰', '平坦', '软粘', 0.243, 0.267, 0],['浅白', '硬挺', '清脆', '模糊', '平坦', '硬滑', 0.245, 0.057, 0],['浅白', '蜷缩', '浊响', '模糊', '平坦', '软粘', 0.343, 0.099, 0],['青绿', '稍蜷', '浊响', '稍糊', '凹陷', '硬滑', 0.639, 0.161, 0],['浅白', '稍蜷', '沉闷', '稍糊', '凹陷', '硬滑', 0.657, 0.198, 0],['乌黑', '稍蜷', '浊响', '清晰', '稍凹', '软粘', 0.360, 0.370, 0],['浅白', '蜷缩', '浊响', '模糊', '平坦', '硬滑', 0.593, 0.042, 0],['青绿', '蜷缩', '沉闷', '稍糊', '稍凹', '硬滑', 0.719, 0.103, 0]]features = ['色泽', '根蒂', '敲声', '纹理', '脐部', '触感']featureDic = {}for i in range(len(features)):featureList = [example[i] for example in dataSet]uniqueFeature = list(set(featureList))featureDic[features[i]] = uniqueFeaturedataSet = np.array(dataSet)return dataSet, features, featureDic   # 数据集,标签,属性取值字典def AODE(dataSet, data, features, featureDic):m, n = dataSet.shapen = n - 3       # 特征不取连续值的属性,如密度和含糖量。pDir = {}       # 保存三个值。好瓜的可能性,坏瓜的可能性,和预测的值。for classLabel in ["好瓜", "坏瓜"]:P = 0.0if classLabel == "好瓜":sign = '1'else:sign = '0'extrDataSet = dataSet[dataSet[:, -1] == sign]    # 抽出类别为sign的数据for i in range(n):                               # 遍历每一个i个属性xi = data[i]# 计算当前类别下,第i个属性上取值为xi的样本对总数据集的占比Dcxi = extrDataSet[extrDataSet[:, i] == xi]  # 第i个属性上取值为xi的样本数Ni = len(featureDic[features[i]])            # 第i个属性可能的取值数Pcxi = (len(Dcxi) + 1) / float(m + 2 * Ni)# 计算类别为c且在第i和第j个属性上分别为xi和xj的样本,对于类别为c属性为xi的样本的占比mulPCond = 1for j in range(n):xj = data[j]Dcxij = Dcxi[Dcxi[:, j] == xj]Nj = len(featureDic[features[j]])PCond = (len(Dcxij) + 1) / float(len(Dcxi) + Nj)mulPCond *= PCondP += Pcxi * mulPCondpDir[classLabel] = Pif pDir["好瓜"] > pDir["坏瓜"]:preClass = "好瓜"else:preClass = "坏瓜"return pDir["好瓜"], pDir["坏瓜"], preClassdef test_accuracy(dataSet, features, featureDic):cnt = 0for data in dataSet:_, _, pre = AODE(dataSet, data, features, featureDic)if (pre == '好瓜' and data[-1] == '1') or (pre == '坏瓜' and data[-1] == '0'):cnt += 1return cnt / float(len(dataSet))def main():dataSet, features ,featureDic = getDataSet()testdata = dataSet[random.randint(0, len(dataSet) - 1)]pG, pB, pre = AODE(dataSet, testdata, features, featureDic)print(testdata)print("pG = ", pG)print("pB = ", pB)print("pre = ", pre)print("real class = ", testdata[-1])print(test_accuracy(dataSet, features, featureDic))if __name__ == '__main__':main()
['浅白' '硬挺' '清脆' '模糊' '平坦' '硬滑' '0.245' '0.057' '0']
pG =  0.0004809492073765314
pB =  0.016070238820219938
pre =  坏瓜
real class =  0
0.9411764705882353

六、 贝叶斯网

(1)贝叶斯网理论

  • 贝叶斯网是一种概率图模型,借助有向无环图来刻画属性之间的依赖关系,并使用条件概率表来描述属性的联合概率分布

在这里插入图片描述
上图就是一个简单的贝叶斯结构,给定P(a,b,c)联合概率,把代数表达式转换为几何图形,第一个式子表示ab给定的条件下c的概率,即从a,b各引一条边到c,第二个式子表示a给定的条件下b的概率,即从a引一条边到b,a没有给定条件,就没有边引入。
贝叶斯网络的有向无环图的每个结点表示一个随机变量,它们可以是观察到的变量或隐变量,或未知参数,连接两个结点的箭头代表两个随机变量是具有“因果”关系,具有条件依赖关系,且两个结点会产生一个条件概率值
在这里插入图片描述
上图表示的是朴素贝叶斯的条件独立性假设,x1,x2,x3,x4只和y有关系,可以看作是有向边为0的有向无环图

  • 因为贝叶斯网结构有效表达了属性间的条件独立性,给定父结点集,贝叶斯网假设每个属性与它的非后裔属性独立,那么就有联合概率分布定义为:

在这里插入图片描述
在这里插入图片描述
如上图,由于x1,x2,x3没有父结点,x4有x1,x2,x3三个父结点,x5有x1,x3两个父结点,x6有x4一个父结点,x7有x4,x5两个父结点,所以其联合概率分布为
在这里插入图片描述

  • 贝叶斯网中三个变量之间的典型依赖关系
    在这里插入图片描述
    第一种结构为同父结构,表示在c给定的条件下,ab条件独立,或者称ab被c有向分离,下面的代数式为其证明过程,下同
    第二种结构为V型结构,表示在c未知的条件下,ab条件独立
    第三种结构为顺序结构,表示在c给定的条件下,ab条件独立
    在这里插入图片描述
    上图就是一个关于警报的贝叶斯网,Alarm受Burglary和Earthquake两个随机变量的影响,Johncalls和Marrycalls分别受Alarm的影响,有了贝叶斯网结构和条件概率表就可以计算任一个概率取值。如上图的求JohncallsMarrycalls,Alarm,非Burglary,非Earthquake同时发生的概率。

(2)贝叶斯网的结构学习和参数学习

  • 结构学习(基于评分搜索):

把所有的贝叶斯网络结构看为定义域,将衡量特定结构好坏的标准看为评分函数(基于信息论准则的评分函数:MDL评分函数,AIC评分函数,BIC评分函数),寻找最好的结构的过程。相当在定义域上求函数的最优值,即这是一个最优化问题。

  • 评分函数

在这里插入图片描述

  • 搜索策略
    爬山算法——爬山法使用的搜索算子由3种,分别为加边、减边、转边;其中在加边和转边的使用时有一个前提就是不能有环;主要思想:爬山法从一个初始网络结构出发,通过三个搜索算子对当前网络结构进行修改,得到一系列候选网络结构,然后计算每个候选网络结构的评分,并选出评分最大的作为最优候选结构,如果最优候选结构的评分大于当前网络结构的评分,则以最优候选结构作为当前网络结构,继续搜索; 否则,就停止搜索,并返回当前网络结构。
  • 参数学习

有了贝叶斯网结构,可在训练数据集D上通过经验估计求条件概率表

  • 贝叶斯网推断

通过已知变量观测值来推测查询变量(西瓜色泽青绿,敲声浊响,根蒂蜷缩,推断它是否成熟,甜度如何),可以通过吉布斯采样算法完成

1.已知贝叶斯网结构和条件概率表构建贝叶斯网

import warnings
from pgmpy.models import BayesianModel
from pgmpy.factors.discrete import TabularCPD
from pgmpy.inference import VariableElimination
import networkx as nx
from matplotlib import pyplot as plt
warnings.filterwarnings("ignore")# 构建一个网络模型
model = BayesianModel([('D', 'G'),   # 一条有向边,D ---> G('I', 'G'),   # I ---> G('G', 'L'),   # G ---> L('I', 'S')])  # I ---> S# 设置CPD参数
cpd_d = TabularCPD(variable='D', variable_card=2, values=[[0.6], [0.4]])cpd_i = TabularCPD(variable='I', variable_card=2, values=[[0.7], [0.3]])cpd_g = TabularCPD(variable='G', variable_card=3,values=[[0.3, 0.05, 0.9,  0.5],[0.4, 0.25, 0.08, 0.3],[0.3, 0.7,  0.02, 0.2]],evidence=['I', 'D'],evidence_card=[2, 2])cpd_l = TabularCPD(variable='L', variable_card=2,values=[[0.1, 0.4, 0.99],[0.9, 0.6, 0.01]],evidence=['G'],evidence_card=[3])cpd_s = TabularCPD(variable='S', variable_card=2,values=[[0.95, 0.2],[0.05, 0.8]],evidence=['I'],evidence_card=[2])model.add_cpds(cpd_d, cpd_i, cpd_g, cpd_l, cpd_s)  # 将概率分布表加入到贝叶斯网络中print(model.check_model())    # 验证模型数据的正确性(检测节点是否定义,概率和是否为1)print(model.get_cpds())   # 查看概率分布infer = VariableElimination(model)
print('\n', 'P(G|D=0,I=1)')    # 计算条件分布 P(G∣D=0,I=1)
print(infer.query(['G'], evidence={'D': 0, 'I': 1}))# 绘制网络结构图,并附上概率分布表
nx.draw(model,with_labels=True,node_size=1000,font_weight='bold',node_color='y',pos={"L": [4.2, 3], "G": [4.2, 5], "S": [8, 5], "D": [2, 7], "I": [6, 7]})
plt.text(2.5, 6.5, model.get_cpds("D"), fontsize=10, color='b')
plt.text(6.5, 6.5, model.get_cpds("I"), fontsize=10, color='b')
plt.text(1.4, 4, model.get_cpds("G"), fontsize=10, color='b')
plt.text(4.5, 2.6, model.get_cpds("L"), fontsize=10, color='b')
plt.text(7, 3.5, model.get_cpds("S"), fontsize=10, color='b')
plt.show()
True
[<TabularCPD representing P(D:2) at 0x17fe059ba88>, <TabularCPD representing P(I:2) at 0x17fe441db88>, <TabularCPD representing P(G:3 | I:2, D:2) at 0x17fe4ae2448>, <TabularCPD representing P(L:2 | G:3) at 0x17fe48be5c8>, <TabularCPD representing P(S:2 | I:2) at 0x17fe4db8ec8>]P(G|D=0,I=1)
+------+----------+
| G    |   phi(G) |
+======+==========+
| G(0) |   0.9000 |
+------+----------+
| G(1) |   0.0800 |
+------+----------+
| G(2) |   0.0200 |
+------+----------+

在这里插入图片描述

2.已知贝叶斯网结构进行参数学习

import pandas as pd
from pgmpy.models import BayesianModel
from pgmpy.estimators import ParameterEstimator, MaximumLikelihoodEstimator
from pgmpy.inference import VariableElimination
import networkx as nx
from matplotlib import pyplot as plt
import warnings
warnings.filterwarnings("ignore")data = pd.DataFrame(data={'fruit': ["banana", "apple", "banana", "apple", "banana","apple", "banana","apple", "apple", "apple", "banana", "banana", "apple", "banana",],'tasty': ["yes", "no", "yes", "yes", "yes", "yes", "yes","yes", "yes", "yes", "yes", "no", "no", "no"],'size': ["large", "large", "large", "small", "large", "large", "large","small", "large", "large", "large", "large", "small", "small"]})print(data)model = BayesianModel([('fruit', 'tasty'), ('size', 'tasty')])pe = ParameterEstimator(model, data)
print("\n", pe.state_counts('fruit'))
print("\n", pe.state_counts('tasty'))  # 在fruit和size的条件下,tasty的频数# 极大似然估计
mle = MaximumLikelihoodEstimator(model, data)print('\n', '='*100, '\n')
print("\n", mle.estimate_cpd('fruit'))
print("\n", mle.estimate_cpd('tasty'))  # 在fruit和size的条件下,tasty的概率分布model.fit(data, estimator=MaximumLikelihoodEstimator)print('\n', '='*100, '\n')
# 概率分布
print(model.get_cpds('fruit'))
print(model.get_cpds('size'))
print(model.get_cpds('tasty'))print('\n', '='*100, '\n')nx.draw(model,with_labels=True,node_size=1000,font_weight='bold',node_color='y',pos={"fruit": [5, 6], "tasty": [3.4, 4.5], "size": [2.5, 6]})plt.text(4.2, 5.7, model.get_cpds("fruit"), fontsize=10, color='b')
plt.text(2.7, 4.6, model.get_cpds("tasty"), fontsize=10, color='b')
plt.text(2.8, 5.7, model.get_cpds("size"), fontsize=10, color='b')plt.show()# 推断
infer = VariableElimination(model)print('大,香蕉是美味的概率:\n', infer.query(['tasty'], evidence={'fruit': 1, 'size': 0}))  # 大,香蕉是否美味的概率
  fruit tasty   size
0   banana   yes  large
1    apple    no  large
2   banana   yes  large
3    apple   yes  small
4   banana   yes  large
5    apple   yes  large
6   banana   yes  large
7    apple   yes  small
8    apple   yes  large
9    apple   yes  large
10  banana   yes  large
11  banana    no  large
12   apple    no  small
13  banana    no  smallfruit
apple       7
banana      7fruit apple       banana      
size  large small  large small
tasty                         
no      1.0   1.0    1.0   1.0
yes     3.0   2.0    5.0   0.0==================================================================================================== +---------------+-----+
| fruit(apple)  | 0.5 |
+---------------+-----+
| fruit(banana) | 0.5 |
+---------------+-----++------------+--------------+--------------------+---------------------+---------------+
| fruit      | fruit(apple) | fruit(apple)       | fruit(banana)       | fruit(banana) |
+------------+--------------+--------------------+---------------------+---------------+
| size       | size(large)  | size(small)        | size(large)         | size(small)   |
+------------+--------------+--------------------+---------------------+---------------+
| tasty(no)  | 0.25         | 0.3333333333333333 | 0.16666666666666666 | 1.0           |
+------------+--------------+--------------------+---------------------+---------------+
| tasty(yes) | 0.75         | 0.6666666666666666 | 0.8333333333333334  | 0.0           |
+------------+--------------+--------------------+---------------------+---------------+==================================================================================================== +---------------+-----+
| fruit(apple)  | 0.5 |
+---------------+-----+
| fruit(banana) | 0.5 |
+---------------+-----+
+-------------+----------+
| size(large) | 0.714286 |
+-------------+----------+
| size(small) | 0.285714 |
+-------------+----------+
+------------+--------------+--------------------+---------------------+---------------+
| fruit      | fruit(apple) | fruit(apple)       | fruit(banana)       | fruit(banana) |
+------------+--------------+--------------------+---------------------+---------------+
| size       | size(large)  | size(small)        | size(large)         | size(small)   |
+------------+--------------+--------------------+---------------------+---------------+
| tasty(no)  | 0.25         | 0.3333333333333333 | 0.16666666666666666 | 1.0           |
+------------+--------------+--------------------+---------------------+---------------+
| tasty(yes) | 0.75         | 0.6666666666666666 | 0.8333333333333334  | 0.0           |
+------------+--------------+--------------------+---------------------+---------------+==================================================================================================== 大,香蕉是美味的概率:+------------+--------------+
| tasty      |   phi(tasty) |
+============+==============+
| tasty(no)  |       0.1667 |
+------------+--------------+
| tasty(yes) |       0.8333 |
+------------+--------------+

在这里插入图片描述

3.通过数据集进行结构和参数学习

import pandas as pd
import numpy as np
from pgmpy.estimators import BicScore
from pgmpy.models import BayesianModel
from pgmpy.estimators import ExhaustiveSearch, HillClimbSearch
from pgmpy.estimators import BayesianEstimator
import warnings
import networkx as nx
from matplotlib import pyplot as plt
warnings.filterwarnings("ignore")# 随机生成数据样本,包括三个变量,其中Z变量依赖于X,Y变量
data = pd.DataFrame(np.random.randint(0, 4, size=(5000, 2)), columns=list('XY'))
data['Z'] = data['X'] + data['Y']
print(data)es = ExhaustiveSearch(data, scoring_method=BicScore(data))  # 对于几个节点,可用穷举法
best_model = es.estimate()
print("\nAll DAGs by score:")
for score, dag in reversed(es.all_scores()):print(score, dag.edges())print(best_model.edges())# 学习到了DAG结构,根据这个结构学习CPD参数
model = BayesianModel(best_model.edges())model.fit(data, estimator=BayesianEstimator)# 概率分布
print(model.get_cpds('X'))
print(model.get_cpds('Y'))
print(model.get_cpds('Z'))nx.draw(model,with_labels=True,node_size=1000,font_weight='bold',node_color='y',pos={"X": [5, 4], "Y": [2, 4.5], "Z": [2.5, 6]})plt.text(4.2, 4, model.get_cpds("X"), fontsize=7, color='b')
plt.text(2.1, 4, model.get_cpds("Y"), fontsize=7, color='b')
plt.text(2.5, 4.8, model.get_cpds("Z"), fontsize=6, color='b')plt.show()
print(model.cpds)print('\n', '='*500, '\n')# 对于多个节点可用爬山法
data = pd.DataFrame(np.random.randint(0, 3, size=(2500, 8)), columns=list('ABCDEFGH'))
data['A'] += data['B'] + data['C']
data['H'] = data['G'] - data['A']
print(data)hc = HillClimbSearch(data, scoring_method=BicScore(data))
best_model = hc.estimate()
edges = best_model.edges()
print(edges)# 学习到了DAG结构,根据这个结构学习CPD参数
model = BayesianModel(edges)model.fit(data, estimator=BayesianEstimator)# 概率分布
print(model.get_cpds('A'))
print(model.get_cpds('G'))
print(model.get_cpds('B'))
print(model.get_cpds('C'))
print(model.get_cpds('H'))nx.draw(model,with_labels=True,node_size=1000,font_weight='bold',node_color='y',pos={"A": [3, 6], "C": [2, 5], "H": [6, 5], "B": [2.5, 4], "G": [5.5, 4],})plt.text(1.7, 5.2, model.get_cpds("A"), fontsize=5.5, color='b')
plt.text(2.5, 4, model.get_cpds("B"), fontsize=5.5, color='b')
plt.text(2, 4.5, model.get_cpds("C"), fontsize=5.5, color='b')
plt.text(5.5, 4, model.get_cpds("G"), fontsize=5.5, color='b')
plt.text(5.5, 4.5, model.get_cpds("H"), fontsize=5.5, color='b')plt.show()
print(model.cpds)
     X  Y  Z
0     0  2  2
1     3  1  4
2     0  2  2
3     2  3  5
4     3  1  4
...  .. .. ..
4995  0  3  3
4996  3  3  6
4997  1  2  3
4998  2  1  3
4999  2  0  2[5000 rows x 3 columns]All DAGs by score:
-14295.447228090614 [('X', 'Z'), ('Y', 'Z')]
-14327.233960660378 [('Y', 'X'), ('Z', 'X'), ('Z', 'Y')]
-14327.233960660378 [('X', 'Y'), ('Z', 'X'), ('Z', 'Y')]
-14327.233960660378 [('X', 'Y'), ('X', 'Z'), ('Z', 'Y')]
-14327.233960660378 [('X', 'Y'), ('X', 'Z'), ('Y', 'Z')]
-14327.23396066038 [('Y', 'Z'), ('Y', 'X'), ('Z', 'X')]
-14327.23396066038 [('X', 'Z'), ('Y', 'Z'), ('Y', 'X')]
-16514.835832156296 [('Y', 'X'), ('Z', 'X')]
-16515.715374631058 [('X', 'Y'), ('Z', 'Y')]
-18724.781181338916 [('Z', 'X'), ('Z', 'Y')]
-18724.781181338916 [('X', 'Z'), ('Z', 'Y')]
-18724.78118133892 [('Y', 'Z'), ('Z', 'X')]
-20912.383052834834 [('Z', 'X')]
-20912.383052834834 [('X', 'Z')]
-20913.262595309596 [('Z', 'Y')]
-20913.262595309596 [('Y', 'Z')]
-20944.169785404596 [('X', 'Y'), ('Z', 'X')]
-20944.169785404596 [('X', 'Y'), ('X', 'Z')]
-20944.1697854046 [('X', 'Z'), ('Y', 'X')]
-20945.04932787936 [('X', 'Y'), ('Y', 'Z')]
-20945.049327879362 [('Y', 'X'), ('Z', 'Y')]
-20945.049327879362 [('Y', 'Z'), ('Y', 'X')]
-23100.864466805513 []
-23132.651199375276 [('X', 'Y')]
-23132.65119937528 [('Y', 'X')]
[('X', 'Z'), ('Y', 'Z')]
+------+----------+
| X(0) | 0.255594 |
+------+----------+
| X(1) | 0.247403 |
+------+----------+
| X(2) | 0.246603 |
+------+----------+
| X(3) | 0.2504   |
+------+----------+
+------+----------+
| Y(0) | 0.2504   |
+------+----------+
| Y(1) | 0.240809 |
+------+----------+
| Y(2) | 0.251798 |
+------+----------+
| Y(3) | 0.256993 |
+------+----------+
+------+------------------------+-----------------------+------------------------+------------------------+-----------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+
| X    | X(0)                   | X(0)                  | X(0)                   | X(0)                   | X(1)                  | X(1)                   | X(1)                   | X(1)                   | X(2)                   | X(2)                   | X(2)                   | X(2)                   | X(3)                   | X(3)                   | X(3)                   | X(3)                   |
+------+------------------------+-----------------------+------------------------+------------------------+-----------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+
| Y    | Y(0)                   | Y(1)                  | Y(2)                   | Y(3)                   | Y(0)                  | Y(1)                   | Y(2)                   | Y(3)                   | Y(0)                   | Y(1)                   | Y(2)                   | Y(3)                   | Y(0)                   | Y(1)                   | Y(2)                   | Y(3)                   |
+------+------------------------+-----------------------+------------------------+------------------------+-----------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+
| Z(0) | 0.9991139726512897     | 0.0001496513124420102 | 0.00013003562976255498 | 0.00013313806417254698 | 0.0001443293017348383 | 0.00013556380988531306 | 0.00015926102882624627 | 0.00013980930011464366 | 0.00014526860164444064 | 0.00015983121823354545 | 0.00013765382815296095 | 0.00013807958907514293 | 0.00013353630852228727 | 0.00014965131244201014 | 0.00014294290860230428 | 0.00014479742839767167 |
+------+------------------------+-----------------------+------------------------+------------------------+-----------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+
| Z(1) | 0.00014767122478513846 | 0.9991020921253484    | 0.00013003562976255498 | 0.00013313806417254698 | 0.9991340241895914    | 0.00013556380988531306 | 0.00015926102882624627 | 0.00013980930011464366 | 0.00014526860164444064 | 0.00015983121823354545 | 0.00013765382815296095 | 0.00013807958907514293 | 0.00013353630852228727 | 0.00014965131244201014 | 0.00014294290860230428 | 0.00014479742839767167 |
+------+------------------------+-----------------------+------------------------+------------------------+-----------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+
| Z(2) | 0.00014767122478513846 | 0.0001496513124420102 | 0.9992197862214249     | 0.00013313806417254698 | 0.0001443293017348383 | 0.9991866171406883     | 0.00015926102882624627 | 0.00013980930011464366 | 0.9991283883901336     | 0.00015983121823354545 | 0.00013765382815296095 | 0.00013807958907514293 | 0.00013353630852228727 | 0.00014965131244201014 | 0.00014294290860230428 | 0.00014479742839767167 |
+------+------------------------+-----------------------+------------------------+------------------------+-----------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+
| Z(3) | 0.00014767122478513846 | 0.0001496513124420102 | 0.00013003562976255498 | 0.999201171614965      | 0.0001443293017348383 | 0.00013556380988531306 | 0.9990444338270429     | 0.00013980930011464366 | 0.00014526860164444064 | 0.9990410126905991     | 0.00013765382815296095 | 0.00013807958907514293 | 0.9991987821488666     | 0.00014965131244201014 | 0.00014294290860230428 | 0.00014479742839767167 |
+------+------------------------+-----------------------+------------------------+------------------------+-----------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+
| Z(4) | 0.00014767122478513846 | 0.0001496513124420102 | 0.00013003562976255498 | 0.00013313806417254698 | 0.0001443293017348383 | 0.00013556380988531306 | 0.00015926102882624627 | 0.9991611441993122     | 0.00014526860164444064 | 0.00015983121823354545 | 0.9991740770310823     | 0.00013807958907514293 | 0.00013353630852228727 | 0.9991020921253481     | 0.00014294290860230428 | 0.00014479742839767167 |
+------+------------------------+-----------------------+------------------------+------------------------+-----------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+
| Z(5) | 0.00014767122478513846 | 0.0001496513124420102 | 0.00013003562976255498 | 0.00013313806417254698 | 0.0001443293017348383 | 0.00013556380988531306 | 0.00015926102882624627 | 0.00013980930011464366 | 0.00014526860164444064 | 0.00015983121823354545 | 0.00013765382815296095 | 0.9991715224655492     | 0.00013353630852228727 | 0.00014965131244201014 | 0.9991423425483863     | 0.00014479742839767167 |
+------+------------------------+-----------------------+------------------------+------------------------+-----------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+
| Z(6) | 0.00014767122478513846 | 0.0001496513124420102 | 0.00013003562976255498 | 0.00013313806417254698 | 0.0001443293017348383 | 0.00013556380988531306 | 0.00015926102882624627 | 0.00013980930011464366 | 0.00014526860164444064 | 0.00015983121823354545 | 0.00013765382815296095 | 0.00013807958907514293 | 0.00013353630852228727 | 0.00014965131244201014 | 0.00014294290860230428 | 0.9991312154296139     |
+------+------------------------+-----------------------+------------------------+------------------------+-----------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+
[<TabularCPD representing P(X:4) at 0x26944dfe988>, <TabularCPD representing P(Z:7 | X:4, Y:4) at 0x26945013888>, <TabularCPD representing P(Y:4) at 0x2694501c8c8>]==================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================== A  B  C  D  E  F  G  H
0     4  2  2  2  2  1  2 -2
1     0  0  0  2  0  1  1  1
2     2  0  1  2  0  2  2  0
3     4  1  1  0  0  0  1 -3
4     5  1  2  1  0  2  1 -4
...  .. .. .. .. .. .. .. ..
2495  1  0  1  1  0  1  1  0
2496  4  1  2  0  2  2  0 -4
2497  1  1  0  1  2  0  2  1
2498  1  0  0  0  0  0  1  0
2499  4  0  2  1  0  1  1 -3[2500 rows x 8 columns]
[('A', 'B'), ('A', 'C'), ('B', 'C'), ('G', 'A'), ('G', 'H'), ('H', 'A')]
+------+-----------------------+-----------------------+------------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+----------------------+------------------------+-----------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+-----------------------+-----------------------+---------------------+------------------------+------------------------+-----------------------+-----------------------+
| G    | G(0)                  | G(0)                  | G(0)                   | G(0)                   | G(0)                   | G(0)                  | G(0)                  | G(0)                | G(0)                | G(1)                | G(1)                 | G(1)                   | G(1)                  | G(1)                   | G(1)                   | G(1)                  | G(1)                  | G(1)                | G(2)                | G(2)                | G(2)                  | G(2)                  | G(2)                | G(2)                   | G(2)                   | G(2)                  | G(2)                  |
+------+-----------------------+-----------------------+------------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+----------------------+------------------------+-----------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+-----------------------+-----------------------+---------------------+------------------------+------------------------+-----------------------+-----------------------+
| H    | H(-6)                 | H(-5)                 | H(-4)                  | H(-3)                  | H(-2)                  | H(-1)                 | H(0)                  | H(1)                | H(2)                | H(-6)               | H(-5)                | H(-4)                  | H(-3)                 | H(-2)                  | H(-1)                  | H(0)                  | H(1)                  | H(2)                | H(-6)               | H(-5)               | H(-4)                 | H(-3)                 | H(-2)               | H(-1)                  | H(0)                   | H(1)                  | H(2)                  |
+------+-----------------------+-----------------------+------------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+----------------------+------------------------+-----------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+-----------------------+-----------------------+---------------------+------------------------+------------------------+-----------------------+-----------------------+
| A(0) | 0.0009386146048432514 | 0.0002614515791675382 | 0.00015919004107103055 | 0.00011853397183632825 | 0.00014601098002569788 | 0.0002999940001199976 | 0.9943683123709408    | 0.14285714285714285 | 0.14285714285714285 | 0.14285714285714285 | 0.000821962847279303 | 0.00021651582730697615 | 0.0001328162354566222 | 0.00013553808620222278 | 0.00014682131845543967 | 0.0002694401034649997 | 0.9959492303537674    | 0.14285714285714285 | 0.14285714285714285 | 0.14285714285714285 | 0.0011410314924691922 | 0.0002539231120816617 | 0.00016619025460347 | 0.00012526932905747353 | 0.00012351473530792219 | 0.0003218953196420524 | 0.9941611521992996    |
+------+-----------------------+-----------------------+------------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+----------------------+------------------------+-----------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+-----------------------+-----------------------+---------------------+------------------------+------------------------+-----------------------+-----------------------+
| A(1) | 0.0009386146048432514 | 0.0002614515791675382 | 0.00015919004107103055 | 0.00011853397183632825 | 0.00014601098002569788 | 0.9982000359992801    | 0.0009386146048432516 | 0.14285714285714285 | 0.14285714285714285 | 0.14285714285714285 | 0.000821962847279303 | 0.00021651582730697615 | 0.0001328162354566222 | 0.00013553808620222278 | 0.00014682131845543967 | 0.9983833593792101    | 0.0006751282743721308 | 0.14285714285714285 | 0.14285714285714285 | 0.14285714285714285 | 0.0011410314924691922 | 0.0002539231120816617 | 0.00016619025460347 | 0.00012526932905747353 | 0.00012351473530792219 | 0.9980686280821478    | 0.0009731413001167772 |
+------+-----------------------+-----------------------+------------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+----------------------+------------------------+-----------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+-----------------------+-----------------------+---------------------+------------------------+------------------------+-----------------------+-----------------------+
| A(2) | 0.0009386146048432514 | 0.0002614515791675382 | 0.00015919004107103055 | 0.00011853397183632825 | 0.9991239341198456     | 0.0002999940001199976 | 0.0009386146048432516 | 0.14285714285714285 | 0.14285714285714285 | 0.14285714285714285 | 0.000821962847279303 | 0.00021651582730697615 | 0.0001328162354566222 | 0.00013553808620222278 | 0.9991190720892671     | 0.0002694401034649997 | 0.0006751282743721308 | 0.14285714285714285 | 0.14285714285714285 | 0.14285714285714285 | 0.0011410314924691922 | 0.0002539231120816617 | 0.00016619025460347 | 0.00012526932905747353 | 0.9992589115881523     | 0.0003218953196420524 | 0.0009731413001167772 |
+------+-----------------------+-----------------------+------------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+----------------------+------------------------+-----------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+-----------------------+-----------------------+---------------------+------------------------+------------------------+-----------------------+-----------------------+
| A(3) | 0.0009386146048432514 | 0.0002614515791675382 | 0.00015919004107103055 | 0.9992887961689818     | 0.00014601098002569788 | 0.0002999940001199976 | 0.0009386146048432516 | 0.14285714285714285 | 0.14285714285714285 | 0.14285714285714285 | 0.000821962847279303 | 0.00021651582730697615 | 0.0001328162354566222 | 0.9991867714827865     | 0.00014682131845543967 | 0.0002694401034649997 | 0.0006751282743721308 | 0.14285714285714285 | 0.14285714285714285 | 0.14285714285714285 | 0.0011410314924691922 | 0.0002539231120816617 | 0.00016619025460347 | 0.999248384025655      | 0.00012351473530792219 | 0.0003218953196420524 | 0.0009731413001167772 |
+------+-----------------------+-----------------------+------------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+----------------------+------------------------+-----------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+-----------------------+-----------------------+---------------------+------------------------+------------------------+-----------------------+-----------------------+
| A(4) | 0.0009386146048432514 | 0.0002614515791675382 | 0.9990448597535737     | 0.00011853397183632825 | 0.00014601098002569788 | 0.0002999940001199976 | 0.0009386146048432516 | 0.14285714285714285 | 0.14285714285714285 | 0.14285714285714285 | 0.000821962847279303 | 0.00021651582730697615 | 0.9992031025872602    | 0.00013553808620222278 | 0.00014682131845543967 | 0.0002694401034649997 | 0.0006751282743721308 | 0.14285714285714285 | 0.14285714285714285 | 0.14285714285714285 | 0.0011410314924691922 | 0.0002539231120816617 | 0.999002858472379   | 0.00012526932905747353 | 0.00012351473530792219 | 0.0003218953196420524 | 0.0009731413001167772 |
+------+-----------------------+-----------------------+------------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+----------------------+------------------------+-----------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+-----------------------+-----------------------+---------------------+------------------------+------------------------+-----------------------+-----------------------+
| A(5) | 0.0009386146048432514 | 0.9984312905249948    | 0.00015919004107103055 | 0.00011853397183632825 | 0.00014601098002569788 | 0.0002999940001199976 | 0.0009386146048432516 | 0.14285714285714285 | 0.14285714285714285 | 0.14285714285714285 | 0.000821962847279303 | 0.9987009050361582     | 0.0001328162354566222 | 0.00013553808620222278 | 0.00014682131845543967 | 0.0002694401034649997 | 0.0006751282743721308 | 0.14285714285714285 | 0.14285714285714285 | 0.14285714285714285 | 0.0011410314924691922 | 0.9984764613275101    | 0.00016619025460347 | 0.00012526932905747353 | 0.00012351473530792219 | 0.0003218953196420524 | 0.0009731413001167772 |
+------+-----------------------+-----------------------+------------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+----------------------+------------------------+-----------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+-----------------------+-----------------------+---------------------+------------------------+------------------------+-----------------------+-----------------------+
| A(6) | 0.9943683123709405    | 0.0002614515791675382 | 0.00015919004107103055 | 0.00011853397183632825 | 0.00014601098002569788 | 0.0002999940001199976 | 0.0009386146048432516 | 0.14285714285714285 | 0.14285714285714285 | 0.14285714285714285 | 0.9950682229163242   | 0.00021651582730697615 | 0.0001328162354566222 | 0.00013553808620222278 | 0.00014682131845543967 | 0.0002694401034649997 | 0.0006751282743721308 | 0.14285714285714285 | 0.14285714285714285 | 0.14285714285714285 | 0.9931538110451849    | 0.0002539231120816617 | 0.00016619025460347 | 0.00012526932905747353 | 0.00012351473530792219 | 0.0003218953196420524 | 0.0009731413001167772 |
+------+-----------------------+-----------------------+------------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+----------------------+------------------------+-----------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+-----------------------+-----------------------+---------------------+------------------------+------------------------+-----------------------+-----------------------+
+------+----------+
| G(0) | 0.326015 |
+------+----------+
| G(1) | 0.345975 |
+------+----------+
| G(2) | 0.328011 |
+------+----------+
+------+-----------------------+-----------------------+---------------------+---------------------+---------------------+-----------------------+-----------------------+
| A    | A(0)                  | A(1)                  | A(2)                | A(3)                | A(4)                | A(5)                  | A(6)                  |
+------+-----------------------+-----------------------+---------------------+---------------------+---------------------+-----------------------+-----------------------+
| B(0) | 0.9949723479135243    | 0.6856282119440014    | 0.5093465674110835  | 0.30210223835450695 | 0.1605408839277611  | 0.0007265329845975006 | 0.0028441410693970416 |
+------+-----------------------+-----------------------+---------------------+---------------------+---------------------+-----------------------+-----------------------+
| B(1) | 0.0025138260432378077 | 0.31348573453836615   | 0.3373862696443341  | 0.4259679370840895  | 0.35302659043470364 | 0.34859052600988083   | 0.0028441410693970416 |
+------+-----------------------+-----------------------+---------------------+---------------------+---------------------+-----------------------+-----------------------+
| B(2) | 0.0025138260432378077 | 0.0008860535176324649 | 0.15326716294458229 | 0.27192982456140347 | 0.4864325256375351  | 0.6506829410055216    | 0.9943117178612059    |
+------+-----------------------+-----------------------+---------------------+---------------------+---------------------+-----------------------+-----------------------+
+------+-----------------------+--------------------+--------------------+-----------------------+-----------------------+--------------------+---------------------+------------------------+-----------------------+------------------------+---------------------+------------------------+-----------------------+------------------------+---------------------+--------------------+-----------------------+-----------------------+--------------------+--------------------+-----------------------+
| A    | A(0)                  | A(0)               | A(0)               | A(1)                  | A(1)                  | A(1)               | A(2)                | A(2)                   | A(2)                  | A(3)                   | A(3)                | A(3)                   | A(4)                  | A(4)                   | A(4)                | A(5)               | A(5)                  | A(5)                  | A(6)               | A(6)               | A(6)                  |
+------+-----------------------+--------------------+--------------------+-----------------------+-----------------------+--------------------+---------------------+------------------------+-----------------------+------------------------+---------------------+------------------------+-----------------------+------------------------+---------------------+--------------------+-----------------------+-----------------------+--------------------+--------------------+-----------------------+
| B    | B(0)                  | B(1)               | B(2)               | B(0)                  | B(1)                  | B(2)               | B(0)                | B(1)                   | B(2)                  | B(0)                   | B(1)                | B(2)                   | B(0)                  | B(1)                   | B(2)                | B(0)               | B(1)                  | B(2)                  | B(0)               | B(1)               | B(2)                  |
+------+-----------------------+--------------------+--------------------+-----------------------+-----------------------+--------------------+---------------------+------------------------+-----------------------+------------------------+---------------------+------------------------+-----------------------+------------------------+---------------------+--------------------+-----------------------+-----------------------+--------------------+--------------------+-----------------------+
| C(0) | 0.998315647633485     | 0.3333333333333333 | 0.3333333333333333 | 0.5214956491772206    | 0.9981156962502357    | 0.3333333333333333 | 0.35152105662011474 | 0.5770205115632916     | 0.9982011153085089    | 0.00041718815185648727 | 0.30599443754068284 | 0.5494067482387838     | 0.0009421518748822309 | 0.00042844901456726646 | 0.37251243781094523 | 0.3333333333333333 | 0.0006947339169098235 | 0.0003721899657585231 | 0.3333333333333333 | 0.3333333333333333 | 0.0009534706331045003 |
+------+-----------------------+--------------------+--------------------+-----------------------+-----------------------+--------------------+---------------------+------------------------+-----------------------+------------------------+---------------------+------------------------+-----------------------+------------------------+---------------------+--------------------+-----------------------+-----------------------+--------------------+--------------------+-----------------------+
| C(1) | 0.0008421761832575375 | 0.3333333333333333 | 0.3333333333333333 | 0.4780735762901697    | 0.0009421518748822311 | 0.3333333333333333 | 0.3447006603875717  | 0.42257089155838845    | 0.0008994423457456378 | 0.4682519816437213     | 0.3395467187407539  | 0.45012977382276603    | 0.0009421518748822309 | 0.529477292202228      | 0.3333333333333333  | 0.3333333333333333 | 0.0006947339169098235 | 0.48808992109572724   | 0.3333333333333333 | 0.3333333333333333 | 0.0009534706331045003 |
+------+-----------------------+--------------------+--------------------+-----------------------+-----------------------+--------------------+---------------------+------------------------+-----------------------+------------------------+---------------------+------------------------+-----------------------+------------------------+---------------------+--------------------+-----------------------+-----------------------+--------------------+--------------------+-----------------------+
| C(2) | 0.0008421761832575375 | 0.3333333333333333 | 0.3333333333333333 | 0.0004307745326096321 | 0.0009421518748822311 | 0.3333333333333333 | 0.3037782829923135  | 0.00040859687831984963 | 0.0008994423457456378 | 0.5313308302044222     | 0.35445884371856323 | 0.00046347793845012973 | 0.9981156962502354    | 0.47009425878320477    | 0.2941542288557214  | 0.3333333333333333 | 0.9986105321661803    | 0.5115378889385142    | 0.3333333333333333 | 0.3333333333333333 | 0.998093058733791     |
+------+-----------------------+--------------------+--------------------+-----------------------+-----------------------+--------------------+---------------------+------------------------+-----------------------+------------------------+---------------------+------------------------+-----------------------+------------------------+---------------------+--------------------+-----------------------+-----------------------+--------------------+--------------------+-----------------------+
+-------+-----------------------+------------------------+------------------------+
| G     | G(0)                  | G(1)                   | G(2)                   |
+-------+-----------------------+------------------------+------------------------+
| H(-6) | 0.034512471655328794  | 0.00021367521367521362 | 0.00022537750732476897 |
+-------+-----------------------+------------------------+------------------------+
| H(-5) | 0.12390022675736959   | 0.037136752136752126   | 0.00022537750732476897 |
+-------+-----------------------+------------------------+------------------------+
| H(-4) | 0.20349206349206345   | 0.14098290598290597    | 0.028217263917061076   |
+-------+-----------------------+------------------------+------------------------+
| H(-3) | 0.2732879818594104    | 0.2298290598290598     | 0.12679738562091503    |
+-------+-----------------------+------------------------+------------------------+
| H(-2) | 0.22185941043083895   | 0.22521367521367516    | 0.1937345052963714     |
+-------+-----------------------+------------------------+------------------------+
| H(-1) | 0.10798185941043081   | 0.20790598290598286    | 0.25702050935316656    |
+-------+-----------------------+------------------------+------------------------+
| H(0)  | 0.034512471655328794  | 0.11329059829059827    | 0.2606716249718278     |
+-------+-----------------------+------------------------+------------------------+
| H(1)  | 0.0002267573696145124 | 0.045213675213675204   | 0.10002253775073247    |
+-------+-----------------------+------------------------+------------------------+
| H(2)  | 0.0002267573696145124 | 0.00021367521367521362 | 0.03308541807527609    |
+-------+-----------------------+------------------------+------------------------+
[<TabularCPD representing P(A:7 | G:3, H:9) at 0x269465c8b08>, <TabularCPD representing P(B:3 | A:7) at 0x269465ef888>, <TabularCPD representing P(C:3 | A:7, B:3) at 0x269465ef908>, <TabularCPD representing P(G:3) at 0x269465f3288>, <TabularCPD representing P(H:9 | G:3) at 0x269465f33c8>]

在这里插入图片描述
在这里插入图片描述
参考资料
1.周志华,机器学习,清华大学出版社
2.李航,统计学习方法(第二版),清华大学出版社
3.垃圾邮件分类和新闻分类数据集:https://github.com/Jack-Cherish/Machine-Learning
4.视频参考1:https://www.bilibili.com/video/BV16t411Q7TM
5.视频参考2:https://www.bilibili.com/video/BV1Tb411H7uC
6.贝叶斯网参考:https://blog.csdn.net/GnahzNib/article/details/70244175
7.贝叶斯网参考:https://blog.csdn.net/weixin_41599977/article/details/90320390


http://www.ppmy.cn/news/195556.html

相关文章

加速户外电源快充普及!6大厂商率先推出双向快充芯片

户外电源、便携式储能电源作为一种典型的清洁能源系统&#xff0c;近年来在欧美国家实现了大范围普及&#xff0c;并融入到了人们日常生活当中。国内方面&#xff0c;虽然目前户外电源的普及程度不如国外&#xff0c;但当下国家正在大力倡导新能源产业&#xff0c;作为绿色能源…

设计模式之适配器模式(Adapter)

设计模式之适配器模式&#xff08;Adapter&#xff09; 我想要是说适配器模式&#xff0c;提一下“电压”、“耳机”、“充电器”和 "USB” 的例子应该是比较恰当的了。就说说自己的亲身经历&#xff0c;我原来的手机是NOKIA5730。后来也不知道有没有国行&#xff0c;但是…

java设计模式-适配器模式

适配器模式 适配器模式&#xff08;Adapter Pattern&#xff09;是作为两个不兼容的接口之间的桥梁。这种类型的设计模式属于结构型模式&#xff0c;它结合了两个独立接口的功能。 这种模式涉及到一个单一的类&#xff0c;该类负责加入独立的或不兼容的接口功能。举个真实的例…

自由意志是否受机器控制?

主要作者 | R.Douglas Fields 改写作者 | 王依倩 翻译 | 王依倩 排版|Tina Maggie Chiang for Quanta Magazine 1963年&#xff0c;西班牙神经学家何塞曼努埃尔罗德里格斯德尔加多(Jos Manuel Rodriguez Delgado)在一场蔑视死亡的公开演示中&#xff0c;展示了如何通过无线电控…

桌面线材收纳好帮手--公牛GN-F2151U收纳盒插座

一直想把桌面的线材整理一下&#xff0c;就买了公牛的 GN-F2151U 收纳盒&#xff0c;6 月 1 日买的&#xff0c;现在才来写&#xff0c;也是够能拖的。 拖了一个月 首先说一下为什么拖了一个月才开箱。 我的桌面一直都比较乱&#xff0c;买这个收纳箱就是想让桌面更加整洁&…

2023深圳国际充电桩展览会

2023深圳充电桩展/2023深圳国际充电桩展览会 The 17th Shenzhen International Electric Vehicle Supply Equipment Fair 2023年5月11-13日 深圳会展中心&#xff08;福田&#xff09; 2023上海第18届国际充电设施展览会 时间&#xff1a;2023年8月23-25日 地点&#xff1a;上海…

如何解决苹果 MagSafe 充电失败或速度慢?

MagSafe 允许您将iPhone连接到磁性充电器。它在 iPhone 12 上可用&#xff0c;它有两个功能&#xff1a;确认和充电。有时使用 MagSafe 充电会导致问题&#xff0c;或者它没有牢固连接。小编将介绍多种原因和解决方案。 如果使用 MagSafe 充电不起作用 MagSafe 使用与其他充电…

【项目实践】充电台灯电路拆解

前言 记得还是在大一开学的时候买了一个充电台灯&#xff0c;没想到只用了一个多学期就报废了&#xff0c;插上电源灯也不亮&#xff0c;之后一直放在宿舍闲置了&#xff0c;最近收拾宿舍翻到这个台灯&#xff0c;于是手痒想拆解一下这个台灯&#xff0c;以下是这个下午的实践记…