实践:jieba分词和pkuseg分词、去除停用词、加载预训练词向量

news/2025/1/15 18:50:49/

一:jieba分词和pkuseg分词

原代码文件
链接:https://pan.baidu.com/s/1J8kmTFk8lec5ubfwBaSnLg
提取码:e4nv

目录:
在这里插入图片描述

1:分词介绍:

目标:中文句子中的词与词之间加上边界标记,本质是划分词的边界。

英文天然有空格作为分词符合。而对于中文如何让机器智能识别出单词词汇,是文本分析的第一步。

基本分词思想:(1) 由句子到词.(2) 由字到词

具体分词方法:

在这里插入图片描述

在这里插入图片描述

举例:

在这里插入图片描述

如何分词使得这个句子的共现概率最大

2:jieba中文分词

分词原理:HMM(隐马尔可夫模型)

(如何设置分词符号,使得句子的共线概率最大)

在这里插入图片描述

3:实践:分词


import jieba
import pkusegtext = "绿子在电话的另一头久久默然不语,如同全世界的细雨落在全世界所有的草坪上一般的沉默在持续。"
seg_list = jieba.cut(text,  cut_all=False, HMM=True)
print("jieba Cut result is: " + " ".join(seg_list))seg = pkuseg.pkuseg()  # 以默认配置加载模型
text = seg.cut(text)  # 进行分词
print("pkuseg Cut result is: " + "/".join(text))
jieba Cut result is: 绿子 在 电话 的 另一头 久久 默然不语 , 如同 全世界 的 细雨 落 在 全世界 所有 的 草坪 上 一般 的 沉默 在 持续 。
pkuseg Cut result is: 绿子/在/电话/的/另/一头/久久/默然不语/,/如同/全世界/的/细雨/落/在/全世界/所有/的/草坪/上/一般/的/沉默/在/持续/。

二:去除停用词

1:实践:去除停用词

在使用使用jieba或pkuseg分词后,每一个句子被划分为一个个词。但是有些词是没有意义的(无法体现该段文本的

特征),如“在”,“的”,“一些”,标点符号等。因此我们需要去除这些词。这一步骤称为“去除停用词”。

如下是本次实验使用的停用词文件

在这里插入图片描述

#获取停用词集合
def get_stopwords():stopwords = pd.read_csv ("F:\\研一课程\\周水生机器学习中的优化\\LSTM谣言检测\\rummordetection_lstm-main\\rummordetection_lstm-main\\stopwords\\stopwords.txt", index_col=False, sep="\t", quoting=3, names=['stopword'],encoding='utf-8')return  set(stopwords['stopword'].values.tolist())def cutsentences(sentences):     #定义函数实现分词print('原句子为:'+ sentences)cutsentence = jieba.lcut(sentences.strip())     #精确模式print ('\n'+'分词后:'+ "/ ".join(cutsentence)) stopwords = get_stopwords()     # 这里加载停用词的路径lastsentences = ''for word in cutsentence:     #for循环遍历分词后的每个词语if word not in stopwords:     #判断分词后的词语是否在停用词表内if word != '\t':lastsentences += wordlastsentences += "/ "print('\n'+'去除停用词后:'+ lastsentences) sentence = '绿子在电话的另一头久久默然不语,如同全世界的细雨落在全世界所有的草坪上一般的沉默在持续。'
cutsentences(sentence)
原句子为:绿子在电话的另一头久久默然不语,如同全世界的细雨落在全世界所有的草坪上一般的沉默在持续。分词后:绿子/ 在/ 电话/ 的/ 另一头/ 久久/ 默然不语/ ,/ 如同/ 全世界/ 的/ 细雨/ 落/ 在/ 全世界/ 所有/ 的/ 草坪/ 上/ 一般/ 的/ 沉默/ 在/ 持续/ 。去除停用词后:绿子/ 电话/ 另一头/ 久久/ 默然不语/ 全世界/ 细雨/ 落/ 全世界/ 草坪/ 沉默/ 持续/ 

附:查看停用词文件

stopwords = get_stopwords()     # 这里加载停用词的路径
print(type(stopwords))
stopwords_=list(stopwords) #set是集合,无序,查看元素只能遍历所有打印出来,转为list.
print(stopwords_[1:20])
<class 'set'>
['个别', '.', '—', '乘势', '互相', '以前', '为什么', 'somewhere', 'keep', '一', '■', '对待', "i'll", '此次', '作为', '据此', '}>', '对比', '成年']
print(stopwords)
{nan, '个别', '.', '—', '乘势', '互相', '以前', '为什么', 'somewhere', 'keep', '一', '■', '对待', "i'll", '此次', '作为', '据此', '}>', '对比', '成年', '殆', 'thanks', '_', '傥然', '10', 'his', '-', '照着', '这些', '具体来说', '-[*]-', '|', '知道', '立刻', '恍然', 'usually', '借此', 'more', '不过', '这麽', '岂止', '=[', 'possible', 'off', 'probably', 'took', '一转眼', 'value', '致', '咱们', 'b]', '(', '!', '人', '除却', '允许', '100', '哼唷', '切勿', '咋', '见', '4', '89', '当前', '这么样', '左右', '庶乎', '接著', '第二大节', '结果', 'now', 'neither', '第五大道', '共同', '看起来', '⑧', 'says', '不拘', 'specify', '紧接着', '光', '我的', '冲', 'nor', 'on', '三番五次', '起见', '关于', '第二类', 'cannot', 'nine', '莫如', 'seemed', '奈', 'outside', '而又', '不会', '如若', '自从', '由于', '2016', 'twice', '有效', '91', '或许', 'hereafter', '93', '相等', '意思', '第五集', '53', '打', '争取', '当中', 'that', '」', '仅仅', '之前', "it'd", 'say', '@', 'seeming', '更有趣', '05', '取得', '除此以外', '吓', 'e]', '不一', 'once', '虽则', '向使', '来看', '敢情', '9', 'there', '其', '上午', '行动', 'seven', "you've", 'used', '下面', '大事', 'seeing', '很', '49', '暗地里', '从此以后', '也好', '尽管', 'indicated', '且说', '长此下去', '有一期', 'toward', '不曾', 'said', '70', '到处', 'per', '存心', '那末', '人人', '元/吨', 'indicates', '与其说', '勃然', '第二讲', '从此', 'believe', '吱', "there's", '当下', '赶早不赶晚', '平素', 'thereafter', '过来', 'go', '不问', '.一', '是否', 'our', '来不及', '秒', 'relatively', '哪边', '又笑', 'like', '要', 'far', 'seems', '往', '相当', '随后', '倒是', '反之亦然', '72', '倘', '看', '具有', 'follows', '一边', 'anybody', '如今', '第四者', '54', 'us', '②c', '第二盘', '可以', 'ones', '那么些', '适当', '怪', '有及', '一番', '奋勇', 'only', '是的', '来讲', '65', '新华社', '嗡嗡', '某', '别处', '≈', 'these', '极其', '处在', '和', '啪达', 'consequently', '仍然', '啊哟', '犹且', '极大', '绝顶', '第三件', '高兴', '遵照', 'into', '到头来', 'considering', '宁可', '简直', '长话短说', 'them', '正是', '我们', '上', '不但', '设使', '那时', '不限', '每每', '叫做', '如其', '几度', '自打', '总是', '不大', '之所以', '乌乎', '怎奈', '越是', 'specified', '大概', 'regards', 'four', 'becoming', '漫说', '不胜', '贼死', '尽如人意', '“', '别说', './', 'zt', '遵循', '以期', '大体', ';', '上去--', 'alone', '弗', 'towards', '。', '~+', '不惟', 'soon', '不下', '对', '〕〔', '谁知', 'co', '如是', '自后', '继后', '敢于', '非得', '第十六', 'below', '如常', '里面', '0', '便', '后面', '总之', '构成', '该', 'someone', '假若', 'ever', 'getting', '如果', '沙沙', '二', '余外', 'nd', '【', '偏偏', '常言说', '罢了', '41', 'ltd', '第五课', 'few', '依照', '′|', '42', '当然', '不止一次', '第二任', '及时', '冒', '替', '或则', '就是', '果真', '不仅...而且', '具体地说', '丰富', '而', '光是', 'seem', '时', 'have', 'hence', 'hereupon', '大张旗鼓', '起来', '因而', 'tries', 'nobody', '从来', '许多', '带', 'against', '使用', 'both', 'who', '3', 'away', '女子', 'contains', 'together', '+', '非但', '了', '说来', '92', 'available', '第三站', '就是了', '并没', '〕', '第五位', 'above', '差一点', '伙同', '既', '倘使', '/', '既往', '咱', '上下', '但凡', '乃至', '人们', 'merely', '即刻', '六', '等', '默默地', 'c]', '并', 'without', '86', '出', '而论', 'exactly', '反过来说', '>λ', '全力', '81', 'then', '按时', 'besides', 'was', 'about', '巴', '彼此', '联袂', '第十九', '嘿', 'old', '与否', '部分', '26', '并肩', '36', '三天两头', "didn't", '八成', '③', '按', '↑', '6', '77', "you'd", '22', '为主', '4', '当头', '还是', '单纯', '始而', '喏', '58', "doesn't", 'normally', '分期', 'across', 'know', "wasn't", '则', '44', '哉', 'any', "t's", '实现', 'everywhere', '不止', '他们', '必将', '诚如', '非特', 'sure', '47', '总的来说', '不特', '似的', '顺着', '一切', '一来', '顷刻', '呃', "we'd", '他是', '[]', '必须', '以至于', 'zero', '各人', '同时', "won't", 'saying', '正确', '亲自', '不怕', 'near', 'thanx', '非独', 'un', '第十次', '随着', '顷', 'does', '谁料', '〉', '6', '若夫', '四', '进行', "isn't", '最后一关', '替代', '宁肯', '应该', '达到', 'whatever', '[-', '[', '何苦', 'still', '已', '自己', '沿', '要是', '而已', '重新', 'my', '从今以后', '根本', '多少钱', '大面儿上', '叫', '防止', '谨', '从古至今', 'until', '以来', '掌握', '具体', '若是', 'six', '企图', '借以', 'qv', '鄙人', '43', '今後', '敢', 'be', 'described', 'very', '去', '看来', '而况', '难说', '每年', '3', '啷当', "c's", "we've", '不得不', 'gone', 'should', '得天独厚', '这样', '特别是', '表示', '即便', '如此等等', 'the', '种', '至于', '〔', '倘或', '第三单元', '兼之', 'ought', '第四张', '以及', '而是', '快', '2014', '猛然间', '二来', '一起', 'likely', '换言之', '待到', '第三句', ':', '全年', 'sub', '对于', '采取', '只有', '下去', '~', '别人', "weren't", '截至', '尽量', '呼哧', '于是乎', 'yourself', '挨家挨户', '活', 'hardly', '啐', '74', '〈', '′∈', '故此', '她', '满足', '全部', '52', '不定', 'later', '并非', '多么', '切切', '再说', '第二波', '了解', '所在', '除', 'whereas', 'hello', '然后', '按期', '第十集', '乃', '那麽', '有的', ']∧′=[', '有一部', '如前所述', '呀', '>', 'himself', '任何', '此外', '最近', '经常', '若果', '屡屡', '规定', 'further', '>>', '率尔', '忽然', '全体', '充分', '安全', 'might', 'nothing', '几时', 'being', '甚而', 'ok', '这儿', '开展', '什麽', '宁', '这种', '存在', '自身', '我', '不对', '~~~~', '别是', '随著', 'corresponding', '吧哒', '牢牢', '是什么', '第三期', '每', '一何', '85', '另行', '不但...而且', '唉', '以下', 'your', '精光', '即若', '极度', '第十一个', '已矣', 'everything', '1', 'little', '猛然', 'everyone', '共', '如何', '相信', '③]', '老大', 'oh', '难怪', 'downwards', '本身', '吧', '几乎', 'Ⅲ', '重要', '边', 'me', 'thoroughly', '较为', '=', '迟早', '多年来', '过于', '抑或', '彼时', 'rather', '任凭', '合理', '固然', '从优', '一.', '55', "we're", '相同', '趁势', '马上', '处理', '累次', '』', '不变', '可见', '当着', '甚或', '不择手段', 'associated', '看出', '极为', ']', '&', '鉴于', '9', '反之', '再则', 'behind', '特点', 'get', '怎样', '第十天', 'γ', '毫不', '尔等', '再有', '後来', 'did', '即如', '可能', 'anything', '敞开儿', '零', '最后一遍', '略微', 'ex', '|', 'theirs', '}', 'no', '它们', '*', '71', '组成', '非常', '?', '更有意义', '又又', '40', '──', '@', '末##末', '最后', '之一', '④', '基本', '最後', 'via', '岂', '·', 'somebody', '不光', 'within', '多数', '如上', 'just', 'perhaps', '不仅仅', '仍', 'which', '何止', '别', '这', '诚然', '遇到', '地', '间或', 'que', '能否', '分期分批', '那个', '成为', '趁', '14', '立', '现在', '切', '是以', 'vs', '有一根', 'entirely', '俺们', '正常', "who's", ':', '召开', '什么意思', '向', '有一百', '⑦', '难道说', '欤', '范围', '或多或少', '97', '75', 'beyond', '哪怕', '98', '呜', '恐怕', '受到', '风雨无阻', 'enough', '竟', 'ZT', '即或', "i'm", '确定', '老', 'ZXFITL', 'unfortunately', '第二首', 'least', '15', 'up', '其二', '莫不', '集中', '咳', '各个', '九', '大凡', '第三册', '连日', 'uses', '只消', '据悉', '最好', 'less', '喀', '不得已', 'most', 'some', '从古到今', '联系', 'since', '归根到底', 'going', '亦', '这般', '但', '并不', 'already', '更远的', '它', '尔后', 'ours', '将要', '认识', '否则', '据我所知', '明显', 'here', 'to', 'non', '千', '即将', '按照', 'somewhat', 'from', '川流不息', 'has', '不怎么', '乃至于', 'unlikely', '绝不', 'self', '能', '或曰', '有些', '自各儿', '全面', '广大', '接连不断', '们', '汝', 'anyone', "we'll", 'new', '出现', '其次', 'but', '×', '何妨', '再次', 'way', 'given', 'again', '诸如', '⑤', '后来', '上升', '差不多', '由此可见', '不同', '嘎', '全都', 'whom', '个', '日', '01', '大体上', "haven't", '第四代', '恰恰相反', 'do', '03', '27', '偶尔', '又一遍', '一片', '由此', '这就是说', '当', '有利', '之后', 'right', 'much', '挨个', '要么', 'wherein', '下来', 'В', '不已', '又', 'five', 'exp', '79', 'her', '十分', '得到', '权时', '看样子', '[', '进而', 'thereupon', '各级', '让', '好象', '上述', '臭', '有问题吗', '://', '如同', '由是', '为', '进入', '又喜欢', 'other', '将才', '倍加', '她是', '彼', '近几年来', '说明', "they'd", 'obviously', '第二十', '31', 'take', '从未', '唯有', 'during', '不得了', '更为', '亲口', '专门', "i'd", '当场', 'happens', '-β', '最后一科', '后', '如上所述', 'an', "you'll", 'please', '看见', '砰', '故意', '日见', '其余', '某些', '各', '譬喻', '人民', 'edu', '喽', 'secondly', 'mostly', '挨门挨户', 'useful', '分', '04', '乘胜', '所幸', '临到', '以至', 'gotten', 'themselves', "that's", 'indeed', '为止', '单单', '迫于', '从速', 'than', '总的说来', '充其极', 'kept', '接下来', '顶多', '随时', '第四版', '前面', '多年前', '尽心尽力', '而且', '那里', '二话不说', 'over', '几', '做到', '待', '蛮', '以上', '财新网', '莫若', 'also', '论', '正在', 'comes', 'cause', '其它', '不满', '基本上', 'com', '莫非', 'meanwhile', 'plus', 'tried', '出去', '此中', '但愿', '後面', 'must', "hadn't", '比', '毫无', '来说', '最后一页', '$', '真正', '定', '完全', '目前', 'such', 'before', '这么些', '局外', '交口', "it's", '有一堆', 'various', '正巧', 'whose', '记者', '心里', '固', '45', '有一群', '11', '起先', 'cant', '不是', '有一片', '因', '彻底', '诸', '似乎', '像', '普遍', '原来', '俺', '\\', '不论', '要求', '因着', '×××', 'ourselves', '较比', '好的', '后者', '/', 'tends', '{', '坚决', '℃', '从严', '结合', '你们', '哪', '概', '83', '几经', 'inasmuch', '略', '强烈', '多多', '怕', '八', 'because', '打从', 'each', 'at', '拿', '嘿嘿', '过', 'reasonably', '第十八', '当儿', '需要', '除外', '毋宁', '尽早', '首先', '59', '立地', '中间', '啊呀', 'thank', '然则', '连声', 'ie', '这点', '或是', '5', '⑨', '凭', '<φ', '显然', '哇', '第三卷', '这么点儿', '%', '缕缕', '那些', '屡次', '挨次', '强调', '加强', '附近', '32', '是不是', '!', '反之则', '0', 'anyway', '极', '有所', 'particular', '据称', '28', 'truly', "can't", '继之', 'inner', '那儿', '61', '亲手', '一直', '够瞧的', '方才', '适用', '那', '白', 'selves', '至', 'so', '凡是', 'certain', '等到', 'throughout', '比起', '总而言之', '的确', '同', '究竟', '却', 'let', '呆呆地', '皆可', 'whoever', '数/', 'need', '难道', '动不动', '任', '日益', '赶快', 'same', ';', '快要', 'maybe', '颇', '亲眼', '每天', 'really', '37', '嗬', '至若', '76', '以致', '甚至于', '由由', '87', '=(', '白白', '拦腰', 'keeps', '逢', 'best', '背地里', '前进', '更有效', '不妨', '为何', '可是', '→', '坚持', '转贴', 'course', 'moreover', 'actually', '第十名', '哪里', '不然', '主张', '竟而', 'one', 'although', '些', '归根结底', 'following', '不如', '有力', '另一方面', '最大', '据', '初', '{-', '每逢', '嘎登', '较', 'look', '跟', '不可抗拒', '格外', '第四单元', '’', "hasn't", '达旦', '应用', '直接', '啦', '也就是说', '当庭', '35', '以后', '出于', '有一方', '到', '从而', '绝', 'beforehand', '就地', "let's", '第三产业', '与此同时', '省得', '次第', '19', 'therein', '很多', '比方', '各式', 'theres', '使得', '一则通过', '第五卷', '累年', 'whenever', 'out', '就算', '趁早', '哦', '突出', 'well', '类如', '今', '<±', 're', '什么样', 'third', '更加', '多多少少', '动辄', '抽冷子', '少数', '2', 'inc', '切不可', '继而', 'accordingly', '嗡', '尽', 'what', '从无到有', '乘隙', '=-', '觉得', '他', '立马', '据实', '73', '将', '怪不得', 'gives', '乘', '到了儿', '简言之', '一时', '问题', '针对', 'appreciate', '各自', '既然', '[*]', '--', '深入', '腾', '归', '先後', '我是', 'even', '…………………………………………………③', '矣哉', '一下', '就是说', '必要', '第三类', '前此', '严格', '已经', '哈哈', '密切', '举行', '怎么办', '加入', "aren't", '不单', '向着', 'always', '2015', '以免', '啊', "they're", ' ]', '怎', '尽然', '认真', 'wish', '很少', "couldn't", '<Δ', 'except', '她们', '::', '第二把', '必然', '率然', '理该', '8', '不尽', '历', '较之', '莫', 'itself', 'immediate', '+ξ', '者', '隔日', 'by', '<λ', '从重', '本着', 'onto', 'had', "c'mon", '充其量', '岂非', 'certainly', 'hi', '每时每刻', '矣乎', '纯', '之', '常', '乘机', 'sent', '得出', '是', '各种', '往往', '其中', 'noone', '今后', '同一', '94', '个人', '39', '¥', 'under', '人家', '不外乎', '扑通', '战斗', 'able', '即令', '归齐', 'liked', '偶而', '将近', 'looks', 'came', '进去', '比及', '而后', '第四位', '直到', '穷年累月', '按说', '当时', '与', '说说', '33', '甫', '第十四', '二话没说', 'come', '除此', 'sup', '比如说', '要不然', '57', '按理', 'thence', '什么时候', '有问题么', 'f]', '尔尔', '以', 'hereby', 'necessary', '例如', '岂但', 'according', '如次', '即', '高低', '对方', '吗', '依靠', '-', '严重', '自个儿', '各地', '逐步', '考虑', '第二集', '有', '上面', 'sometimes', '怎麽', '大多数', '那么样', 'goes', '它是', '另方面', 'is', '不免', '绝对', '屡次三番', '顿时', '略加', '呢', '长期以来', '又一城', '必定', '不敢', '形成', '06', '嘛', '=″', '成年累月', '您们', '第三大', '尽可能', 'another', '设或', '连同', 'φ', '朝着', '犹自', 'latterly', '加以', '不足', 'or', '有效地', '老老实实', 'welcome', "wouldn't", '大抵', '表明', '90', '甚么', '第二关', '距', '大都', '78', '有点', '正值', 'she', '今天', '哪个', '不够', 'currently', ',', '此', '多', 'yet', '近来', '24', '默然', '突然', 'hers', '同样', "a's", '.', '&', '每个', '窃', 'am', '大', 'else', 'with', '话说', '最', '自', '遭到', '也', '或', 'taken', '0:2', '相对', '召唤', '12', '第二项', '另一个', '50', '才', '尽心竭力', '纵', '⑩', '一样', '相似', 'known', 'thats', 'definitely', '不', ',', '扩大', '介于', '第五部', 'a]', '的士高', '反而', '13', 'awfully', '另外', '及至', '++', '不仅仅是', '要不', '便于', '谁人', '她的', ')', '主要', '趁机', '63', '20', '38', '《', 'former', 'φ.', '且', '总的来看', '都', '它们的', '在', '而言', '略为', '注意', 'trying', '第二声', '来', '论说', 'eg', 'different', 'mainly', '第四集', '多亏', '最后一派', '▲', 'whither', '恰逢', 'having', '限制', '来得及', '积极', 'tell', 'ZZ', '此间', '容易', '倘若', '呸', '第四期', '它的', "they'll", '赶', '趁便', '除了', '’‘', 'shall', '近年来', 'looking', 'when', '有一批', '=☆', '56', '哪天', '三', '_', '忽地', '这会儿', '宁愿', '沿着', '所以', 'causes', '叮当', '嘘', 'instead', '及', '只是', '下列', '尤其', '纵然', '前者', 'ng昉', 'furthermore', '相应', '纯粹', 'went', 'yourselves', '为着', '内', 'been', 'this', '虽', '..', 'concerning', '一次', 'would', '此后', '第四届', '特殊', '只限', '于是', 'own', '再其次', '第三行', '㈧', 'formerly', '背靠背', "ain't", '有一对', 'two', '起', '打开天窗说亮话', '时候', '顺', 'three', '毕竟', 'anyways', '不能', '恰似', 'name', '60', '比照', 'think', '届时', '常常', '极端', '互', '反应', '七', '...', '嘻', '》),', '望', '除此之外', '凝神', '极了', '30', ')', ']', "he's", '获得', '无论', '<', '就要', '完成', '={', '如', '嘎嘎', '方便', '第五期', '又一村', '奇', '与其', '出来', '其实', '根据', '这一来', '从不', 'A', '凡', 'second', '趁着', 'respectively', '是什么意思', '然而', '分头', 'several', '不必', '决定', '藉以', 'otherwise', '普通', 'knows', '②', '+', '第十届', '今年', '一致', '嗳', 'sensible', '咦', '并且', '先后', 'provides', '其他', '赖以', '第二行', "it'll", '不由得', 'wherever', '这个', '不管', '起首', '起初', '<<', '从头', '哈', '基于', '迅速', '呕', '不得', '齐', 'sorry', '<', 'we', '最高', 'many', '不断', '没有', ')÷(1-', '当地', '有时', '凑巧', '倒不如', '有笑', 'yours', 'will', '此时', '就此', '看到', '一旦', '1.', '①', '巨大', 'eight', '连', '……', '前后', '96', '不能不', '且不说', 'him', '变成', '趁热', '只怕', '当即', '7', '没', '46', '故', '上去', '纵令', '从新', '焉', 'as', '上来', '一则', 'presumably', 'you', '除开', '地三鲜', '不迭', '%', '己', '比如', '=', '愤然', '能够', '当真', '分别', '逐渐', 'never', '被', ')、', '所谓', '大力', '不久', '就', '5', '年复一年', '断然', '碰巧', '当口儿', '综上所述', ',也', '过去', '用来', '恰如', '伟大', '难得', '}', '产生', '即使', '方能', '那会儿', '如此', '——', '第三日', '着呢', 'μ', '居然', '来着', '第三层', '造成', '得', '在于', '再', '得起', '然後', '大不了', 'want', '莫不然', '的话', '饱', '有没有', 'whereupon', 'yes', '恰好', '欢迎', '之後', '哎', '立即', '刚', 'indicate', '嗯', '”,', 'became', '第二款', 'upon', '95', 'appear', '您', '愿意', '$', '第四种', '有着', '有一起', 'quite', '———', '顷刻之间', 'its', '现代', '到底', '哎呀', 'regarding', 'Lex', '这边', '62', '不只', '适应', 'appropriate', '移动', '有关', '不力', '把', '何以', '08', '不尽然', "what's", '连日来', '小', '绝非', 'whole', '中小', '宣布', '借', '下', '谁', 'namely', 'clearly', '曾', '倒不如说', '会', '68', '月', '从早到晚', 'those', 'novel', '某个', '毫无保留地', '几番', '凭借', '大约', '取道', '不然的话', '大略', '29', '串行', '反倒', '兮', 'greetings', 'Δ', '不起', '啥', '有的是', '练习', '仅', '决不', '不外', '既是', 'lately', '自家', '︿', '云尔', '若非', '并没有', '切莫', '独', '依据', '哎哟', 'elsewhere', '从轻', '然', 'got', '成心', 'especially', '一方面', 'R.L.', 'et', 'contain', '喔唷', '三番两次', 'their', 'he', '保持', '常言道', '此处', 'however', '设若', '你是', '第', '于', '保管', '除去', '果然', 'hither', '策略地', '恰恰', '非徒', '一天', '不仅', '没奈何', '\u3000', '您是', 'herein', 'become', '不成', '以为', '公然', '据说', 'through', '第十一', '这么', '临', '属于', '转动', '总结', '具体说来', 'last', 'willing', '多次', '不要', "you're", '?', 'insofar', '(', '假使', 'allows', '呜呼', '并排', '纵使', '不亦乐乎', 'between', '经', '哩', '”', 'afterwards', "here's", '因为', '从小', '尔', '不料', '该当', '换句话说', 'help', '倘然', '么', '彻夜', 'either', '最后一题', '呵呵', '#', '5:0', '82', '共总', '隔夜', 'zz', '48', 'whence', '显著', '第五元素', '则甚', '呵', '连袂', 'unto', '一面', 'everybody', '09', '请勿', 'hopefully', '近', '矣', 'sometime', '一定', '所有', 'whether', '倍感', '又为什么', '`', 'ask', '反手', '还要', 'something', '对应', '反映', '69', '千万千万', '眨眼', 'nowhere', '不比', 'seen', '因了', 'in', '任务', '叮咚', '通过', 'could', '其一', '半', '哪年', '认为', '长线', '...................', '又及', 'whereafter', '进来', '最后一集', '⑥', '何时', '大多', '大批', '甭', 'better', '运用', 'somehow', '更重要的是', '管', 'followed', '依', '急匆匆', 'see', '这时', 'containing', '暗自', ' [', '广泛', '在下', '为此', '反倒是', 'all', '转变', '何必', '却不', '云云', '][', '儿', 'allow', 'seriously', "shouldn't", '恰巧', '本', '真是', '起头', '8', '第三回', 'becomes', '2', '弹指之间', 'after', '哼', '路经', '慢说', '他人', '日臻', '>', 'ignored', 'forth', '万一', '02', '何须', 'herself', '但是', '周围', '得了', '25', '甚且', '乎', 'thus', '的', 'latter', '不知不觉', '帮助', '其后', '呼啦', '故而', '大大', 'okay', '加上', '一一', '均', 'consider', '失去', '第三课', '66', '轰然', '开始', 'amongst', 'serious', '并不是', '^', 'of', '乘虚', '】', '第三声', '至今', '第二单元', 'they', '简而言之', '立时', '般的', 'and', 'therefore', '随', '最后一颗子弹', '你', '84', '有一道', 'though', '必', '朝', '以故', '全然', '处处', '常言说得好', '维持', '呗', 'viz', '瑟瑟', '『', '所', '清楚', 'thereby', "they've", '最后一班', 'lest', 'aside', '接着', 'fifth', '看上去', '不独', '反过来', '咧', '昂然', 'where', "i've", '孰知', '1', 'despite', '07', '大举', '第二', 'how', '粗', 'thru', '各位', '加之', '只要', 'every', '巴巴', 'etc', '第三遍', '譬如', '好', '单', '使', 'use', '梆', '此地', '除此而外', '99', '从事', '不至于', '~', '陡然', 'rd', 'for', '双方', 'it', '或者', '诸位', '可', 'were', '挨门逐户', 'done', '为什麽', 'doing', '可好', '何况', 'gets', '有意的', 'none', '哪样', '古来', '还有', '第三集', '好在', '全身心', '怎么', '》', '再者', '方面', 'are', '64', '决非', '极力', '男子', '无宁', '数', '不了', 'beside', ''', 'specifying', '一个', '第三张', '照', '从', '要不是', '刚巧', '又小', '正如', '再者说', '本人', '尽快', '只当', '不少', '如期', '16', '本地', '那样', '这里', 'if', '匆匆', '有一会了', '整个', 'others', '他的', '迄', '不日', '也罢', '18', '满', '何尝', '不若', '67', 'regardless', '喂', 'almost', 'example', '34', '截然', '第十三', '千万', '即是说', '"', 'th', '因此', '由', '别的', '也是', '年', '多多益善', '理应', '为了', '2.3%', '传说', '12%', '到头', '那边', '多少', '以外', '别管', '不可', '独自', 'unless', 'try', '//', '保险', '刚才', 'wants', '仍旧', '无法', '旁人', '有喜欢', '曾经', "'", '乒', '哪儿', 'among', '第四套', '更进一步', '行为', 'may', '哗', '、', '庶几', 'wonder', '引起', '用', '一些', '咚', '大致', '那般', '尚且', '最后一眼', '开外', '既...又', '这次', '社会主义', 'saw', 'nearly', '*', '理当', '......', '第五组', '只', '继续', '离', '实际', 'asking', '每当', '如下', '何', '给', '7', '一般', 'next', '什么', '下午', '亲身', '并无', '消息', '两者', 'mean', '豁然', '不管怎样', '尽管如此', '方', '更有甚者', '呐', '21', '避免', '23', '第四场', '毫无例外', '代替', '到目前为止', '…', '何处', '五', '另悉', '还', 'nevertheless', '‘', 'often', 'whereby', 'apart', '51', 'why', '明确', 'inward', 'myself', '以便', '另', '第五年', '某某', '相反', '更', '举凡', 'LI', '促进', '哟', '陈年', 'using', '孰料', '从中', '况且', '虽然', '屡', 'anyhow', '#', '日复一日', '良好', '有著', '啊哈', '第四声', '怎么样', 'while', '暗中', '先生', '第五单元', '那么', '经过', 'Ψ', '惟其', '相对而言', '不可开交', '大量', '老是', '不再', '日渐', '若', 'placed', '等等', '重大', '何乐而不为', '假如', '准备', "don't", '∈[', 'too', '∪φ∈', '连连', '不时', '无', '不消', '着', 'along', '17', '姑且', '哗啦', 'anywhere', 'A', '而外', '通常', 'changes', '刚好', '复杂', 'not', '大家', 'howbeit', '除非', '不经意', '从宽', '不常', '先不先', '传闻', 'overall', '比较', 'needs', '第三篇', '以後', '哪些', '放量', "where's", '第三项', '之类', '竟然', 'down', '甚至', '进步', '看看', '顷刻间', '来自', '传', 'first', '第四年', '虽说', 'brief', '~±', 'particularly', 'can', 'around', '你的', '阿', '应当', '才能', 'thorough', '错误', '挨着', '不巧', '巩固', '惯常', '第四册', '靠', '及其', '88', '--', '80', '第十二'}

三:通过gensim,加载预训练词向量,获取embedding_matrix

1:加载词向量

https://www.cnblogs.com/bill-h/p/14655224.html

使用下载好的训练好的词向量模型——/embeddings/sgns.weibo.bigram.bz2,

下载地址:https://pan.baidu.com/s/11PWBcvruXEDvKf2TiIXntg

from gensim.models import KeyedVectors#读取词向量模型
def get_word2vec():word2vec=KeyedVectors.load_word2vec_format("F:\\研一课程\\周水生机器学习中的优化\\LSTM谣言检测\\rummordetection_lstm-main\\rummordetection_lstm-main\\embeddings\\sgns.weibo.bigram.bz2",binary=False,unicode_errors="ignore")#读取词向量文件sgns.weibo.bigram.bz2,使用越频繁的词就会越靠前。return word2vecword2vec=get_word2vec()
# 获取“词-索引”字典
word2vec.key_to_index
{',': 0,'的': 1,'。': 2,'@': 3,'!': 4,'了': 5,'、': 6,':': 7,'是': 8,'一': 9,'有': 10,'】': 11,'?': 12,'在': 13,'我': 14,'你': 15,'和': 16,'个': 17,'�': 18,'不': 19,'人': 20,'“': 21,'一个': 22,'就': 23,'都': 24,'也': 25,'我们': 26,'要': 27,'#': 28,'好': 29,'”': 30,'啊': 31,'这': 32,'去': 33,',': 34,';': 35,'很': 36,'月': 37,'还': 38,'.': 39,'1': 40,'微博': 41,'》': 42,'上': 43,'会': 44,'说': 45,'《': 46,'~': 47,'年': 48,'吧': 49,'小': 50,'大': 51,'天': 52,'能': 53,'-': 54,'吃': 55,'来': 56,'自己': 57,'让': 58,'可以': 59,'给': 60,':': 61,'到': 62,'看': 63,'就是': 64,'最': 65,'(': 66,'为': 67,'中国': 68,'多': 69,'与': 70,'中': 71,'北京': 72,'这个': 73,'[': 74,'爱': 75,'他': 76,']': 77,'做': 78,'日': 79,'【': 80,'把': 81,'想': 82,'又': 83,'没有': 84,'2': 85,'什么': 86,'大家': 87,'旅游': 88,'被': 89,'对': 90,'吗': 91,'过': 92,'不是': 93,'将': 94,'之': 95,'。。。': 96,')': 97,'呢': 98,'3': 99,'等': 100,'着': 101,'啦': 102,'里': 103,'酒店': 104,'点': 105,'太': 106,'没': 107,'但': 108,'用': 109,'今天': 110,'两': 111,'哦': 112,'还是': 113,'第': 114,'……': 115,'而': 116,'三': 117,'――': 118,'次': 119,'喜欢': 120,'分享': 121,'从': 122,'后': 123,'知道': 124,'5': 125,'种': 126,'那': 127,'得': 128,'4': 129,'一起': 130,'这样': 131,'��': 132,'下': 133,'您': 134,'活动': 135,'?': 136,'(': 137,'们': 138,'你们': 139,'现在': 140,'生活': 141,'时候': 142,'请': 143,'才': 144,'时': 145,'再': 146,'世界': 147,'更': 148,'她': 149,'地': 150,'~': 151,'开始': 152,'第一': 153,'10': 154,'!': 155,'还有': 156,'可': 157,'这里': 158,'几': 159,'它': 160,'美食': 161,'看到': 162,'//': 163,'已经': 164,'因为': 165,'时间': 166,'这么': 167,'6': 168,'朋友': 169,'如果': 170,'只': 171,'不要': 172,'他们': 173,'美': 174,'谁': 175,'很多': 176,'7': 177,'以': 178,'...': 179,'家': 180,'转发': 181,'张': 182,'_': 183,'关注': 184,'元': 185,'…': 186,')': 187,'8': 188,'支持': 189,'一下': 190,'希望': 191,'像': 192,'怎么': 193,'"': 194,'需要': 195,'走': 196,'不能': 197,'一定': 198,'/': 199,'上海': 200,'觉得': 201,'叫': 202,'位': 203,'比': 204,'于': 205,'自': 206,'条': 207,'老': 208,'旅行': 209,'却': 210,'号': 211,'店': 212,'事': 213,'9': 214,'那么': 215,'孩子': 216,'新': 217,'快': 218,'真的': 219,'体验': 220,'跟': 221,'转': 222,'地方': 223,'当': 224,'心': 225,'"': 226,'并': 227,'感觉': 228,'推荐': 229,'或': 230,'照片': 231,'找': 232,'城市': 233,'四': 234,'不会': 235,'幸福': 236,'十': 237,'应该': 238,'哈哈': 239,'博文': 240,'~~': 241,'真': 242,'小时': 243,'快乐': 244,'不错': 245,'工作': 246,'呀': 247,'一直': 248,'精彩': 249,'开心': 250,'及': 251,'一样': 252,'手机': 253,'最后': 254,'图': 255,'非常': 256,'起来': 257,'问题': 258,'发现': 259,'已': 260,'前': 261,'2013': 262,'出': 263,'名': 264,'来自': 265,'老师': 266,'至': 267,'所以': 268,'不过': 269,'新浪': 270,'看看': 271,'12': 272,'行': 273,'起': 274,'香港': 275,'早安': 276,'拍': 277,'如': 278,'成为': 279,'只有': 280,'成': 281,'30': 282,'带': 283,'][': 284,'各种': 285,'其实': 286,'人生': 287,'发布': 288,'微': 289,'带着': 290,'参加': 291,'但是': 292,'么': 293,'机会': 294,'文化': 295,'本': 296,'送': 297,'期待': 298,'+': 299,'儿': 300,'第二': 301,'片': 302,'开': 303,'买': 304,'玩': 305,'欢迎': 306,'视频': 307,'场': 308,'图片': 309,'获得': 310,'美丽': 311,'餐厅': 312,'这些': 313,'东西': 314,'11': 315,'感谢': 316,'晚上': 317,'正在': 318,'花': 319,'网': 320,'摄影': 321,'20': 322,'参与': 323,'半': 324,'五': 325,'那些': 326,'发': 327,'刚': 328,'二': 329,'七': 330,'更多': 331,'所有': 332,'由': 333,'只是': 334,'成功': 335,'晚': 336,'明天': 337,'水': 338,'可爱': 339,'中的': 340,'喝': 341,'%': 342,'电影': 343,'免费': 344,'15': 345,'周末': 346,'听': 347,'客户端': 348,'该': 349,'加': 350,'每': 351,'先': 352,'味道': 353,'分钟': 354,'咖啡': 355,'滴': 356,'美国': 357,'位于': 358,'谢谢': 359,'国际': 360,'游': 361,'梦想': 362,'真是': 363,'国家': 364,'岁': 365,'--': 366,'菜': 367,'那个': 368,'特别': 369,'good': 370,'别人': 371,'享受': 372,'长': 373,'每天': 374,'为了': 375,'打': 376,'有人': 377,'最好': 378,'写': 379,'达人': 380,'哥': 381,'女人': 382,'设计': 383,'其': 384,'无': 385,'服务': 386,'一些': 387,'公司': 388,'故事': 389,'出来': 390,'生命': 391,'台湾': 392,'内': 393,'必须': 394,'官方': 395,'如何': 396,'这种': 397,'创意': 398,'可能': 399,'件': 400,'多少': 401,'飞': 402,'日本': 403,'周': 404,'别': 405,'向': 406,'健康': 407,'今晚': 408,'不同': 409,'音乐': 410,'事情': 411,'选择': 412,'终于': 413,'一点': 414,';': 415,'只要': 416,'座': 417,'全': 418,'风景': 419,'奥迪': 420,'站': 421,'然后': 422,'如此': 423,'最大': 424,'高': 425,'继续': 426,'好吃': 427,'哈哈哈': 428,'记得': 429,'香': 430,'版': 431,'死': 432,'总': 433,'妈妈': 434,'历史': 435,'此': 436,'准备': 437,'产品': 438,'哪': 439,'帮': 440,'永远': 441,'―': 442,'以后': 443,'景区': 444,'品牌': 445,'时尚': 446,'书': 447,'路上': 448,'现场': 449,'加入': 450,'刚刚': 451,'全国': 452,'问': 453,'笑': 454,'男人': 455,'一切': 456,'为什么': 457,'2012': 458,'阳光': 459,'爱心': 460,'子': 461,'今年': 462,'重要': 463,'猫': 464,'分': 465,'微信': 466,'・': 467,'天下': 468,'2014': 469,'有点': 470,'努力': 471,'厦门': 472,'岛': 473,'哈': 474,'生': 475,'粉丝': 476,'度': 477,'超级': 478,'美好': 479,'王': 480,'超': 481,'夜': 482,'最美': 483,'各位': 484,'主题': 485,'求': 486,'杯': 487,'拥有': 488,'经典': 489,'车': 490,'浪漫': 491,'肉': 492,'简单': 493,'节目': 494,'份': 495,'A': 496,'所': 497,'企业': 498,'真正': 499,'红': 500,'米': 501,'而是': 502,'全球': 503,'三亚': 504,'国内': 505,'款': 506,'吃货': 507,'之旅': 508,'虽然': 509,'拍摄': 510,'力': 511,'山': 512,'粉': 513,'总是': 514,'美味': 515,'亲': 516,'传统': 517,'」': 518,'学习': 519,'黑': 520,'以及': 521,'适合': 522,'六': 523,'秀': 524,'地址': 525,'是不是': 526,'管理': 527,'路': 528,'~~~': 529,'未来': 530,'好看': 531,'梦': 532,'之后': 533,'直接': 534,'100': 535,'茶': 536,'八': 537,'爱情': 538,'卫视': 539,'少': 540,'市场': 541,'嘛': 542,'越': 543,'提供': 544,'放': 545,'穿': 546,'则': 547,'时代': 548,'18': 549,'间': 550,'都会': 551,'成都': 552,'回家': 553,'红包': 554,'篇': 555,'广州': 556,'新闻': 557,'女': 558,'通过': 559,'抢': 560,'同学': 561,'因': 562,'酒': 563,'「': 564,'人们': 565,'干': 566,'才能': 567,'摄影师': 568,'回': 569,'结果': 570,'值得': 571,'是否': 572,'见': 573,'之一': 574,'感受': 575,'进行': 576,'赞': 577,'使': 578,'只能': 579,'以为': 580,'漂亮': 581,'者': 582,'面': 583,'自然': 584,'新鲜': 585,'神': 586,'而且': 587,'发展': 588,'媒体': 589,'下午': 590,'认为': 591,'挖': 592,'鱼': 593,'注意': 594,'美女': 595,'游客': 596,'入': 597,'作品': 598,'加油': 599,'社会': 600,'同时': 601,'拿': 602,'原来': 603,'道': 604,'天气': 605,'容易': 606,'话': 607,'22': 608,'约': 609,'放入': 610,'一般': 611,'得到': 612,'牛': 613,'中心': 614,'完美': 615,'段': 616,'手': 617,'无法': 618,'每日': 619,'推出': 620,'各': 621,'环境': 622,'快来': 623,'锅': 624,'字': 625,'可是': 626,'相信': 627,'啥': 628,'50': 629,'男': 630,'其中': 631,'艺术': 632,'晚安': 633,'找到': 634,'好友': 635,'住': 636,'目前': 637,'祝': 638,'之前': 639,'雨': 640,'居然': 641,'童鞋': 642,'或者': 643,'句': 644,'过去': 645,'→': 646,'作为': 647,'编': 648,'除了': 649,'一家': 650,'群': 651,'系列': 652,'温暖': 653,'食': 654,'00': 655,'四川': 656,'不用': 657,'不到': 658,'有些': 659,'用户': 660,'完全': 661,'进入': 662,'正': 663,'风': 664,'信息': 665,'心情': 666,'出现': 667,'使用': 668,'越来越': 669,'部': 670,'内容': 671,'看着': 672,'特色': 673,'挺': 674,'马上': 675,'相声': 676,'最近': 677,'台': 678,'升级': 679,'哪里': 680,'.': 681,'营销': 682,'报名': 683,'私信': 684,'即将': 685,'电话': 686,'木': 687,'外': 688,'杂志': 689,'绝对': 690,'坐': 691,'发生': 692,'君': 693,'其他': 694,'南京': 695,'演员': 696,'突然': 697,'每个': 698,'飞机': 699,'声音': 700,'���': 701,'吃饭': 702,'活': 703,'嘻哈': 704,'价格': 705,'建筑': 706,'卖': 707,'V': 708,'互联网': 709,'泰国': 710,'决定': 711,'先生': 712,'睡': 713,'这次': 714,'了解': 715,'食物': 716,'好好': 717,'油': 718,'靠': 719,'告诉': 720,'若': 721,'名字': 722,'对于': 723,'好像': 724,'法国': 725,'朋友们': 726,'坚持': 727,'口': 728,'能够': 729,'学': 730,'身边': 731,'方式': 732,'连': 733,'带来': 734,'日子': 735,'比较': 736,'太多': 737,'苹果': 738,'老板': 739,'时光': 740,'里面': 741,'个人': 742,'广告': 743,'任何': 744,'感动': 745,'结束': 746,'回来': 747,'炒': 748,'近': 749,'包': 750,'人民': 751,'另': 752,'早': 753,'称': 754,'14': 755,'曾': 756,'空间': 757,'确实': 758,'俺': 759,'祝福': 760,'著名': 761,'杭州': 762,'今日': 763,'人家': 764,'餐饮': 765,'更好': 766,'帮助': 767,'2011': 768,'曾经': 769,'味': 770,'团队': 771,'且': 772,'边': 773,'韩国': 774,'改变': 775,'妈': 776,'影响': 777,'最佳': 778,'19': 779,'想要': 780,'届': 781,'丰富': 782,'换': 783,'同': 784,'价值': 785,'姐': 786,'出发': 787,'下载': 788,'便': 789,'赶紧': 790,'钱': 791,'16': 792,'收到': 793,'主要': 794,'公里': 795,'达': 796,'13': 797,'必': 798,'新疆': 799,'旅': 800,'正式': 801,'24': 802,'建议': 803,'代表': 804,'专业': 805,'寻找': 806,'不仅': 807,'些': 808,'自由': 809,'80': 810,'旅游局': 811,'年前': 812,'声': 813,'集团': 814,'汽车': 815,'城': 816,'海': 817,'网络': 818,'肯定': 819,'热': 820,'新的': 821,'身体': 822,'21': 823,'品': 824,'即可': 825,'特': 826,'温泉': 827,'计划': 828,'笑哈哈': 829,'春节': 830,'昨天': 831,'云南': 832,'遇到': 833,'25': 834,'天天': 835,'首': 836,'头': 837,'碗': 838,'也许': 839,'项目': 840,'精神': 841,'节': 842,'颗': 843,'看来': 844,'好多': 845,'表示': 846,'九': 847,'优惠': 848,'错过': 849,'度假': 850,'深圳': 851,'期': 852,'配': 853,'很好': 854,'B': 855,'记者': 856,'卡': 857,'天津': 858,'不想': 859,'意大利': 860,'网站': 861,'恭喜': 862,'团': 863,'安全': 864,'婚礼': 865,'功能': 866,'不好': 867,'火': 868,'煮': 869,'型': 870,'尽': 871,'当然': 872,'评论': 873,'机场': 874,'雪': 875,'画': 876,'变成': 877,'行业': 878,'就要': 879,'政府': 880,'攻略': 881,'哟': 882,'处': 883,'季': 884,'据': 885,'游戏': 886,'还要': 887,'讲': 888,'整个': 889,'充满': 890,'想起': 891,'能力': 892,'真心': 893,'员工': 894,'风格': 895,'泡': 896,'欢乐': 897,'要求': 898,'之间': 899,'不如': 900,'实在': 901,'17': 902,'不了': 903,'一路': 904,'火锅': 905,'美景': 906,'英国': 907,'盐': 908,'移动': 909,'享': 910,'关于': 911,'再次': 912,'不少': 913,'乐': 914,'数据': 915,'当年': 916,'餐': 917,'早上': 918,'李': 919,'饭': 920,'亲们': 921,'云': 922,'平台': 923,'青年': 924,'唱': 925,'青春': 926,'到底': 927,'制作': 928,'估计': 929,'组': 930,'呵呵': 931,'依然': 932,'经常': 933,'想去': 934,'变': 935,'早餐': 936,'惊喜': 937,'丝': 938,'式': 939,'甚至': 940,'包括': 941,'蛋糕': 942,'保护': 943,'方法': 944,'看见': 945,'圣诞': 946,'点击': 947,'海南': 948,'西藏': 949,'宝宝': 950,'话题': 951,'来到': 952,'技术': 953,'愿': 954,'生日': 955,'选': 956,'周年': 957,'汤': 958,'德国': 959,'领导': 960,'白': 961,'大师': 962,'搭配': 963,'一生': 964,'光': 965,'经历': 966,'票': 967,'来说': 968,'夏天': 969,'楼': 970,'未': 971,'心里': 972,'南': 973,'仅': 974,'春天': 975,'姑娘': 976,'感': 977,'鸡': 978,'会员': 979,'明星': 980,'层': 981,'包袱': 982,'不管': 983,'搞': 984,'电视': 985,'左右': 986,'拉': 987,'完': 988,'某': 989,'最爱': 990,'下次': 991,'父母': 992,'竟然': 993,'多年': 994,'过来': 995,'东方': 996,'认识': 997,'合作': 998,'不断': 999,...}
# 查询词语“地球”对应的词向量
word2vec.word_vec('地球')
<ipython-input-53-68063290bfef>:2: DeprecationWarning: Call to deprecated `word_vec` (Use get_vector instead).word2vec.word_vec('地球')array([ 0.594169, -0.568692, -0.776196, -0.324364,  0.016311, -0.225051,0.420986,  0.43116 ,  0.428265, -0.256983,  0.370124,  0.305862,-0.020324,  0.243007,  0.234712, -0.614161, -0.140672,  0.695551,0.083963,  0.689722,  0.233259,  0.152571,  1.024671,  0.139783,0.202395,  0.152258, -0.26312 ,  0.102958,  0.248036,  0.131189,0.275885,  0.082996,  0.491571,  0.225018,  0.266493, -0.420912,-0.471418,  0.809017,  0.141163,  1.130004, -0.261278, -0.856712,-0.400395,  0.198048,  0.05645 ,  0.678296,  0.2836  , -0.130534,0.805508,  0.093283, -0.646966,  0.529736,  0.779232,  0.551138,0.174808,  0.247027, -0.373688, -0.576475, -0.325732, -0.082459,-0.47632 , -0.229266,  2.085353,  0.592716,  0.176334,  0.497692,0.649653,  0.144183,  0.703805,  0.034919,  0.748792,  0.085221,0.473858, -0.401072, -0.947229,  0.576858,  0.315247, -0.640268,0.342379, -1.558704,  0.086163,  0.334141, -0.820931, -0.971747,0.265167,  0.501708, -0.44508 , -0.201019,  1.137126, -0.524235,0.358898, -0.225462,  0.265465, -0.206449, -1.366041,  0.199185,0.268479, -0.708933, -0.317492,  0.005376,  0.459616, -0.052285,-0.337994, -1.220452,  0.09167 ,  0.315118, -0.063763, -0.426036,0.205738,  0.323416,  0.57625 , -0.164826, -0.525151, -0.1566  ,-0.518378,  0.313611,  0.06549 ,  0.194561,  0.198763, -0.622947,0.689087,  0.152702, -0.230708,  0.393303,  0.288658, -0.469481,0.101568, -0.559899, -0.239013,  0.04444 , -0.512653, -0.191998,-0.154456,  1.33964 ,  0.32832 ,  0.982129, -0.171914,  0.494866,1.032956,  0.24044 , -0.905777, -0.272647, -0.161794, -0.211096,-0.920188,  0.985234, -0.044058, -0.38891 ,  0.681905, -0.400282,-0.500766, -0.127555,  0.307823,  0.694935, -0.512435, -0.901273,0.641044, -0.16945 ,  0.632315,  0.272749, -0.694152,  0.686993,0.262837,  0.59613 ,  0.090302,  1.860848, -0.166851,  0.276754,-0.555203,  0.697493,  0.936634,  0.193718,  0.196608,  0.073793,0.082054,  0.284785, -0.812682, -0.204861,  0.824906, -0.676902,-0.854978, -0.909203, -0.280592, -0.480879, -0.217995, -0.256043,0.517293,  0.201248, -0.565574,  0.360344,  0.181837, -0.133435,-0.334987,  0.040227,  0.501909,  0.191659,  0.209178,  0.099721,-0.124362,  0.848287, -0.029316,  0.113569,  0.747785,  0.206726,0.339223,  0.1414  , -0.828587,  0.846909, -0.486901,  0.042668,-0.349429, -0.0491  , -0.188621,  0.628018,  0.787592,  0.619018,-0.729359,  0.633972,  0.678034, -0.252666,  0.008   , -0.2895  ,0.995281, -0.099295,  0.846986,  0.657285,  0.736554,  0.796017,-0.118278, -0.671056, -0.684588,  0.024951,  0.084893,  1.330889,-0.907356, -0.469333, -0.937091, -0.621381,  0.037569,  1.131863,-0.082662, -0.200744,  0.316928, -0.207599,  0.280597, -0.627365,1.029001,  0.589092,  0.556169,  0.513512, -0.441827,  0.05047 ,-0.215281, -1.183606, -0.011877, -0.588229, -0.492906,  0.49306 ,0.377719,  0.569881, -0.647512,  0.328652, -0.105831,  0.318817,-0.024814, -0.292444, -0.298455, -0.460332,  0.08468 , -0.303269,-0.0561  , -0.369285,  0.584729, -0.051919,  0.328322, -0.826165,-0.872997, -1.262497,  0.06934 , -0.400124, -0.969265, -0.209392,-0.524788,  0.12054 , -0.275462,  0.336152, -0.465911,  0.601564,1.018939,  0.239033,  0.63644 ,  1.337305,  0.22037 ,  0.3295  ,-0.219874,  0.385543, -0.417511,  0.481287, -1.519231,  0.074622],dtype=float32)
# 查询与“地球”最相近的词
word2vec.most_similar('地球')
[('自转', 0.5498958230018616),('@WWF', 0.5482718348503113),('世界自然基金会', 0.5304360389709473),('月球', 0.5204099416732788),('太阳系', 0.5103502869606018),('熄灯', 0.509930431842804),('星球', 0.5082988142967224),('8.214', 0.5052586793899536),('地球日', 0.4897368550300598),('小行星', 0.47547173500061035)]

2:获取embedding_matrix

通过以上操作我们可以得到微博文本的词向量表示。每一条谣言为一条样本数据。通过分词和去除停用词得到每一

条样本的文本特征,再使用已训练好的词向量得到上述谣言文本特征词的向量表示。

本节用以构造可以输入到机器学习模型与深度学习模型的样本矩阵。

每一条样本为50000*300维的矩阵。每一个词表示为300维的向量。50000为微博词汇库里使用频率前50000个词汇。

若某条数据有7个词汇,则该数据为50000*300维的矩阵,且只有7行非0,其余元素全为0.显然样本数据高度稀疏。

举例:

非谣:1 #星娱星乐#一个朋友和一个送外卖的帅哥之间的故事。温馨有爱,令人感动。

提取文本特征:星娱星乐 朋友 送 外卖 帅哥 故事 温馨 爱 感动,共9个文本特征词汇

由于词汇“星娱星乐”不属于频率为前50000词汇,去除该文本。剩下8个文本特征。

该样本为50000*300维的矩阵,其中只有词汇“朋友 送 外卖 帅哥 故事 温馨 爱 感动”对应的行向量非0,其余词

向量变为0.

在这里插入图片描述




http://www.ppmy.cn/news/418726.html

相关文章

魔与道java版本_魔与道_JAVA游戏免费版下载_7723手机游戏[www.7723.cn]

快速搜索机型: 诺基亚 N73系列(240320) N73 5320 5320XM 5320di_XM 5630XM 5700 5700XM 5710XM 5730XM 6110 6110N 6120 6120C 6120ci 6121 6122C 6124C 6210S 6210ci 6220C 6290 6650F 6700S 6702S 6710N 6720C 6730c 6788 6788I 6790 C5 C5-01 E101 E50 E51 E52 E55 E65 E66 …

Linux c 中malloc 函数 size为0 时 的结果

在linux c 中我们经常遇到malloc 去动态分配内存问题, 我们知道 malloc 的函数原型时 void *malloc(int size); 如果我们size 为0 那么 他的返回值 会是什么呢? 一定时NULL 吗? 不一定 应为libc 在定义这个函数时 对于malloc(0) 对于通平台有不通的反应. 有的平台 直接…

逾百位开发者到场,超 2 万人线上观看!龙蜥社区开发者服务 devFree MeetUp 精彩回顾来啦

春末夏初&#xff0c;细雨漫漫&#xff0c;龙蜥社区迎来了首届开发者服务平台&#xff08;devFree&#xff09;线下 MeetUp。此次沙龙吸引了不少来自行业头部公司、机构的代表参与主题分享&#xff0c;现场更是有百余位业内的专家与开源技术爱好者、工程师参与了关于如何做好开…

二维码和一维码生成器

一维&#xff1a;http://apps.99wed.com/360app/barcode/ 二维&#xff1a;草料在线生成器

二维码生成规则

微信18位纯数字&#xff0c;以10、11、12、13、14、15开头 支付宝条码规则&#xff1a;16位及以上&#xff0c;以28开头 银联二维码 规则62 开头 19位 转载于:https://my.oschina.net/u/3674060/blog/3036854

二维码生成器在线制作带logo二维码

1.打开要制作二维码的Excel文件 ​ 2.选中工号数据单元格区域 ​ 3.点击【图片工具】、【批量生成】 ​ 4.勾选【添加logo】&#xff0c;点击浏览将logo图片添加进去 5.点击【保存到文件夹】&#xff0c;然后点击浏览&#xff0c;选择保存位置。 6.最后点击【确定】 7.设置完…

二维码在线生成器如何批量制作设备标牌二维码

1.打开Excel软件&#xff0c;将设备信息录入到表格中。 2.选择数据单元格区域 3.点击【图片工具】选项 4.然后选择【批量生成】 5.勾选【按行生成】 6.最后我们在保存到区域选项内录入一个保存位置单元格就可以完成了 7.完成效果如下图所示

qrcode生成固定大小的二维码

qrcode生成固定大小的二维码 最近在使用qrcode的三方库制作一个二维码&#xff0c;但在使用的过程中&#xff0c;发现二维码的大小会随着加入字符串的多少的变化而变化。 QRcode *QRcode_encodeString(const char *string, int version, QRecLevel level, QRencodeMode hint, …