【自然语言处理】- 作业6: 面向新冠肺炎的社会计算应用

news/2024/11/26 3:27:57/

课程链接: 清华大学驭风计划

代码仓库:Victor94-king/MachineLearning: MachineLearning basic introduction (github.com)


驭风计划是由清华大学老师教授的,其分为四门课,包括: 机器学习(张敏教授) , 深度学习(胡晓林教授), 计算机语言(刘知远教授) 以及数据结构与算法(邓俊辉教授)。本人是综合成绩第一名,除了数据结构与算法其他单科均为第一名。代码和报告均为本人自己实现,由于篇幅限制,只展示任务布置以及关键代码,如果需要报告或者代码可以私聊博主



自然语言处理部分授课老师为刘知远教授,主要通过从统计方法入门,embedding,预训练模型,知识图谱,关系抽取,文本生成以及信息检索等不同下游任务入门自然语言处理


有任何疑问或者问题,也欢迎私信博主,大家可以相互讨论交流哟~~



任务介绍

新冠肺炎疫情牵动着我们每一个人的心,在这个案例中,我们将尝试用社会计算的方法对疫情相关的新闻和谣言进行分析,助力疫情信息研究。本次作业为开放性作业,我们提供了疫情期间的社交数据,鼓励同学们从新闻、谣言以及法律文书中分析社会趋势。(提示:运用课上学到的方法,如情感分析、信息抽取、阅读理解等分析数据)

数据说明

https://covid19.thunlp.org/ 提供了与新冠疫情相关的社交数据信息,分别为疫情相关谣言 CSDC-Rumor、疫情相关中文新闻 CSDC-News和疫情相关法律文书 CSDC-Legal。

疫情相关谣言 CSDC-Rumor

这一部分的数据集收集了:

(1)自 2020 年 1 月 22 日开始的微博不实信息数据,包括被认定为不实信息的微博的内容、发布者,以及举报者、审理时间、结果等信息,截至 2020 年 3 月 1 日共 324 条微博原文,31,284 条转发和 7,912 条评论,用于帮助各位研究者分析研究疫情期间的不实信息传播;

(2)自 2020 年 1 月 18 日开始的腾讯谣言验证平台以及丁香园不实信息数据,包括被认定为正确或不实信息的谣言内容、时间以及用以判断是否为谣言的依据等信息,截至 2020 年 3 月 1 日共 507 条谣言数据,其中事实性数据 124 条,数据分布为,负例:420 正例:33 不确定:54。

疫情相关中文新闻 CSDC-News

这一部分的数据集收集了自 2020 年 1 月 1 日开始的新闻数据,包含了新闻的标题、内容、关键词等信息,截至 2020 年 3 月 16 日共收集 148,960 条新闻以及 1,653,086 条对应评论,用于帮助各位研究者分析研究疫情期间的新闻数据。

疫情相关法律文书 CSDC-Legal

该数据为对从 CAIL 收集的经匿名化的法律文书数据中筛选出的历史上与疫情相关的部分,共 1203 条,每条数据包含了文书标题、案号以及文书全文,供研究者用于进行疫情期间相关法律问题的研究。

参考思路

  1. 谣言检测:如何准确快速地识别社交媒体上的谣言是社会计算领域中的一个重要问题,在我们提供的疫情相关谣言数据集上,同学们可以尝试不同的谣言检测方法,比如基于特征[1]、基于神经网络[2, 3]或基于传播模型的方法[4],综述[5]总结了谣言检测的相关技术。
  2. 新闻情感分析:参考我们的情感分析作业,可以通过关键词识别[6]等技术对疫情相关的中文新闻进行情感分析,并找出情感背后蕴含的社会学原因。
  3. http://weibo.com/n/%E6%B8%85%E5%8D%8E%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86 清华自然语言处理实验室微博中给出了一些可视化例子,同学们也可以用统计学和语言学方法对文本进行分析和可视化。

评分标准

本次作业为开放性作业,我们会从

  1. 选题的合理性和新颖性
  2. 采用方法的合理性和技术含量
  3. 作业的完成度和工程量
  4. 报告和社会学分析的完整性和深入程度

等方面为作业进行评分。




报告

核心代码

利用SNOWNLP对新闻做了一个情感分析

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xaiXYnSB-1684731471659)(image/hw6/1684730919832.png)]

‘’



以及利用开源的预训练模型mirrors / embedding / chinese-word-vectors · GitCode , 做了一个谣言检测系统




结果

2020年上半年的疫情地图

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3IOayW0W-1684731471661)(image/hw6/1684730976176.png)]


2020年上半年的词云图

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-z3V6hTSS-1684731471662)(image/hw6/1684730993388.png)]


每个月的新闻情感如下

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xXimchKk-1684731471663)(image/hw6/1684730957350.png)]


http://www.ppmy.cn/news/101615.html

相关文章

2023年上半年软件设计师考试上午试题(专业解析+参考答案)

软考试题: 涵盖软件设计师、网络规划设计师、系统分析师、系统架构设计师、信息系统项目管理师、系统规划管理师、系统集成项目管理师、软件测评师、数据库系统工程师、网络工程师、信息系统管理工程师、信息系统监理师、电子商务设计师、信息安全工程师、嵌入式系…

【WPF】数据绑定,资源字典

数据绑定 将数据与视图分开,创建MainViewModel .cs 作为数据源的处理 MainViewModel using System; using System.Collections.Generic; using System.ComponentModel; using System.Linq; using System.Runtime.CompilerServices; using System.Text; using System.Threading…

6.开源非对称加密算法SM2实现

6.开源非对称加密算法SM2实现 前期内容导读: 开源加解密RSA/AES/SHA1/PGP/SM2/SM3/SM4介绍开源AES/SM4/3DES对称加密算法介绍及其实现开源AES/SM4/3DES对称加密算法的验证实现开源非对称加密算法RSA/SM2实现及其应用开源非对称加密算法RSA实现 1. 开源组件 非对称秘…

【分布式文件存储】MinIO部署及实现文件上传下载

目录 概述 MinIO集群部署 准备docker-compose.yml 测试启动 MinIO用户管理 Buckets管理 创建Buckets MinIO客户端 引入依赖 文件上传下载Demo 调用API碰到的问题 概述 MinIO | 高性能, Kubernetes 原生对象存储 MinIO是全球领先的对象存储先锋,目前在全世…

jquery自定义封装函数

$("#btn").on("click", function (event) { //console.log($(this).browserParams()) console.log($.browserParams()) }) //局部封装: //调用方式:$(this).browserParams() $.fn.browserParams function () { var urlObj window.…

PHP基于Web的subversion用户管理系统的设计与实现

摘 要 本系统主要是基于Web的subversion系统的用户管理系统。在开源软件世界,并行版本系统(cvs)一直是版本控制长久以来的唯一选择,但是,和其它许多工具一样,cvs开始显露出衰老的迹象,而subversion,正是以cvs继任者的面目出现的新型版本控制系统。但是,它的用户管理…

「实在RPA·服装制造数字员工」助力服装「智」造数字升级

服装制造业作为衣食住行的重要组成部分,除了在百姓生活中扮演者着重要角色之外,同时在经济发展中具有重要的地位和作用。它不仅提供了大量就业机会,促进国际贸易和经济发展,同时也推动了技术创新和消费需求的满足。为顺应数字经济…

首届中国元宇宙应用场景大赛成果发布暨河畔元宇宙论坛圆满落幕

5月26日下午,首届中国元宇宙应用场景大赛成果发布暨河畔元宇宙论坛在北京城市副中心圆满落幕。活动在通州区委、区政府指导下,由北京大数据协会元宇宙专业委员会主办,中国质量认证中心、绿色智能新经济产业联盟、中关村元宇宙产业发展联盟协办…