课程链接: 清华大学驭风计划
代码仓库:Victor94-king/MachineLearning: MachineLearning basic introduction (github.com)
驭风计划是由清华大学老师教授的,其分为四门课,包括: 机器学习(张敏教授) , 深度学习(胡晓林教授), 计算机语言(刘知远教授) 以及数据结构与算法(邓俊辉教授)。本人是综合成绩第一名,除了数据结构与算法其他单科均为第一名。代码和报告均为本人自己实现,由于篇幅限制,只展示任务布置以及关键代码,如果需要报告或者代码可以私聊博主
自然语言处理部分授课老师为刘知远教授,主要通过从统计方法入门,embedding,预训练模型,知识图谱,关系抽取,文本生成以及信息检索等不同下游任务入门自然语言处理
有任何疑问或者问题,也欢迎私信博主,大家可以相互讨论交流哟~~
任务介绍
新冠肺炎疫情牵动着我们每一个人的心,在这个案例中,我们将尝试用社会计算的方法对疫情相关的新闻和谣言进行分析,助力疫情信息研究。本次作业为开放性作业,我们提供了疫情期间的社交数据,鼓励同学们从新闻、谣言以及法律文书中分析社会趋势。(提示:运用课上学到的方法,如情感分析、信息抽取、阅读理解等分析数据)
数据说明
https://covid19.thunlp.org/ 提供了与新冠疫情相关的社交数据信息,分别为疫情相关谣言 CSDC-Rumor、疫情相关中文新闻 CSDC-News和疫情相关法律文书 CSDC-Legal。
疫情相关谣言 CSDC-Rumor
这一部分的数据集收集了:
(1)自 2020 年 1 月 22 日开始的微博不实信息数据,包括被认定为不实信息的微博的内容、发布者,以及举报者、审理时间、结果等信息,截至 2020 年 3 月 1 日共 324 条微博原文,31,284 条转发和 7,912 条评论,用于帮助各位研究者分析研究疫情期间的不实信息传播;
(2)自 2020 年 1 月 18 日开始的腾讯谣言验证平台以及丁香园不实信息数据,包括被认定为正确或不实信息的谣言内容、时间以及用以判断是否为谣言的依据等信息,截至 2020 年 3 月 1 日共 507 条谣言数据,其中事实性数据 124 条,数据分布为,负例:420 正例:33 不确定:54。
疫情相关中文新闻 CSDC-News
这一部分的数据集收集了自 2020 年 1 月 1 日开始的新闻数据,包含了新闻的标题、内容、关键词等信息,截至 2020 年 3 月 16 日共收集 148,960 条新闻以及 1,653,086 条对应评论,用于帮助各位研究者分析研究疫情期间的新闻数据。
疫情相关法律文书 CSDC-Legal
该数据为对从 CAIL 收集的经匿名化的法律文书数据中筛选出的历史上与疫情相关的部分,共 1203 条,每条数据包含了文书标题、案号以及文书全文,供研究者用于进行疫情期间相关法律问题的研究。
参考思路
- 谣言检测:如何准确快速地识别社交媒体上的谣言是社会计算领域中的一个重要问题,在我们提供的疫情相关谣言数据集上,同学们可以尝试不同的谣言检测方法,比如基于特征[1]、基于神经网络[2, 3]或基于传播模型的方法[4],综述[5]总结了谣言检测的相关技术。
- 新闻情感分析:参考我们的情感分析作业,可以通过关键词识别[6]等技术对疫情相关的中文新闻进行情感分析,并找出情感背后蕴含的社会学原因。
- http://weibo.com/n/%E6%B8%85%E5%8D%8E%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86 清华自然语言处理实验室微博中给出了一些可视化例子,同学们也可以用统计学和语言学方法对文本进行分析和可视化。
评分标准
本次作业为开放性作业,我们会从
- 选题的合理性和新颖性
- 采用方法的合理性和技术含量
- 作业的完成度和工程量
- 报告和社会学分析的完整性和深入程度
等方面为作业进行评分。
报告
核心代码
利用SNOWNLP对新闻做了一个情感分析
‘’
以及利用开源的预训练模型mirrors / embedding / chinese-word-vectors · GitCode , 做了一个谣言检测系统
结果
2020年上半年的疫情地图
2020年上半年的词云图
每个月的新闻情感如下