【数据科学导论】第五章·数据可视化与文本分析

ops/2025/1/1 17:34:21/

 🌈 个人主页:十二月的猫-CSDN博客
🔥 系列专栏: 🏀数据处理与分析_十二月的猫的博客-CSDN博客

💪🏻 十二月的寒冬阻挡不了春天的脚步,十二点的黑夜遮蔽不住黎明的曙光

目录

1. 前言

2. 数据可视化

3.  文本分析

3.1 总纲

3.2 数据获取【网页抓取】

3.3 数据处理【中文分词】

4. 总结


 

1. 前言

【数据处理与分析】专栏主要专注于数据处理和数据分析。

专栏中的【数据科学导论】部分是对整个大数据科学所有技术(包括数据处理、数据分析)的一个概论,适用于想要快速入门大数据的友友们🥰🥰~~~

【数据科学导论】整体学习脉络:

  1. 数据科学导论——研究数据科学
  2. 数据科学——研究大数据处理
  3. 大数据处理过程——采集、表示与存储、预处理、建模分析、可视化决策
  4. 大数据处理过程指导数据科学导论内容

前面,我们学习了一下部分: 

数据清洗(噪声、填充、删除)

  1. 数据集成(冗余:无序数据冗余+有序数据冗余。无序数据冗余:皮尔逊相关系数、卡方检验;明氏距离、汉明距离;简单匹配相似度、jaccard相似度、余弦相似度。有序数据冗余:斯皮尔曼系数、NDCG。)
  2. 数据规约(PCA、特征子集选取)
  3. 数据变换(量纲处理:Z变换、最大最小值变、小数变换;离散处理:聚类、分箱、熵变换)

特征提取

  1. 设计特征:TF、IDF;
  2. 选取特征:全局最优搜索、随机搜索、启发式搜索;
  3. 特征评价:过滤式、封装式、嵌入式

数据探索性分析

  1. 数据分布:极差、方差、变异系数、异众比率等等
  2. 参数估计:矩估计、最小二乘估计(LSE)、极大似然估计(MLE)、最大后验概率估计(MAP)
  3. 假设检验
  4. 抽样方法:简单随机抽样、系统抽样、分层抽样、整群抽样

接下来,我们直接来加入可视化和文本分析部分。可视化就是数据可视化,文本分析就是文本进行处理🥥。由于本系列是入门课程,因此仅仅是对各部分有一个简单的介绍。

2. 数据可视化

数据可视化的作用:

  • 协助思考
  • 帮助记忆
  • 增强认知能力
  • 使用感知代替认知

数据可视化的方法和技术:

  •  图可视化
    •  节点链接图:直观简单但是对密集图不适用。  
    • 相邻矩阵:可视化效果不直观但是适合复杂密集图的展示。  
  • 统计图表可视化   
  • 地理数据可视化
    •  点数据可视化:简单直观,符合逻辑直觉;但是不适用于密集图展示。  
    • 线数据可视化:简单直观,但是不适用于密集图展示。  
    • 区域数据可视化  
  • 文本可视化
    •  文本可视化将文本中蕴含的语义特征(词频、逻辑结构、主题聚类、动态演化规律等)直观 的展示出来  
  • 时空数据可视化
    •  一维二维三维标量场数据可视化  

数据可视化工具:

  • Echarts
  • R语言
  • Processing
  • Google Refine

3.  文本分析

3.1 总纲

3.2 数据获取【网页抓取】

提升性能:异步抓取,DNS预解析

链接调度:累积式抓取,增量式抓取【搜索引擎的日常抓取】

重复检测:I-Match算法

爬虫:robots.txt(友好访问|存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的 漫游器内容是否能被获取)

恶意爬虫危害:

  • 增加网站带宽负担
  • 核心文本被爬取
  • 注册用户被扫描(一个个验证手机号看是否注册)
  • 点击欺诈(不知道真实的访问量)

3.3 数据处理【中文分词】

中文基于单字,中文书面表达方式以汉字作为最小单位的,但词与词之间没有显性的界限标志

词法分析包含:

  • 分词
  • 词性标注(名词,动词,形容词等)
  • 命名实体识别
  • 词义消歧

分词的意义:正确的机器自动分词是正确的中文信息处理的基础

分词主要难题:

  • 如何识别未登录词
  • 如何利用语言学知识
  • 词语边界歧义处理【分词歧义】
  • 实时性应用中的效率问题

4. 总结

本文到这里就结束啦~~

目前已完成:大数据入门、数据表示与存储、数据预处理、建模分析

期待您的关注~~🥰🥰

猫猫陪你永远在路上💪💪

如果觉得对你有帮助,辛苦友友点个赞哦~ 


http://www.ppmy.cn/ops/146091.html

相关文章

【Java】面试题 并发安全 (2)

文章目录 可重入锁(ReentrantLock)知识总结1. 可重入锁概念与特点2. 基本语法与使用注意事项3. 底层实现原理4. 面试回答要点 synchronized与lock的区别死锁相关面试题讲解死锁产生的四个条件ConcurrentHashMap2. JDK1.7的ConcurrentHashMap结构添加数据…

vuex - 第一天

思维逻辑 解决问题 代码能力2 vue2的项目 北京前端鸿蒙6期 语雀 vuex 在组件中使用 插件支持v2和v3 宏任务 和 微任务 多问问自己为什么 new的四步

大数据-256 离线数仓 - Atlas 数据仓库元数据管理 正式安装 启动服务访问 Hive血缘关系导入

点一下关注吧!!!非常感谢!!持续更新!!! Java篇开始了! 目前开始更新 MyBatis,一起深入浅出! 目前已经更新到了: Hadoop&#xff0…

JVM学习-内存结构(二)

一、堆 1.定义 2.堆内存溢出问题 1.演示 -Xmx设置堆大小 3.堆内存的诊断 3.1介绍 1,2都是命令行工具(可直接在ideal运行时,在底下打开终端,输入命令) 1可以拿到Java进程的进程ID,2 jmap只能查询某一个时…

从数据仓库到数据中台再到数据飞轮:电信行业的数据技术进化史

前言 大家好,我是一名大数据开发工程师,电信行业作为高度数据驱动的行业,长期以来通过技术创新不断优化服务质量和业务运营。从最早期的数据仓库,到数据中台,再到如今的数据飞轮,电信行业的数据技术经历了几…

零跑汽车一路狂飙

新能源汽车市场潮起潮落,只有潮水退去,才能看清谁在裸泳。十年前,一批新能源汽车新势力带着创新的理念和先进的技术,如雨后春笋般涌入中国汽车市场,掀起一场新旧势力的角逐。 经历市场的激烈洗礼与投资泡沫的挤压&…

【保姆级】sql注入之堆叠注入

一、堆叠注入的原理 mysql数据库sql语句的默认结束符是以";"号结尾,在执行多条sql语句时就要使用结束符隔 开,而堆叠注入其实就是通过结束符来执行多条sql语句 比如我们在mysql的命令行界面执行一条查询语句,这时语句的结尾必须加上分号结束 select * fr…

js和html中,将Excel文件渲染在页面上

1.如果从后端拿到的数据是文档流 // 从后端接口获取 Excel 文档流 async function fetchExcelFromBackend() {try {// 假设后端接口 URLconst backendApiUrl http://local.hct10039.com:18080/recognition/downloadExcel?orderSn${orderSn};const response await fetch(bac…