大数据简介

news/2025/2/6 10:58:51/
  1. 大数据概论和职业规划

  1. Linux服务器系统

  1. Hadoop概论

  1. HDFS分布式文件系统

  1. Hive数据仓库

  1. SparSQL指令

  1. Zepplin框架

  1. Sqoop框架

  1. Superset数据可视化

  1. 大数据数仓实战-didi出行

大数据概念

大数据特点

大数据应用场景

大数据分析业务步骤

大数据职业规划

大数据学习路线。

大数据概念

数据:世界的本质是数据

大数据:是指无法在一定时间范围内用常规软件工具进行捕捉,管理和处理的数据集合,因此需要新处理模式,该处理模式就是大数据。

大数据解决什么问题?

海量数据存储

数据分析的前提是有数据,数据存储的目的是支撑数据分析,究竟怎么去存储庞大的数据量,是开展数据分析的企业在当下面临的问题。

海量数据运算

当解决了海量数据的存储问题,接下来就需要进行海量数据的计算。

大数据的特点

大、多、值、快、信

大:数据体量大

多:种类和来源多样化,结构化、非结构化,来源日志、音频、视频

值:低价值密度,客户量,1000万

快:速度快,数据增长速度快,获取数据的速度快

信:数据的质量,数据的准确性,数据的可信依赖度。

大数据的应用场景

大数据让借贷更放心

在金融行业,以借贷款为例,在贷款前,贷款借出方会先利用大数据对借款人进行贷款审核,以此来保障贷后的还款率。

借出方从各个渠道合法收集借款人的标签信息,如学历、职业、薪资状况,历史借还款,海量数据被放入反欺诈模型,还款模型,身份验证模型等做训练,最终得出是否通过本次贷款申请,贷款的额度,贷款人的还款意愿等评估信息。

借款人数据收集的越多,标签维度越细,数据越真实,则审核效果越全面。

大数据让广告营销更高效

投放前,通过大数据手段大量的整合、分析数据,包括用户的浏览习惯、消费行为、浏览记录、对广告的点击数量,构建全面的用户画像,保证广告定向投放。

广告投放后期,通过实时数据反馈,结合用户所处地域,时间的变化,动态优化广告素材,让同一个用户在不同的场景下享受不一样的广告服务。

大数据在新媒体应用

短视频平台通过大数据平台,分析用户的喜好,根据用户的喜好给用户推荐视频

xx平台会根据你的浏览历史推荐你喜欢或者关注的内容

大数据分析业务步骤

流程

明确数据分析的目的和思路

数据收集(sqoop、flume)

数据处理:提取、清洗、转化、加载(Sqoop、Kettle、Mapreduce)

数据分析:统计、建模、挖掘(Hive、Spark、Flink)

数据可视化:(Superset、Echarts、BI工具)

报告撰写

大数据框架

核心框架:Hadoop、Hive、Spark、Flink、Kafka、Hbase


http://www.ppmy.cn/news/34189.html

相关文章

Qt示例3:用Qt画一个温度计

示例1 以下是用Qt绘制一个简单的温度计的示例代码&#xff1a; #include <QPainter> #include <QWidget> #include <QApplication> class Thermometer : public QWidget { public:Thermometer(QWidget *parent 0); protected:void paintEvent(QPaintEvent …

【五】springboot启动源码 - onRefresh

onRefresh 源码解析 Initialize other special beans in specific context subclasses. 核心是创建一个web服务容器&#xff08;并未在这个方法启动&#xff09; createWebServer第182行&#xff0c;获取ServletWebServerFactory的具体实现 getWebServerFactory方法&#xff…

Matlab实现遗传算法

遗传算法&#xff08;Genetic Algorithm&#xff0c;GA&#xff09;是一种基于生物进化理论的优化算法&#xff0c;通过模拟自然界中的遗传过程&#xff0c;来寻找最优解。 在遗传算法中&#xff0c;每个解被称为个体&#xff0c;每个个体由一组基因表示&#xff0c;每个基因是…

Ubuntu-C语言下的应用

文章目录一、Ubuntu下C语言的应用&#xff08;一&#xff09;如何使用gedit创建/打开/保存/关闭文件&#xff08;二&#xff09;gedit中相关参数配置&#xff1a;首选项&#xff08;三&#xff09;ubuntu下C语言的编译器 -- gcc一、Ubuntu下C语言的应用 &#xff08;一&#x…

2023前端面试题(经典面试题)

经典面试题Vue2.0 和 Vue3.0 有什么区别&#xff1f;vue中计算属性和watch以及methods的区别&#xff1f;单页面应用和多页面应用区别及优缺点&#xff1f;说说 Vue 中 CSS scoped 的原理&#xff1f;谈谈对Vue中双向绑定的理解&#xff1f;为什么vue2和vue3语法不可以混用&…

IO流之计算机存储规则

引言&#xff1a; 字节流可以读写所有文件&#xff0c;字符流只可以读写纯文本文件 1、计算机的存储规则 八个比特为组成一个字节&#xff0c;字节是计算机中最小的存储单位 1.1、字符集 每一个二进制数字&#xff0c;对应码表中的一个英文字符&#xff0c;中文字符&#x…

WEB网站服务(一)

1.1 Apache网站服务基础1.1.1Apache简介Apache HTTP Server是开源软件项目的杰出代表&#xff0c;基于标准的HTTP网络协议提供网页浏览服务。Apache服务器可以运行在Linux,UNIX&#xff0c;windows等多种操作系统平台中。1.Apache的起源1995年&#xff0c;Apache服务程序的1.0版…

Java【多线程基础5】阻塞队列的原理和使用方式 + 模拟实现BlockingQueue

文章目录前言一、阻塞队列1, 什么是 阻塞队列2, 如何使用 阻塞队列二、生产者消费者模型1, 什么是 生产者消费者模型2, 生产者消费者模型 的作用3, 阻塞队列 结合 生产者消费者模型三、模拟实现阻塞队列总结前言 &#x1f4d5;各位读者好, 我是小陈, 这是我的个人主页 &#x1…