数据分析——基础

news/2024/9/17 19:08:48/ 标签: 数据分析, 大数据, 数据挖掘

目录

一、什么是数据分析

1、什么是数据

2、数据类型

3、数据分析

3.1 数据分析概念

3.2 数据分析要结合的维度

3.3 数据分析的目的

二、数据分析流程

三、数据呈现形式

1、柱状图

2、折线图

3、柱线图 

4、饼图

5、漏斗图 

6、雷达图

7、散点图 

8、桑基图

四、数据分析的几种常见方法

1、趋势分析

2、对比分析

2.1 环比 

2.2 同比

3、细分分析 

五、数据产品结构 


一、什么是数据分析

1、什么是数据

        是对客观事物的性质、状态以及相互关系等进行记载的组合。不仅指狭义上的数字,还可以是具有一定意义的文字、字母、数字符号的组合、图形、图像、视频、音频等。

  • 运营数据 

        AARRR模型又称海盗模型,指的是一款产品在运营阶段的各个生命周期,主要有五个阶段:拉新(获取)、激活、留存、付费(转化)、传播(推荐),可以指导产品运营和用户增长。 

        运营常见数据指标: 

  1. 拉新:对于APP:下载量、安装量、打开量、注册量        对于网站:访问量、注册量  ..        通常以日、周、月为周期来统计以上指标的新增
  2. 活跃:基础活跃数据:日活、周活、月活/每日、每周和每月的访问次数       深入活跃数据:停留时长、跳出率          可以针对整个APP的数据,也可以针对某个模块或某个页面的数据
  3. 留存:基础留存数据:次日留存、7日留存、月留存       深入留存数据:不同价值层次用户的留存
  4. 转化:产品核心业务或指定业务的转化数据      电商产品的转化指标:订单转化率(每日新增用户的下单转化率、总用户的下单转化率、下单/支付的用户转化率、不同流量路径的转化率等)、客单价、GMV(商品交易总额)         内容产品的转化指标:发布转化率、互动行为转化率等           社交产品的转化指标:社交行为的转化率、充值行为的转化率等          在线教育产品转化指标:学习相关行为的转化率
  5. 传播:指用户自发传播的数量    邀请成功的用户占总用户的比例被邀请的注册用户在总注册用户的比例

  • 独立页面数据
  1. PV(访问量 Page View):用户每打开一个页面就被记录一次,用户多次打开同一界面,浏览量值累计
  2. UV(访客数 Unique Visitor):一天内同一访客多次访问只计算一个访客
  3. 访问时长:用户在该页面停留的时间
  4. 跳出率:只浏览了一个页面便离开网站的访问次数占总的访问量的百分比       

2、数据类型

  • 业务数据:产品的整体业务数据,比如订单量、发文数量、活跃用户数量等,跟产品的具体某个页面和用户具体的行为无关
  • 行为数据:统计的是用户在特定页面或特定功能上的行为数据,比如某个按钮的点击情况
  • 第三方数据:通过API接口获得的数据,比如物流信息

3、数据分析

3.1 数据分析概念

        通过收集数据提取出有用的数据,利用合理的方法进行分析,总结出相应的结论

3.2 数据分析要结合的维度

  • 角色 (产品、运营、市场)

  • 时间(历史、当下、未来)

  • 范围(产品全局、功能模块、类型划分)

  • 类型(活跃度、订单转化率)

3.3 数据分析的目的

        发现问题、解决问题、验证问题是否有效解决

二、数据分析流程

  1. 明确目标(分析什么数据)
  2. 梳理业务(数据涉及到产品的哪些模块、页面和功能)
  3. 数据采集(通过业务数据统计、埋点数据统计的方式来获得相应数据)
  4. 数据整理(将得到的数据整理在后台,涉及数据清洗)    
  5. 数据分析(通过不同维度来分析数据)
  6. 数据呈现(将数据以不同的报表形式呈现出来)

数据清洗: 去除'脏数据’(不完整数据、错误数据、几余数据),对数据进行知识发现及质量管理,根据标准定义存储在数据仓中。

三、数据呈现形式

         数据可视化:旨在借助于图形化手段,清晰有效地传达与沟通数据信息。(柱状图、折线图、散点图、饼图、雷达图)

1、柱状图

  • 适用场景:数据的分类对比,适合固定维度分布,但不适用于分类过多的情况
  • 适用数据:区域分布、月度分布
  • 设计时常见的问题:①名称显示:内容名称过长时采用倾斜或省略 ②最小刻度:纵坐标往往不是从0开始,而是从最小刻度开始

2、折线图

  •  适用场景:随时间变化的连续数据,因此非常适用于显示在相等时间间隔下数据的趋势
  • 适用数据:活跃度、用户数,PV\UA......

3、柱线图 

        折线图与柱状图结合对比。 

4、饼图

  • 适用场景:了解数据分布情况,不适用分类过多的情况 
  • 适用数据:用户分布、类型分布
  • 设计时常见的问题:①显示上限:内容过多会显示不过来,可将较少的内容合并为"其他" ②显示区间:可按照不同区间显示内容

5、漏斗图 

  • 适用场景:表示某个环节业务量与上一环节之间的差异,适用有固定流程并且环节较多的分析,可以直观地显示转化率和流失率

  • 适用数据:整体留存、转化分析

6、雷达图

  • 适用场景:了解同类别的不同属性的综合情况,以及比较不同类别的相同属性差异
  • 使用数据:用户画像、内容画像 

7、散点图 

  • 适用场景:因变量随自变量而变化的大致趋势,存在大量数据点,结果更精准,数据量小的时候会比较混乱
  • 适用数据:优劣分布 

8、桑基图

  • 适用场景:表示不同页面(模块)的流量转化,适用对用户路径进行分析
  • 适用数据:用户转化分析

四、数据分析的几种常见方法

1、趋势分析

        趋势分析适用于产品核心指标的长期跟踪,如:活跃度、点击率等。需要明确数据的变化,以及对变化原因进行分析。

当数据出现异常,一般从3个角度查找问题:

  1. 技术层面:是否统计出错,或者产品出bug
  2. 产品层面:是否出现重要功能变更,导致数据异常变化
  3. 运营层面:是否运营措施有重大变更,导致数据异常变化  

2、对比分析

        对比分析,就是给孤立的数据一个合理的参考系,否则孤立的数据毫无意义。一般而言,对比数据时数据的基本面,比如行业的情况,全站的情况等。(对比分析要控制变量)

2.1 环比 

        本期统计数据与上期数据对比

2.2 同比

        本期统计数据与上一年度对应期间数据对比

3、细分分析 

        在得到一些初步结论时,需要进一步细拆,因为在一些综合指标的使用过程中,会抹杀一些关键的数据细节,而指标本身的变化,也需要分析变化产生的原因。这里的细分要进行多维度的细拆。最常用的维度是5W2H分析方法

五、数据产品结构 

数据产品结构 :

第三方产品与数据后台关系: 

 

 


http://www.ppmy.cn/news/1522985.html

相关文章

计算机网络 第二章: 物理层_信道的极限容量 奈氏准则 香农公式 (带习题)

文章目录 1. 造成信号失真的主要因素2. 奈氏准则3. 香农公式习题解答 1. 造成信号失真的主要因素 信道上传输的数字信号,可以看做是多个频率的模拟信号进行多次叠加后形成的方波。 如果数字信号中的高频分量在传输时受到衰减甚至不能通过信道,则接收端接…

高防IP的作用有哪些?

高防IP一般是指哪些能够提供高等级防御服务的IP地址,这些IP地址通常是属于高性能的服务器或者是在互联网基础设施中具有较高的带宽和计算能力会通过将服务器放置在高防IP段中,为用户提供更加高级的DDOS攻击防护。 本文就来探讨一下高防IP的作用都有哪些吧…

TCP 拥塞控制

概念详解 TCP拥塞控制是网络通信中的一个关键机制,它通过动态调整发送数据的速率来避免网络拥塞。以下是TCP拥塞控制的详细概念解释: 拥塞窗口(CWND, Congestion Window): 定义:发送方在收到接收方的确认(…

oracle数据的完整性

一.数据的完整性 向某张表插入数据、更新、删除数据之前会对数据做校验,目 的就是为了确保数据的正确性、一致性、最大限度 减少重复 的数据、避免脏数据,这就是数据完整性。以下的数据就是脏 数据: 如何减少数据冗余、避免脏数据&#xff1…

周记-2024年第36周9.2~9.8:先把最重要的事情干掉

现在是周一早上9点,我开始写上周总结。10:06结束,耗时66分钟。 在坚持了连续9周都是周日晚上写周总结后,昨晚还是中断了,可见坚持确实不易。昨晚打完球回来后就一直在磨叽,这是对自己的承诺的不遵守,既然决…

【Python】selenium实现滚动条滑动效果

封装自动化方法:selenuimtools.py from selenium.common import TimeoutException, InvalidArgumentException, JavascriptException from selenium.webdriver.common.by import By from selenium.webdriver.remote.webelement import WebElement from selenium.we…

深度学习实战:如何利用CNN实现人脸识别考勤系统

1. 何为CNN及其在人脸识别中的应用 卷积神经网络(CNN)是深度学习中的核心技术之一,擅长处理图像数据。CNN通过卷积层提取图像的局部特征,在人脸识别领域尤其适用。CNN的多个层次可以逐步提取面部的特征,最终实现精确的…

SAP学习笔记 - 开发04 - Fiori UI5 开发环境搭建

上一章学习了 CDSView开发环境的搭建,以及CDSView相关的知识。 SAP学习笔记 - 开发03 - CDSView开发环境搭建,Eclipse中连接SAP,CDSView创建-CSDN博客 本章继续学习SAP开发相关的内容, - Fiori UI5的开发环境搭建 - 安装VSCode …

鸿蒙原生应用元服务开发-仓颉基础数据类型布尔类型

布尔类型使用 Bool 表示,用来表示逻辑中的真和假。 布尔类型字面量 布尔类型只有两个字面量:true 和 false。 下面的例子展示了布尔字面量的使用: let a: Bool true let b: Bool false 布尔类型支持的操作 布尔类型支持的操作符包括…

PPPoE配置学习笔记

企业内网和运营商网络如上图所示,中间交换机模拟运营商传输设备。公网IP段:12.1.1.0/24。内网IP段:192.168.1.0/24。PPPoE拨号采用CHAP认证,用户名:admin 密码:admin123 实验要求: 将R1设置为…

SprinBoot+Vue校园数字化图书馆系统的设计与实现

目录 1 项目介绍2 项目截图3 核心代码3.1 Controller3.2 Service3.3 Dao3.4 application.yml3.5 SpringbootApplication3.5 Vue 4 数据库表设计5 文档参考6 计算机毕设选题推荐7 源码获取 1 项目介绍 博主个人介绍:CSDN认证博客专家,CSDN平台Java领域优质…

MyBatis 源码解析:XMLScriptBuilder 工作机制

摘要 MyBatis 提供了强大的动态 SQL 功能&#xff0c;它通过解析 XML 配置文件中的动态 SQL 标签&#xff08;如 <if>、<choose>、<foreach> 等&#xff09;&#xff0c;来实现灵活的 SQL 生成。而 XMLScriptBuilder 类则负责解析这些 XML 配置并生成最终的…

深入探索AI文生语音技术的奥秘:从文本输入到逼真语音输出的全链条语音合成过程解析

深入探索AI文生语音技术的奥秘&#xff1a;从文本输入到逼真语音输出的全链条语音合成过程解析 1. 语音合成任务简介 1.1. 语音与文本 对比语音来说&#xff0c;NLP 技术在深度学习中更为普及。在介绍语音合成任务前&#xff0c;我们先来了解语音这一模态的特点&#xff0c;…

javase小项目--图书管理系统

前面我们已经学习到了javase的基本语法结构-继承&#xff0c;多态&#xff0c;接口&#xff0c;接下来就让我们大家一起来利用这些来手动实现一个小项目——简洁的图书管理系统 目录 1.思路 1.book类 1.book 2.booklist 2.user类 user AdminUser NormalUser 3.ioperat…

stm32之SPI通信协议

文章目录 前言一、SPI通信协议1.1 SPI简介1.2 SPI通信特点1.3 SPI与I2C对比 二、SPI硬件电路三、SPI通信原理四、SPI时序单元4.1 起始和终止条件4.2 交换一个字节(模式1)4.3 交换一个字节(模式0)4.4 交换一个字节(模式2和3) 五、SPI时序5.1 发送指令5.2 指定地址写5.3 指定地址…

SQL语句中in条件超过1000怎么办?

博客主页: 南来_北往 系列专栏&#xff1a;Spring Boot实战 引言 当遇到SQL语句中IN条件超过1000个的情况时&#xff0c;可以采取以下几种策略来有效处理这一问题&#xff1a; 使用临时表&#xff1a;将IN列表中的值存储在临时表中&#xff0c;并将该临时表与查询表进行J…

选择集控中心操作台厂家进行定制的优势有哪些

在当今高度信息化、自动化的时代&#xff0c;集控中心作为各行业指挥调度的核心枢纽&#xff0c;其操作台的设计与性能直接关乎到整个系统的运行效率与安全性。因此&#xff0c;选择一家正规的集控中心操作台厂家进行定制化生产&#xff0c;成为了众多企业和机构的重要决策。那…

【苍穹外卖】Day 7 缓存、购物车相关接口

1 缓存 存在问题&#xff1a; 用户端小程序展示的菜品数据都是通过査询数据库获得&#xff0c;如果用户端访问量比较大&#xff0c;数据库访问压力随之增大 >解决&#xff1a; 通过 Redis 来缓存菜品数据&#xff0c;减少数据库查询操作 缓存逻辑分析&#xff1a; 每个分…

如何使用“Python 实现斐波那契数列的方法“?

def fibonacci(n):if n < 1:return nelse:return fibonacci(n - 1) fibonacci(n - 2)num_terms 10 for i in range(num_terms):print(fibonacci(i), end" ") 在这个程序中&#xff0c;定义了一个函数fibonacci&#xff0c;它接受一个参数n。如果n小于等于 1&am…

【Python机器学习】词向量推理——词向量

目录 面向向量的推理 使用词向量的更多原因 如何计算Word2vec表示 skip-gram方法 什么是softmax 神经网络如何学习向量表示 用线性代数检索词向量 连续词袋方法 skip-gram和CBOW&#xff1a;什么时候用哪种方法 word2vec计算技巧 高频2-gram 高频词条降采样 负采样…