大数据5v特性、集群、分布式

devtools/2024/10/21 6:41:59/

目录

数据分析六部曲

大数据的特点 (5v特征)

分布式与集群的区别

常用的分布式方案


数据分析六部曲

  1. 明确分析目的和思路:确保分析框架的体系化和逻辑性,简单来说就是先分析什么,后分析什么,使得各个分析点之间具有逻辑联系。

  2. 数据收集:一般数据来源有数据库、公开出版物、互联网、市场调查等。

  3. 数据处理:主要包括数据清洗、数据转化、数据提取、数据计算等处理方法。是数据分析基础

  4. 数据分析:用适当的分析方法及工具,对处理过的数据进行分析,提取有价值的信息,形成有效结论的过程。其中数据挖掘是一种高级的数据分析方法。

  5. 数据展示:通过表格和图形的方式展示。

  6. 报告撰写:对整个数据分析过程的一个总结与呈现。要有一定的建议或解决方案。

大数据的特点 (5v特征)

  • Volume:数据量大,包括采集、存储和计算的量都非常大;

  • Variety:种类和来源多样化。包括结构化、半结构化和非结构化数据;

  • Value:数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵;

  • Velocity:数据增长速度快,处理速度也快,时效性要求高;

  • Veracity:数据的准确性和可信赖度,即数据的质量。

分布式与集群的区别

  • 分布式:多台服务器干不同的模块任务,组成一个统一的整体功能;

  • 集群:一台服务器处理请求个数有限,提供服务能力有限,准备多台服务器干同样的的任务。

  • 集群和分布式,都是描述的一组计算机。集群的所有节点跑的是同样的任务,集群本质是多台服务器联合起来独立做相同的任务(多个服务器分担客户端发来的请求) 。而分布式系统的节点跑的是分解后的任务,分布式本质是多台服务器协同配合完成同一个大任务(每个服务器都只完成大任务拆分出来的单独1个子任务)

  • 以修手机为例:维修手机要分为检测、维修、测试三个环节,当多部手机都需要维修的时候,为了提高效率,雇了10位工程师。如果每个工程师维修时,对每台手机进行检测、维修和测试,这就是集群的工作方式。如果2位工程师负责检测,5位工程师负责维修,剩下的3位工程师负责测试,这就是分布式的工作方

常用的分布式方案

  • 分布式应用和服务:将应用和服务进行分层和分割,然后将应用和服务模块进行分布式部署。这样做不仅可以提高并发访问能力、减少数据库连接和资源消耗,还能使不同应用复用共同的服务,使业务易于扩展。比如:分布式服务框架 Dubbo。

  • 分布式数据存储:常常需要处理海量数据,单台计算机往往无法提供足够的内存空间,可以对这些数据进行分布式存储。比如 Apache Hadoop HDFS

  • 分布式计算:分布式计算将该应用分解成许多小的部分,分配给多台计算机进行处理。这样可以节约整体计算时间,大大提高计算效率。比如 Apache Hadoop MapReduce。


http://www.ppmy.cn/devtools/103946.html

相关文章

Java项目中的分库分表实践指南

摘要 随着互联网应用的快速发展,单一数据库实例越来越难以满足高并发和大数据量的需求。分库分表是一种有效的解决方案,它通过将数据分散存储到不同的数据库或表中来提高系统的扩展性和性能。本文将详细介绍Java项目中实现分库分表的策略、步骤和最佳实…

鸿蒙(API 12 Beta3版)【使用智能PhotoPicker】Media Library Kit媒体文件管理服务

智能PhotoPicker是基于PhotoPicker的高阶功能,可以从大量图片中根据配置的智能推荐参数,快速筛选出符合条件的图片,并在PhotoPicker中推荐给用户选择。 应用拉起PhotoPicker时,可以配置智能推荐参数。当设备中有满足应用传入的智…

经验风险最小化和极大似然估计的关系

一、经验风险定义 给定一个训练数据集 T { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x N , y N ) } T\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\} T{(x1​,y1​),(x2​,y2​),...,(xN​,yN​)},模型f(X)关于训练数据集的平均损失称为经验风险(Empirical…

spring security 会话管理

一、简介 当浏览器调用登录接口登录成功后,服务端会和浏览器之间建立一个会话(Session)浏览器在每次发送请求时都会携带一个 Sessionld,服务端则根据这个 Sessionld 来判断用户身份当浏览器关闭后,服务端的 Session 并不会自动销毁&#xff0…

vue ref和reactive区别

Vue 3中的ref和reactive都是用于创建响应式数据的API,但它们在数据类型、使用方式、访问方式、设计理念以及应用场景等方面存在明显的区别。 数据类型:ref主要用于定义简单类型(如字符串、数字、布尔值等)和单一对象,…

51单片机——数码管控制

1、数码管介绍 LED数码管:数码管是一种简单、廉价的显示器,是由多个发光二极管封装在一起组成“8”字型的器件。 2、数码管驱动方式 单片机直接扫描:硬件设备简单,但会耗费大量的单片机CPU时间 专用驱动芯片:内部自…

《python语言程序设计》第8章第11题将反向字符串 编写一个函数反向一个字符串,reverse(s)

def reverse(text_arrange):len_text len(text_arrange)dec_text ""for i in range(1, len_text 1):# print(i)dec_text text_arrange[-i]print(f"反向输出{dec_text}")reverse("12345678") reverse("abcdefg")

【ElasticSearch】logstash-conf文件mysql多数据源配置

logstash-conf文件mysql多数据源导入es配置说明 # input plugin 输入插件,接收事件源 input {jdbc {# 定义类型_1 type > "type_1"# mysql的ip、端口以及用到的数据库名jdbc_connection_string > "jdbc:mysql://localhost:3306/数据库名"…