大数据基础-大数据导论

news/2024/11/29 4:31:58/

概述
信息是数据的有序排列而成,数据是构成信息的基本单位
数据的类型:文本 图片 音频 视频
数据组织形式:文件 数据库
常见数据库(层次数据库,网状数据库,关系数据库【主流】、NoSQL数据库【非结构化数据】)
数据生命周期分类:分类-存储-管理
数据管理:数据清洗-数据管理-数据分析
数据的价值:在重组中产生更大的价值
信息化浪潮:PC机(信息处理) 互联网(信息传输) 物联网和云计算(信息爆炸)
技术支撑:存储设备容量不断增加、CPU处理能力增高,网络带宽不断增加
数据产生方式变革:运营管理阶段-原创内容管理-感知式系统阶段
大数据特性:大量化 快速化 多样化 价值密度低

相关技术
云计算:通过网络,以服务的方式,为千家万户提供非常廉价的IT资源
特点:超大规模计算、虚拟化、高可靠性和安全性、通用性、按需服务
服务模式:SaaS(软件即服务) PssS(平台即服务) IaaS(基础设施即服务)
类型:公有云、私有云、混合云
物联网:把传感器设备安装到各个物体中
层次:应用层、处理层、网络层、感知层
人工智能关键技术:机器学习 知识图谱 自然语言处理 人机交互技术 计算机视觉 生物特征识别技术 VR和AR技术 
大数据技术:数据采集与预处理 数据存储和管理 数据处理与分析 数据可视化 数据安全和隐私保护
NewSQL是对各种新的数据库的简称,例如Spanner,保持ACID和SQL特性;都支持关系数据模型,都以SQL为主要接口
NoSQL是菲关系数据库的统称,没有严格遵守ACID约束
计算模式:批处理计算(MapReduce,Spark) 流计算(实时,Streams) 图计算 查询分析计算(存储管理和查询分析,Hive)
数据可视化作用:观测跟踪数据(百度实时路况) 分析数据 辅助理解数据(微软人立方) 增强数据吸引力 
数据可视化案例:互联网地图,编程语言影响力 世界国家健康和财富之间的关系 
数据安全:身份认证技术 防火墙技术 访问控制技术 入侵检测技术 加密技术

大数据应用举例
推荐系统:协同过滤推荐 专家推荐 基于内容的推荐 基于统计的推荐 混合推荐 
长尾理论:长尾商品准确推荐给用户,非热门,个性化
智慧医疗在线系统:以患者为中心,智能穿戴设备
智能物流:阿里巴巴的中国智能物流骨干网(菜鸟网络,地网) 天网(天猫与物流快递公司进行数据对接)
城市管理:智能交通(公共车辆管理系统,掌上公交) 环保监测(谷歌森林监视 污染地图) 城市规划(公交IC卡数据,移动通话数据 社交网络数据 地理数据 搜房网) 安防领域(平安城建)
金融领域:消费者行为预判 市场情绪分析 信贷风险分析(阿里小贷) 征信系统
零售领域:关联购买行为 客户群体细分 供应链管理
体育和娱乐:训练球队 影视剧的作品投拍(Netflix)比赛结果预测(百度预测)
其他:谷歌无人驾驶汽车 餐饮O2O(无缝线上线下闭环运营) 团购模式(百度糯米个性化) 线下门店选址问题(棒约翰)人流量控制 离网预测(中国移动经营分析系统) 流行病预测(谷歌)实时犯罪预警

大数据安全与伦理
威胁:成为显著攻击目标 加大隐私泄露风险 大数据被应用到攻击手段中 大数据成为高级可持续攻击的载体
意义:自媒体成为影响国家意识形态安全的重要因素、个人国家安全受到挑战
案例:棱镜事件,维基解密,Facebook数据滥用事件,手机软件过度采集个人信息,12306囤票案件,免费Wifi窃取用户信息,探针盒子
数据保护的基本原则:数据主权原则,自由流通原则,数据保护原则(法律地位) 数据安全原则(完整,安全使用,合法授权)
对策:国家法制 企业源头 个人意识
大数据思维方式:全样而非抽样(商品比价网)、效率而非精确(谷歌翻译)、相关而非因果(药品研发)、以数据为中心(点击模型),我为人人-人人为我(实时导航) 
伦理案例:信息欺诈问题 隐性偏差问题 数字鸿沟问题 数据独裁问题 数据垄断问题 数据失真问题 人的主体地位问题
常见大数据治理模型:ISACA模型(国际信息系统审计和控制协会)  HESA数据治理模型 数据治理螺旋模型 

数据开放与数据交易
政府开放数据理论:数据资产理论 数据权理论 开放政府理论
开放数据三个时期:被动开放 主动开放 数据价值挖掘
政府开放数据集:德国(Alumniportal) 日本(Data.go.jp)中国(北京,上海公开数据开放平台,云上贵州,厦门健康信息系统) 
问题:政策与立法滞后 数据利用价值低(无法实时更新,不全面) 平台不健全缺乏人才支撑 基础数据库缺乏整体协同 
数据交易形式:大数据交易公司 数据交易所 API模式 其他
交易平台类型:综合数据服务平台 第三方数据交易平台
数据来源:政府公开数据 企业内部数据 数据供应方数据 网页爬虫数据
产品类型:API 数据包 云服务 解决方案 数据定制服务 数据产品
代表交易平台:贵阳大数据交易所 上海数据交易中心 华东江苏大数据交易中心 
数据估值:数据样本量 数据多样性 数据完整性 数据实时性 数据深度 数据样本覆盖度 数据稀缺性 数据时间维度

NoSQL=Not only SQL
特点:灵活的可扩展性 灵活的数据模型 和云计算的紧密结合
缺点:不支持事务的强一致性 缺乏底层理论做支持
类型:键值数据库(redis) 列族数据库(HBase) 文档数据库(MongoDB) 图数据库(Neo4j)
键值数据库:频繁读写,数据模型简单,通过键来查找数据,无关联关系;构建缓冲层
列族数据库:分布式管理,动态增减字段,不支持强事务一致性;
文档数据库:较好的并发性,不支持事务机制;
图数据库:高度相互关联的数据;
三大理论基石:CAP理论(一致性,可用性,分区容忍性) BASE(基本可用,软状态,最终一致性) 事务一致性
NewSQL保证强一致性,事务一致性,水平可扩展性,支持海量存储【Amazon RDS;SQL Azure】
云数据库
AWS(Amazon Web Service):SimpleDB,DynamoDB,RDS
SQL Azure:SQL Server实例,全局分区管理器,协议网关组件,分布式基础组件
阿里云RDS:RDS实例是用户购买RDS服务的基本单位;地域(近);磁盘容量和RDS连接数;

MapReduce分布式并行编程框架
核心:map函数和reduce函数,map输入<k,v>,输出list<k,v>,reduce输入<key,list-value>,输出<key,value>
理念:计算向数据靠拢而不是数据向计算靠拢(数据无需迁移,计算可以直接在该数据节点上完成计算操作)
架构:Master/Slave架构,一个Master服务器(包含JobTracker,负责整个作业的调度),若干个slave服务器(包含TaskTracker,负责完成具体的任务处理)。
工作流程:数据分片(InputFormat组件)-Map任务(然后Shuffle)-Reduce任务-输出(Outputformat)
map任务的数量取决于分片的数量 reduce任务取决于机器的数量
Shuffle过程:Map端【输入数据和执行Map任务,写入缓存,溢写(溢写比),文件归并】;Reduce端【领取数据,归并数据,reduce任务】
要求:独立无依赖关系
过程:编译成可执行class文件;打包为jar包,在Hadoop中运行jar包;
Hadoop执行MapReduce的几种方式:hadoop jar;pig;Hive数据仓库;Python;Shell;

Hive
数据仓库:支持企业内部商业决策(数据源 数据存储和管理 分析与挖掘引擎 上层应用)
特性:采用批处理方式处理数据 Hive提供了一系列对数据进行提取,转换,加载的工具。
模块:Hive对外访问接口(HWI CLI JDBC和ODBC Thrift Server) 驱动模块(将SQL转换为MapReduce任务) 元数据存储模块(独立的关系型数据库)
HIve HA基本原理:访问HA Proxy;执行逻辑可用性测试;每隔一定周期会统一进行处理
Impala建立在Hive元数据之上,实时交互查询
Impala组件:impalad(协调客户端提交的查询的执行);Statestored(收集Impalad信息);CLI(提供命令行的查询和接口)

Stream

Stream描述成一个无限的Tuple序列。
Spout从外部数据源读取数据,封装成Tuple形式
Storm将Streams的状态转换过程抽象为Bolt,处理Tuple,创建新的Streams
Topology相当于MapReduce中的job
Stream Groupings指定按某种方式将Task发布给下一个Bolt(shufflegrouping,fieldsgrouping allgrouping Nongrouping DirectGrouping Globalgrouping)
 

 


 

 

 

 


http://www.ppmy.cn/news/296297.html

相关文章

【大数据导论】

第一章 (单选题)【单选题】以下哪个不是大数据的“4V”特性:( ) • A. 数据量大 • B. 数据类型繁多 • C. 处理速度快 • D. 价值密度高 我的答案: D正确答案: D(单选题)【单选题】英国的大数据发展战略是:( ) • A. 稳步实施“三步走”战略,打造面向未来的大数据创新生态 • …

何为大数据?

多大的数据量才算是大数据&#xff1f;这是从存储角度来界定的&#xff0c;1TB或者是1PB还是更多&#xff1f;大数据库有哪些基本特征&#xff1f;大数据永远是大数据吗&#xff1f;10几年前我们觉得1GB的数据很大&#xff0c;20多年前&#xff0c;100MB也很大&#xff0c;30多…

大数据十大“关键词”

2021年&#xff0c;互联网大数据行业经历了一场耐力大考验。 这一年&#xff0c;政策监管席卷了诸多行业&#xff0c;互联网行业身处风暴眼。从反垄断超200亿元巨额罚款&#xff0c;到平台之间“拆墙”势在必行&#xff0c;数据合规已经上升至国家安全的战略高度&#xff0c;一…

大数据的理解

大数据讲解 1、大数据概念2、大数据特点2.1 Volume&#xff08;大量&#xff09;2.2 Variety&#xff08;多样&#xff09;2.3 Velocity&#xff08;高速&#xff09;2.4 Value&#xff08;价值&#xff09; 3 大数据技术发展史4 大数据应用场景4.1医疗大数据看病更高效4.2生物…

大数据技术概论

大数据技术概论 大数据技术的产生 大数据的基本概念 ●大数据简介: 大数据是规模非常巨大和复杂的数据集,传统数据库管理工具处理起来面临很多问题,比如说获取、存储、检索、共享、分析和可视化,数据量达到PB、EB或ZB的级别。 大数据有三个V&#xff1a; 一是数据量(Volume),数…

大数据与云计算应用

第一章 云计算概述 什么是云计算 就像生活中的水、电、煤等利用着的IT资源都无时无刻的按人们自己的需求使用 而水、电、煤&#xff0c;这些呢是属于资源性产品 IT资源就是计算存储网络资源 云计算的定义 按需使用IT资源和应用程序&#xff0c;通过互联网…

上海大数据研究中心专委会成立

日前&#xff0c;上海互联网大数据工程技术研究中心专家委员会在上海理想信息产业&#xff08;集团&#xff09;有限公司成立&#xff0c;该中心将依托企业、科研院所和高校等科技创新科研实体&#xff0c;完成工程化研发、突破行业关键技术、加快科技成果转移和扩散等促进行业…

上海大数据技术汇

活动背景 信息创造价值&#xff01;以数据为本的新一代信息处理技术&#xff0c;让数据获取、处理和呈现方式与手段更加丰富多元&#xff0c;更多维度凸显数据价值&#xff0c;深刻改变着我们的生活和工作方式。 由示说网发起的上海“大数据技术汇”线下交流活动&#xff0c;致…