概述
信息是数据的有序排列而成,数据是构成信息的基本单位
数据的类型:文本 图片 音频 视频
数据组织形式:文件 数据库
常见数据库(层次数据库,网状数据库,关系数据库【主流】、NoSQL数据库【非结构化数据】)
数据生命周期分类:分类-存储-管理
数据管理:数据清洗-数据管理-数据分析
数据的价值:在重组中产生更大的价值
信息化浪潮:PC机(信息处理) 互联网(信息传输) 物联网和云计算(信息爆炸)
技术支撑:存储设备容量不断增加、CPU处理能力增高,网络带宽不断增加
数据产生方式变革:运营管理阶段-原创内容管理-感知式系统阶段
大数据特性:大量化 快速化 多样化 价值密度低
相关技术
云计算:通过网络,以服务的方式,为千家万户提供非常廉价的IT资源
特点:超大规模计算、虚拟化、高可靠性和安全性、通用性、按需服务
服务模式:SaaS(软件即服务) PssS(平台即服务) IaaS(基础设施即服务)
类型:公有云、私有云、混合云
物联网:把传感器设备安装到各个物体中
层次:应用层、处理层、网络层、感知层
人工智能关键技术:机器学习 知识图谱 自然语言处理 人机交互技术 计算机视觉 生物特征识别技术 VR和AR技术
大数据技术:数据采集与预处理 数据存储和管理 数据处理与分析 数据可视化 数据安全和隐私保护
NewSQL是对各种新的数据库的简称,例如Spanner,保持ACID和SQL特性;都支持关系数据模型,都以SQL为主要接口
NoSQL是菲关系数据库的统称,没有严格遵守ACID约束
计算模式:批处理计算(MapReduce,Spark) 流计算(实时,Streams) 图计算 查询分析计算(存储管理和查询分析,Hive)
数据可视化作用:观测跟踪数据(百度实时路况) 分析数据 辅助理解数据(微软人立方) 增强数据吸引力
数据可视化案例:互联网地图,编程语言影响力 世界国家健康和财富之间的关系
数据安全:身份认证技术 防火墙技术 访问控制技术 入侵检测技术 加密技术
大数据应用举例
推荐系统:协同过滤推荐 专家推荐 基于内容的推荐 基于统计的推荐 混合推荐
长尾理论:长尾商品准确推荐给用户,非热门,个性化
智慧医疗在线系统:以患者为中心,智能穿戴设备
智能物流:阿里巴巴的中国智能物流骨干网(菜鸟网络,地网) 天网(天猫与物流快递公司进行数据对接)
城市管理:智能交通(公共车辆管理系统,掌上公交) 环保监测(谷歌森林监视 污染地图) 城市规划(公交IC卡数据,移动通话数据 社交网络数据 地理数据 搜房网) 安防领域(平安城建)
金融领域:消费者行为预判 市场情绪分析 信贷风险分析(阿里小贷) 征信系统
零售领域:关联购买行为 客户群体细分 供应链管理
体育和娱乐:训练球队 影视剧的作品投拍(Netflix)比赛结果预测(百度预测)
其他:谷歌无人驾驶汽车 餐饮O2O(无缝线上线下闭环运营) 团购模式(百度糯米个性化) 线下门店选址问题(棒约翰)人流量控制 离网预测(中国移动经营分析系统) 流行病预测(谷歌)实时犯罪预警
大数据安全与伦理
威胁:成为显著攻击目标 加大隐私泄露风险 大数据被应用到攻击手段中 大数据成为高级可持续攻击的载体
意义:自媒体成为影响国家意识形态安全的重要因素、个人国家安全受到挑战
案例:棱镜事件,维基解密,Facebook数据滥用事件,手机软件过度采集个人信息,12306囤票案件,免费Wifi窃取用户信息,探针盒子
数据保护的基本原则:数据主权原则,自由流通原则,数据保护原则(法律地位) 数据安全原则(完整,安全使用,合法授权)
对策:国家法制 企业源头 个人意识
大数据思维方式:全样而非抽样(商品比价网)、效率而非精确(谷歌翻译)、相关而非因果(药品研发)、以数据为中心(点击模型),我为人人-人人为我(实时导航)
伦理案例:信息欺诈问题 隐性偏差问题 数字鸿沟问题 数据独裁问题 数据垄断问题 数据失真问题 人的主体地位问题
常见大数据治理模型:ISACA模型(国际信息系统审计和控制协会) HESA数据治理模型 数据治理螺旋模型
数据开放与数据交易
政府开放数据理论:数据资产理论 数据权理论 开放政府理论
开放数据三个时期:被动开放 主动开放 数据价值挖掘
政府开放数据集:德国(Alumniportal) 日本(Data.go.jp)中国(北京,上海公开数据开放平台,云上贵州,厦门健康信息系统)
问题:政策与立法滞后 数据利用价值低(无法实时更新,不全面) 平台不健全缺乏人才支撑 基础数据库缺乏整体协同
数据交易形式:大数据交易公司 数据交易所 API模式 其他
交易平台类型:综合数据服务平台 第三方数据交易平台
数据来源:政府公开数据 企业内部数据 数据供应方数据 网页爬虫数据
产品类型:API 数据包 云服务 解决方案 数据定制服务 数据产品
代表交易平台:贵阳大数据交易所 上海数据交易中心 华东江苏大数据交易中心
数据估值:数据样本量 数据多样性 数据完整性 数据实时性 数据深度 数据样本覆盖度 数据稀缺性 数据时间维度
NoSQL=Not only SQL
特点:灵活的可扩展性 灵活的数据模型 和云计算的紧密结合
缺点:不支持事务的强一致性 缺乏底层理论做支持
类型:键值数据库(redis) 列族数据库(HBase) 文档数据库(MongoDB) 图数据库(Neo4j)
键值数据库:频繁读写,数据模型简单,通过键来查找数据,无关联关系;构建缓冲层
列族数据库:分布式管理,动态增减字段,不支持强事务一致性;
文档数据库:较好的并发性,不支持事务机制;
图数据库:高度相互关联的数据;
三大理论基石:CAP理论(一致性,可用性,分区容忍性) BASE(基本可用,软状态,最终一致性) 事务一致性
NewSQL保证强一致性,事务一致性,水平可扩展性,支持海量存储【Amazon RDS;SQL Azure】
云数据库
AWS(Amazon Web Service):SimpleDB,DynamoDB,RDS
SQL Azure:SQL Server实例,全局分区管理器,协议网关组件,分布式基础组件
阿里云RDS:RDS实例是用户购买RDS服务的基本单位;地域(近);磁盘容量和RDS连接数;
MapReduce分布式并行编程框架
核心:map函数和reduce函数,map输入<k,v>,输出list<k,v>,reduce输入<key,list-value>,输出<key,value>
理念:计算向数据靠拢而不是数据向计算靠拢(数据无需迁移,计算可以直接在该数据节点上完成计算操作)
架构:Master/Slave架构,一个Master服务器(包含JobTracker,负责整个作业的调度),若干个slave服务器(包含TaskTracker,负责完成具体的任务处理)。
工作流程:数据分片(InputFormat组件)-Map任务(然后Shuffle)-Reduce任务-输出(Outputformat)
map任务的数量取决于分片的数量 reduce任务取决于机器的数量
Shuffle过程:Map端【输入数据和执行Map任务,写入缓存,溢写(溢写比),文件归并】;Reduce端【领取数据,归并数据,reduce任务】
要求:独立无依赖关系
过程:编译成可执行class文件;打包为jar包,在Hadoop中运行jar包;
Hadoop执行MapReduce的几种方式:hadoop jar;pig;Hive数据仓库;Python;Shell;
Hive
数据仓库:支持企业内部商业决策(数据源 数据存储和管理 分析与挖掘引擎 上层应用)
特性:采用批处理方式处理数据 Hive提供了一系列对数据进行提取,转换,加载的工具。
模块:Hive对外访问接口(HWI CLI JDBC和ODBC Thrift Server) 驱动模块(将SQL转换为MapReduce任务) 元数据存储模块(独立的关系型数据库)
HIve HA基本原理:访问HA Proxy;执行逻辑可用性测试;每隔一定周期会统一进行处理
Impala建立在Hive元数据之上,实时交互查询
Impala组件:impalad(协调客户端提交的查询的执行);Statestored(收集Impalad信息);CLI(提供命令行的查询和接口)
Stream
Stream描述成一个无限的Tuple序列。
Spout从外部数据源读取数据,封装成Tuple形式
Storm将Streams的状态转换过程抽象为Bolt,处理Tuple,创建新的Streams
Topology相当于MapReduce中的job
Stream Groupings指定按某种方式将Task发布给下一个Bolt(shufflegrouping,fieldsgrouping allgrouping Nongrouping DirectGrouping Globalgrouping)