大数据与云计算课后习题

参考：
https://blog.csdn.net/weixin_44986776/article/details/114855025
https://www.pianshen.com/article/33741007662/
以及古老师ppt
第一章
请举例说明结构化数据、半结构化数据、非结构化数据的区别。

结构化数据指的是数据在一个记录文件里面以固定格式存在的数据。结构化数据可以通过固有键值获取相应信息，且数据的格式固定，如RDBMS（关系型数据库）
data；半结构化数据的格式不固定，如json，同一键值下存储的信息可能是数值型的，可能是文本型的，也可能是字典或者列表；
非结构化数据是指信息没有一个预先定义好的数据模型或者没有以一个预先定义的方式来组织。包括所有格式的办公文档、文本、图片、图像和音频/视频信息等等。

在这里插入图片描述

请在生活中举出一个基于“数字映像”探索或研究现实世界的实体或现象的例子，思考如何才能获得更准确的数字映像？

数字映像，专业术语叫数字孪生（Digital
Twin），数字孪生是指充分利用物理模型、传感器、运行历史等数据，集成多学科、多尺度的仿真过程，它作为虚拟空间中对实体产品的镜像，**反映了相对应物理实体产品的全生命周期过程。**Digital
twin最为重要的启发意义在于，它实现了现实物理系统向赛博空间数字化模型的反馈。应用举例：美国国防部最早提出利用Digital
Twin技术，用于航空航天飞行器的健康维护与保障。首先在数字空间建立真实飞机的模型，并通过传感器实现与飞机真实状态完全同步，这样每次飞行后，根据结构现有情况和过往载荷，及时分析评估是否需要维修，能否承受下次的任务载荷等。

什么是大数据的4V或5V特征，这一特征对大数据计算过程带来什么样的挑战？

大数据的数量（Volume）、多样性（Variety）、速度（Volocity）和变化频繁（Velocity）等方面，后来也将数据价值（Value）吸收进来，成为大数据的“5V特性”。

请分析相对于传统统计学而言，大数据在思维方式上的主要变化。

大数据和统计的区别主要有两个方面：其一是数据分析时不再进行抽样，而是采用population（n=all）；其二是分析方法，侧重所有变量之间的相关性，而不再根据背景学科理论筛选变量，进行假设检验。
##传统的统计学适应不了大数据的数量庞大、变化快速、等特点。需要新的大数据统计方法。

结合一个具体例子，说明数据分析的一般过程。

1）提出问题 2）理解数据 3）数据清洗（占绝大部分时间，直接影响后面结果） 4）建立模型 5）数据可视化

如何理解数据科学？

数据科学是利用科学方法、流程、算法和系统从数据中提取价值的跨学科领域。数据科学家综合利用一系列技能（包括统计学、计算机科学和业务知识）来分析从网络、智能手机、客户、传感器和其他来源收集的数据。

第二章
2.1 大数据的来源主要有几种？
在这里插入图片描述
2.2 大数据的集成的基本原理有哪些？

传统数据集成和跨界数据集成。模式匹配是标识两个数据对象是语义相关的过程数据映射是数据在两个不同的数据模型之间进行转换的过程
语义翻译是使用语义信息来帮助将一个数据模型中的数据转换为另一个表示或数据模型的过程

2.3 能否举例说明基于特征级别与基于语义的跨界数据集成方法的不同？

2.4 数据质量有几种维度？分别是什么？

1）完整性 Completeness：完整性用于度量哪些数据丢失了或者哪些数据不可用。 2）规范性
Conformity：规范性用于度量哪些数据未按统一格式存储。 3）一致性
Consistency：一致性用于度量哪些数据的值在信息含义上是冲突的。 4）准确性
Accuracy：准确性用于度量哪些数据和信息是不正确的，或者数据是超期的。 5）唯一性
Uniqueness：唯一性用于度量哪些数据是重复数据或者数据的哪些属性是重复的。 6）关联性
Integration：关联性用于度量哪些关联的数据缺失或者未建立索引。

2.5 你能提出一个金融行业领域中的数据获取的应用案例吗？

银行的征信制度。
个人信用是指根据居民的家庭收入与资产、已发生的借贷与偿还、信用透支、发生不良信用时所受处罚与诉讼情况，对个人的信用等级进行评估并随时记录、存档，以便信用的供给方决定是否对其贷款和贷款多少的制度。

2.6 想实现对一个城市空气污染的检测和预测，请思考下述问题
(1) 需要哪些数据？

空气质量检测数据，包括地理位置，空气中有害气体含量

(2)这些数据来源于何处？

空气质量监测站和遥感卫星

(3)这些数据应当以何种方式采集？
传感器
(4)这些数据应当经过何种预处理？

数据变换，数据平滑，不一致检测与修复和缺失值填充

(5)如何集成这些数据以支持空气污染检测和预测的任务

利用基于阶段的方法和基于特征的方法进行跨界数据集成

2.7 请分析数据预处理应当在数据集成之前还是之后进行，为什么？

之前。不同来源、格式、性质的数据只有在经过预处理之后，才能在逻辑上或物理上有机地集中。

2.8 请分别举出在教育领域需要传统信息集成和跨界信息集成的实例。

2.9 请分析在交通大数据(如GPS采集的数据、打车软件中记录的数据)中可能遇到数据质量问题以及这些数据质量问题的检测方法和修复方法。

交通大数据中有关道路拥堵情况的采集主要依靠GPS和志愿者人工反馈，网络延迟将导致这些拥堵数据出现质量下降、可信度低的问题。

2.10 假设需要从大众点评、美团、百度外卖3个数据源收集北京市餐馆的信息，请简述可能会用到的数据集成步骤。针对上述场景，列举数据中可能存在的数据质量问题

1.与软件厂商合作作为企业，让厂商正确理解你的业务需求对自己有益无害。因为只有这样，厂商高管才能准确识别并集成所有你需要的数据点。
2.定义划分集成优先级列出所有所需的数据集成任务，安排好部署计划。你的目标应该是在部署或正式投入使用阶段之前完成所有的数据集成活动，并界定增长数据的更新频率。除此之外，还要本着成本时间的节约，根据数据集成解决方案对其效益进行估测。
3.选择合适的集成界面数据集成解决方案提供了两种数据界面：单向和双向。你需要知道应该应用哪种。单向界面中，数据仅从A点传送到B点，没有返回或来回的运动。在我们的B2B平台上，供应商能够追踪到商店的货运信息。库存、付款以及销售信息都被发送到B2B平台上，但没有任何数据返回到这些数据源。
双向界面中，数据从一个应用传送到另一个应用，然后返回。在我们的平台上，如果部署了一个新的应用（如销售点，POS），产品数据就会从商品管理系统发送到POS上，然后销售数据又会从POS发回来。
4.选择一款正确的接口媒体，最简单的不一定最好选择接口媒体一定要考虑未来需求和升级问题。数据集成有很多种方法–XML、逗号限定、电子表格、直接数据库连接等等；然而，最简单的方法不一定最适合你的企业，应该从多方面进行考虑，如可扩展性需求、数据容量和预算开销等。多年来，基于文本的集成一直很盛行，但是目前有很多企业都开始使用XML和直接数据库连接。
5.监控流程，设置多个检测点对集成数据进行微调。对我们的B2B平台来说，数据集成在每天结束的时候都会进行，而只有增长的数据会被传送到服务器上。Hypercity的检测点从源系统开始，分布于各个级别。一些涉及销售数量和零售价格的问题在这些检测点中提出。B2B平台的提取上载阶段构成了第二个检测点，问题的答案会在这里出现。自动化系统会检测输入数据的准确性。为了避免错误的出现，相关用户会收到提示邮件，以确认全天的数据是不是正确上载、是不是需要纠错措施。
6.保证数据的安全性根据风险级别设置安全政策。如果你只是在内网中转换数据，也许不需要加密；但如果你需要将数据对外传送，可能就要加以防范了。

第三章
3.1 数据管理技术的发展历程是怎样的？

关系数据库，上世纪70年代，IBM 公司
新型数据管理与查询系统，2010年前后，美国谷歌公司

3.2 关系数据库的特点是什么？

关系数据库建立在关系数据模型之上，是主要用来存储结构化数据并支持数据的插入、查询、更新、删除等操作的数据库
关系数据库的主要特点：1、数据集中控制；2、数据独立性高；3、数据共享性好；4、数据冗余度小；5、数据结构化；6、统一的数据保护功能。

3.3 NoSQL数据库的特点是什么？

nosql数据库的特点是：1、容易扩展；2、大数据量、高性能；3、灵活的数据模型；4、高可用。nosql数据库种类繁多，但是它们都有一个共同的特点，就是它们都去掉了关系数据库的关系型特性。

3.4 Sql-on-Hadoop技术与数据库技术的差异在哪？

关系数据库建立在关系数据模型之上，是主要用来存储结构化数据并支持数据的插入、查询、更新、删除等操作的数据库。
Hadoop技术为面向大数据分析和处理的并行计算模型.

3.5 请列举典型的分布式文件系统，并简要描述。

Hadoop实现了一个分布式文件系统（ Distributed File System），其中一个组件是HDFS（Hadoop
Distributed File
System）。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high
throughput）来访问应用程序的数据，适合那些有着超大数据集（large data
set）的应用程序。HDFS放宽了（relax）POSIX的要求，可以以流的形式访问（streaming
access）文件系统中的数据。Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，而MapReduce则为海量的数据提供了计算

3.6 请针对学生课程成绩查询的场景，设计主要的关系数据表结构，并描述对应的SQL语句。
在这里插入图片描述

第五章
5.1 描述数据可视化和可视分析的主要模型。

散点图矩阵、平行坐标、降维投影图、雷达图（RadViz）、树形结构、直接可视化、聚集可视化、大规模文本数据整体可视分析

5.2 请列举高维数据可视化的主要方法，并比较它们的优缺点和使用数据大小范围。

散点图矩阵优点：

直观易懂
保留各个维度数值信息
通过交互链接体现维度之间关系缺点
可扩展性差，不能支持太多维度

平行坐标
视觉混淆：
-以折线来代表数据项需要更多像素
-可通过设置透明度等方法解决维度顺序：
-难以比较不相邻维度间的数据关系

降维投影图
线性投影
-保留原有数据维度，结果直观
-缺乏刻画复杂结构的能力非线性投影
-更好地捕捉非线性数据结构

雷达图（RadViz）

5.3 讨论层次结构数据可视化中显式和隐式方法的区别。

显式映射（节点-链接）视觉映射：元素映射到节点；父子关系映射到节点之间的连线核心：节点布局算法优点：
直观清晰地表达层次数据的拓扑结构
可视化形式符合用户对于层次结构数据的认知缺点：空间利用率较低隐式映射视觉映射：父子关系映射到节点之间的包含关系研究内容：尽可能保持叶节点的长宽比当数据发生变化，尽可能保持树图稳定优点：空间利用率高缺点：视觉映射不够直观难以区分不同关系的节点

5.4 讨论在北京、上海这样的大城市，每天产生大量的数据，可以怎样利用以及发展相应的可视化方法，支持对于城市大数据的分析和探索。

散点图矩阵
平行坐标
降维投影图
雷达图（RadViz）

第六章
公共数据与信息安全，我们需要做什么？

1、从日常工作生活中的细节入手，如在上网时多注意信息安全保护，除了涉密计算机不能接入互联网外，也要注意个人家庭计算机和邮箱的安全；在单位工作时，应做好保密工作。

2、在对外交往中，不随便透露未公开的数据资料；尤其是与境外人员打交道的市民，更得注意妥善保管秘密文件、资料和记有秘密事项的记录本等。

3、新国家安全法也有规定，公民一方面不能以一己私利危害国家安全，另一方面要为国家安全工作提供必要的配合，因支持、协助国家安全工作，个体利益受到威胁时可以向国家寻求保护。

第七章
大数据处理平台包括哪些部分，有哪些功能？

典型的包括Hadoop系列、Spark、Storm、Flink以及Flume/Kafka等集群。大数据平台的功能：
1、容纳海量数据
利用计算机群集的存储和计算能力。不仅在性能上有所扩展，而且其处理传入的大量数据流的能力也相应提高。
2、速度快
结合列式数据库架构(相对于基于行的非并行处理传统数据库)和使用大规模并行处理技术，不仅能够大幅提高性能(通常约100到1000倍)，还可以实现更低且更透明的定价机制。
3、兼容传统工具确保平台已经过认证，可以兼容传统工具。
4、利用Hadoop
Hadoop已成为大数据领域中的主要平台。利用Hadoop作为用于持久性和轻量型数据管理的高效益平台。
5、为数据科学家提供支持
数据科学家在企业IT中拥有着更高的影响力和重要性，快速、高效、易于使用和广泛部署的大数据平台可以帮助拉近商业人士和技术专家之间的距离。
6、提供数据分析功能
确保大数据平台不仅支持在数秒钟内准备并加载数据，还支持利用高级算法建立预测模型，轻松部署模型以进行数据库内计分。同时使数据科学家能够使用现有统计软件包和首选语言。

大数据处理平台的计算有什么特点？

1、通过分布式计算框架来实现
2、提供高效的计算模型和简单的编程接口
3、可扩展性：通过增加资源以满足不断增加的性能和功能需求
4、容错能力：考虑系统的不可靠性，支持出现错误后自动恢复
5、高效可靠I/O：缓解数据访问瓶颈问题，提高执行效率

什么是批量大数据计算？

批量计算为统一收集数据，存储到数据库中，然后对数据进行批量处理的数据计算方式。

简述MapReduce计算架构和计算过程。

基本思想：分而治之: 数据被切分成许多独立分片，被多个Map任务并行处理计算向数据靠拢: 计算程序被分发到数据节点，在本地计算

在这里插入图片描述

什么是流式大数据计算？

1、动机：数据的时效性
2、数据的价值随着时间的流逝而降低
3、事件出现后须尽快处理，发生一件处理一件，而不是缓存一批再处理
流式计算：对流式数据实时分析，从而获取有价值的实时信息

流式大数据计算与批量大数据计算的主要区别有哪些？

主要体现在以下几个方面：
1、数据时效性不同：流式计算实时、低延迟，批量计算非实时、高延迟。
2、数据特征不同：流式计算的数据一般是动态的、没有边界的，而批处理的数据一般则是静态数据。
3、应用场景不同：流式计算应用在实时场景，时效性要求比较高的场景，如实时推荐、业务监控…批量计算一般说批处理，应用在实时性要求不高、离线计算的场景下，数据分析、离线报表等。
4、运行方式不同，流式计算的任务持续进行的，批量计算的任务则一次性完成。

简述流式大数据计算的拓扑。

流程：阶段一：数据实时采集为流计算提供实时数据，要保证实时性、低延迟、稳定可靠
许多开源分布式日志收集系统：LinkedIn的Kafka、Cloudera的Flume 等
阶段二：数据实时计算
在流数据不断变化过程中实时分析，捕捉有用信息，并把结果发送出去阶段三：实时查询服务经由流计算框架得出的结果可供实时查询、展示或存储

流式计算中典型的数据分发机制有哪些？

图数据计算有哪些典型特征？

简述BSP模型的基本原理和BSP计算的主要步骤。

一种基于块同步的并行计算模型块内异步并行，块间显式同步
1、垂直看, 由一系列串行的超步组成，类似串行程序结构
2、水平看，在一个超步中，所有的进程并行执行局部计算
3、局部计算：每个处理器只对存储本地内存中的数据进行本地计算
4、全局通讯：处理器群相互交换数据，由一方发起推送(Put)和获取(Get)操作
5、栅栏同步(BarrierSynchronization): 当一个处理器遇到栅栏，会等到其他处理器

在这里插入图片描述

第十一章
11.1 工业大数据包含工业企业的哪些数据源？

工业大数据是工业企业自身及生态系统产生或使用的数据的总和，既包含企业内部来自CAx、MES、ERP等信息化系统的数据，生产设备、智能产品等物联网数据，也包括企业外部来自上下游产业链、互联网以及气象、环境、地理信息等跨界数据，贯穿于研发设计、生产制造、售后服务、企业管理等各环节。

11.2 工业大数据的应用场景有哪些？

工业大数据可应用于现有业务优化、推动大中型企业实现智能制造升级和工业互联网转型。
*优化现有业务，实现提质增效研发能力提升生产过程优化服务快速反应推动精准营销
*促进企业升级转型创新研发设计模式，实现个性化定制建立先进生产体系，支撑智能化生产基于全产业链大数据，实现网络化协同监控产品运行状态和环境，实现服务化延伸
*促进中小企业创新创业

11.3 工业大数据的特点是什么？

工业大数据首先符合大数据的5V特征，即大规模（Volumn）、速度快（Velocity）、类型杂（Variety）、低质量（Veracity）、低价值（Value）。
1、“多模态”。：工业大数据是工业系统在赛博空间的映像，必须反映工业系统的系统化特征，往往需要用超级复杂结构来反映系统要素，导致单体数据文件结构复杂。
2、“强关联”。：反映工业的系统性及其复杂动态关系。包括产品部件之间、生产过程之间、生命周期个环节之间、不同学科不同专业之间的数据关联。
3、“高通量”。：机器产生的时序数据:海量的设备与测点、数据采集频度高（产生速度快）、数据总吞吐量大、7X24持续不断，呈现出“高通量”的特征。

11.4 工业大数据的分析流程是怎样的？

工业大数据分析工作可大致分为分析工作准备和分析工作实施两个阶段。分析工作准备包括业务理解和数据理解两个步骤。分析工作实施包括数据准备、分析模型设计、验证与评估和实施与运营等几个步骤，整个工业大数据分析工作是一个逐步循环迭代的过程。

11.5 工业大数据分析与经典数据分析方法的异同点有哪些？

11.6 工业大数据分析的难点有哪些？。

强机理业务的分析技术
低质量数据的处理技术
数据高效率处理技术

第十二章
12.1 教育大数据的应用场景有哪些？分别有什么样的特点？

信息化校园、智能辅导系统和在线题库、大规模开放式在线课程数据特点：
1、多源异构性。信息化校园覆盖学习生活方方面面，数据有着不同的储存格式，数据之间的对应关系也需要明确，为后续处理带来不小困难。
2、数据关联性。同一个班级（学校）内的学生数据具有较高可比性，而不同班级间的数据可能会差异很大。需要衡量不同学生数据之间的相似性和相异性。
3、领域特性。教学场景中收集到的数据具有较强的教育学领域特性，如学生的学习状态往往需要借助教育学的一些方法辅助分析，学生在校园内的行为模式也与其他大数据研究场景下的行为模式有很大不同。

12.2 典型的智能辅导系统的组成有哪几个部分？

智能辅导系统通常包含学生模型、领域模型、辅导模块和用户接口四部分

12.3 MOOC平台的主要功能有哪些？有什么样的特点？

大规模在线开放课堂、教学短片、在线论坛、在线测试、学生互评
1、数据多源异构性。数据由大量异构资源构成。很多大数据应用（如学生行为模式挖掘、课程视频与练习关联等）需对多源异构数据（语音、文本、图片、视频等）进行联合建模。
2、学习行为多样性与相关性。学习行为多种多样，例如，课前学习、观看课程视频、做课程练习、参与课程测试等，而且学生下一刻的行为及其行为结果受到其之前学习行为的影响。
3、学生活跃度和学习热情差异较大。通常，课程学生数量随着时间推移急剧减少，且大多数学生仅注册课程而没有参与课程学习，完成课程的学生很少。

12.4 经典认知诊断的常用方法有哪些？各有什么样的特点？基于大数据的协同认知诊断分析的应用目标是什么？与经典认知诊断有什么区别

1、项目反应理论：
经典IRT模型通常只能对学生某一特定能力值（如，语言能力、计算能力、表达能力等）进行诊断评估。在实际应用中往往不能满足教师能力值细化的需求。
2、DINA(Deterministic Input, Noisy And gate) 模型：
DINA模型考虑了“失误”和“猜测”等因素，即学生掌握练习考察的所有知识点时，可能会因为“失误”而答错，当学生没有掌握练习考察的所有知识点时，也可能通过“猜测”而答对练习。
协同认知诊断分析着重处理数据的关联性和稀疏性

经典方法的限制： 1、将单个群体的测试分析视为一个孤立的诊断分析任务，较少考虑不同测试间的关联性，不同测试间诊断结果不可比
2、难以从稀疏数据中挖掘价值

12.5 认知诊断分析与知识跟踪分析的异同点有哪些？

知识跟踪分析：
1、学生的能力随时间不断变化，如何对其进行跟踪和预测是重要的研究课题。
2、智能辅导系统利用计算机代替教师角色，打破了传统教育中固定化时间的教育模式。它对学生各时刻下的学习状态进行记录和评估，为学生能力的跟踪提供了支撑。
协同认知诊断分析：着重处理数据的关联性和稀疏性矩阵分解方法
将学生和练习投影到低维的知识隐空间中，对学生做题记录进行分解，通过预测学生得分，从而获得学生在知识空间中的状态低维空间缺乏解释性

大数据与云计算课后习题

相关文章

盘点：全球12个大数据公司

做大数据的公司_技术

大数据白皮书材料整理

大数据基础-大数据导论

【大数据导论】

何为大数据？

大数据十大“关键词”

大数据的理解