大数据导论第一章作业

news/2024/10/28 21:55:19/

第一章  作业

2、请阐述把数据变得可用需要经过哪几个步骤?

答:①数据清洗。使用数据的第一步就是要将数据变成一种可用的状态。这个过程通常需要运用借助工具去实现数据转换。

②数据管理。关系数据库以规范化的行和列的形式保存数据,并可进行各种查询操作,同时支持事务一致性功能,很好地满足了各种商业应用的需求,从而长期占据市场垄断地位。NoSQL数据库的出现,有效满足了人们对非结构化数据进行管理的市场需求,并由于其本身的特点得到了非常迅速的发展。

③数据分析。使用相关的大数据处理分析技术,比如构建统计模型、统计等。为了能让分析结果更容易被人理解,还需要对分析结果进行可视化。可视化对于数据分析来说是一项非常重要的工作,如果需要找出数据的差别,就需要画图帮助人们直观理解,找出问题所在。

④数据应用。数据分析后,就得到了有价值的数据,就可以进行应用。

4、请阐述信息科技是如何为大数据时代的到来提供技术支撑的。

答:①存储设备容量不断增加。存储设备制造工艺不断升级、容量大幅增加、读写速度不断提升,提供了海量的存储空间,还大大降低了数据存储成本,进一步加快了数据量增长的速度。

②CPU处理能力大幅提升。大大提高了处理数据的能力,使我们可以更快地处理不断累积的海量数据。晶体管数目不断增加,运动频率不断提高,核心数量也逐渐增多。

③网络带宽不断增加。不断扩大网络覆盖范围,提高数据传输速率,在大数据时代,数据传输不再受网络发展初期的瓶颈制约。

6、请阐述大数据发展的3个重要阶段。

答:①大约在20世纪90年代至21世纪初,大数据发展属于萌芽期。这个阶段数据挖掘理论和数据技术逐步成熟,一些商业智能工具和技术被应用。

②大约在21世纪前十年,大数据发展属于成熟期。这个阶段Web 2.0应用迅猛发展,非结构化数据大量产生,带动了大数据技术的快速突破,形成了并行计算与分布式系统两大核心技术。

③大约在2010年以后,大数据发展处于大规模应用期。大数据应用渗透各行各业,信息社会智能化程度大幅提高。

7、请阐述大数据的“5V”特性。

答:①数据量大。大数据的起始计量单位是PB(1024TB)、EB(1024PB,约100万TB)或ZB(1024EB,约10亿TB)。

②数据类型繁多。包括网络日志、音频、视频、图片、地理位置等;各种结构化和非结构化的数据。

③处理速度快。大数据的智能化和实时性要求越来越高,对处理速度也有极严格的要求,一般要在秒级时间范围内给出分析结果,超出这个时间数据就可能失去价值,即大数据的处理要符合“1 秒定律”。

④价值密度低。大数据价值密度的高低与数据总量的大小成反比。

⑤数据真实性。表明了数据的准确度和可信赖度,代表着数据的质量。

8、请阐述大数据对科学研究有什么影响。

答:在科学研究先后历经了实验科学、理论科学、计算科学和数据密集型科学四种范式。

实验科学:以记录和描述自然现象为主;

理论科学:其典型案例如牛顿三定律、麦克斯韦方程组;

计算科学:对复杂现象进行模拟仿真,其典型案例如模拟核试验;

数据密集型科学:利用计算机进行数据模拟与计算。


http://www.ppmy.cn/news/1542697.html

相关文章

当两个文件互相包含并各自掉用了对方的函数将出现什么情况

今天遇到一个很特殊的问题。 报函数不存在: [2024-10-28T17:50:51.082] [DEBUG] app - err: TypeError: ApiMinePropertyListingManagerService.collectPropertyListing is not a functionat Function.call (/www/project/app/event_center/erp/property_listing/erp_listing_…

CentOS系统Nginx的安装部署

CentOS系统Nginx的安装部署 安装包准备 在服务器上准备好nginx的安装包 nginx安装包下载地址为:https://nginx.org/en/download.html 解压 tar -zxvf nginx-1.26.1.tar.gz执行命令安装 # 第一步 cd nginx-1.26.1# 第二步 ./configure# 第三步 make# 第四步 mak…

语言模型微调:提升语言Agent性能的新方向

人工智能咨询培训老师叶梓 转载标明出处 大多数语言Agent依赖于少量样本提示技术(few-shot prompting)和现成的语言模型。这些模型在作为Agent使用时,如生成动作或自我评估,通常表现不佳,且鲁棒性差。 论文《FIREACT…

如何应对PDF无法转换成其他格式?常见原因与解决方法解析

在日常工作中,PDF文件的格式转换是非常常见的操作,无论是转换为Word、Excel,还是其他格式,都会有一些方便的工具支持。然而,有时在转换PDF时可能会遇到无法转换的问题。这个时候,可以看看是不是以下几个原因…

Java | ReentrantLock 锁和 synchronized 锁的区别和共同特点是什么?

ReentrantLock 和 synchronized 都是 Java 中的锁机制,主要用于实现线程间的互斥访问,确保线程安全。它们有一些共同点,也有各自的特性和区别。以下是二者的详细对比: 一、共同特点 可重入性:两者都是可重入锁&#x…

深度学习速通系列:超长法律文件隐私过滤(基于预训练模型Bert)

法律文件隐私过滤 网上使用bert的中文模型进行命名识别教程少的可怜,摸索了一周的时间,硬是把法律文书的人名全部识别出来了,目前可以达到98.9999%(开玩笑的,不过准确率保守估计是有90%以上).注意:这个法律文书目前只是针对裁决书,其他还没测试过,可支持超长文本识别 github仓…

小米面试题:多级缓存一致性问题怎么解决

前言 在现代分布式系统中,多级缓存架构因其能够显著提高系统性能和响应速度而被广泛应用。然而,多级缓存架构也带来了一致性问题,即不同层次的缓存之间数据不一致的情况。本文将从背景、功能点、优缺点、底层原理等方面详细介绍多级缓存一致…

Nodejs使用pkg打包为可执行文件

安装pkg npm install -g pkg查看pkg命令 pkg --help修改package.json 新增bin入口配置 {"name": "takescreenshot","version": "1.0.0","bin": "app.js", // 新增bin入口配置"scripts": {"t…