数据挖掘期末考题针对复习

news/2024/10/31 1:29:50/

选择题

1、下面不属于数据挖掘迭代序列的是( )
A、数据清理 B、数据集成
C、数据删除 D、数据变换

C
解析:
数据清理、数据集成、数据变换、数据归约

2、属性(attribute)是一个数据字段,表示数据对象的一个特征。下面不属于典型的属性分类的是( )
A、标称属性(nominal) B、二元属性(binary)
C、序数属性(ordinal) D、单值属性(Single-Valued)
D
解析:标称,二元,序数,数值,离散和连续

5、标称数据的概念分层生成方法不包括( )
A、由用户在模式级显式地说明属性的部分序。
B、由专家在模式级显式地说明属性的部分序。
C、转换为二进制后自动分层。
D、通过显式数据分组说明分层结构的一部分。

C
解析:
由用户或专家在模式级显式地说明属性的部分序。
通过显式数据分组说明分层结构的一部分。
说明属性集,但不说明它们的偏序,然后系统根据算法自动产生属性的序,构造有意义的概念分层。
对只说明部分属性集的情况,则可根据数据库模式中的数据语义定义对属性的捆绑信息,来恢复相关的属性。

判断题

16、数据清理和预处理,一般占数据挖掘全部工作量的 10%以内。( F)

17、二元属性(binary attribute)是一种标称属性,只有两个状态:0 或 1。( T)

18、规范化是将数据按比例缩放,使之落入一个小的特定区间,这个区间必须是[-1.0 , 1.0]。(F )

19、标称、二元和序数属性都是定性的,即只描述对象的特征,不给出实际的大小。(T )

20、高质量的决策必然依赖于高质量的数据,但数据预处理并不属于知
识发现过程的重要步骤。(F )

21、WEKA 的全名是怀卡托智能分析环境,由美国的加州大学伯克利分
校研制,WEKA 也是美国加州的一种鸟的名字。(F )

22、WEKA 中有 Preprocess、Classify、Cluster 等选项卡,要进行数据的
分类是选择 Cluster 选项卡。(F )

23、在挖掘频繁模式时,项集的支持度也称为相对支持度,而出现的频率称作绝对支持度。( T)

24、使用 IF-THEN 规则分类,如果多个规则被触发,则需要一种解决冲突的策略来决定激活哪一个规则。(T )

25、正常点的数量远远超过离群点的数量,离群点的数量在大规模数据集中所占的比例较低,小于 5%甚至 1%。(T )

pta上的:

基于距离的离群点检测方法不能万能的。(T)

情景离群点是局部离群点的推广。(T)
p353

高维数据的离群点检测,目前还没有科学有效的方法来进行。(T)

现实世界的数据库,极易受到噪声、缺失值和不一致数据的侵扰。(T )

Z分数规范化,就是小数定标规范化。( F)

K均值算法是一种基于代表对象的技术,K中心点算法是一种基于形心的技术。(F)
K-均值算法:一种基于形心的技术,K-中心点:一种基于代表对象的技术
https://blog.csdn.net/u014593570/article/details/77716972

教材P241:从给定训练元组中有放回的均匀抽样,有多种自助方法, 最常用的一种是.618自助法,因为0.618代表黄金分割。(F)

教材P293:聚类方法有很多种,实际使用中只会选择其中的一种,聚类分析不会采用多种方法整合。(F)

教材P293:K均值算法适应性广,即使簇均值没有定义的情况,也可使用。(F)

简答题

1、(1)数据预处理的主要任务是?书上p56
答:
数据清理:补充缺失数据、平滑噪声数据、识别或删除离群点,解决不一致

数据集成:集成多个数据库、数据立方或文件

数据变换:规范化、数据离散化、概念分层产生

数据归约:简化数据、但产生同样或相似的结果

(2)数据清理,对缺失值的处理方法是?书上p58
答:
忽略元组

人工填写空缺值

使用一个全局常量填充空缺失值

使用属性的中心度量(如均值或中位数)填充缺失值

使用与给定元组属同一类的所有样本的属性均值或中位数

使用最可能的值填充空缺值

2、什么是监督学习?与无监督学习的区别是?什么是训练集与检验集?书上p213
答:
在机器学习领域,分类称做监督学习,因为给定了类标号信息,即学习算法是监督的,因为它被告知每个训练元组的类隶属关系。

聚类被称做无监督学习,因为没有提供类标号信息。

训练集由数据元组和与它们相关的类标号组成,检验集由检验元组和与它们相关联的类标号组成。

3、请描述 K 均值(K-Means)算法的核心思想。书上p293
答:
随机选择k个对象,每个对象代表一个簇的初始均值或中心

对剩余的每个对象,根据它与簇均值的距离,将他指派到最相似的簇

计算每个簇的新均值

回到步骤2,循环,直到准则函数收敛
在这里插入图片描述

4.4、什么是离群点,离群点有哪些类型。书上p352
答:
离群点是一个数据对象,它显著不同于其他的数据对象,好像它是被不同的机制产生的一样。

类型:
全局离群点:显著的偏离数据集中其余部分的点

情景离群点(条件离群点:关于特定情境下,它显著的偏离其他对象,情景离群点是局部离群点的推广

集体离群点:一个数据对象子集作为整体显著的偏离整个数据集,这个子集形成集体离群点。

老师今年画的重点(背住)

一、属性有哪些?特点?书上p27
属性是一个数据字段,表示数据对象的一个特征。

包括:
定性的:描述特征,不给出实际大小和数量:

  1. 标称属性
    其值是一些符号或者事物的名称,每个值代表某种编码或状态。是分类的,不必具有有意义的序。

  2. 二元属性(binary attribute)
    是一种标称属性,只有两个状态:0或1。
    对称的(symmetric): 两种状态具有同等价值,携带相同权重。如:性别
    非对称的(asymmetric): 其状态的结果不是同样重要。如:艾滋病毒的阳性和阴性结果。对重要的结果用1编码,另一个用0编码。

  3. 序数属性(ordinal attribute)
    其可能的值之间具有有意义的序或者秩评定(ranking),但是相继值之间的差是未知的。

定量的:可度量的量

  1. 数值属性
    数值属性是定量的,它是可度量的量
    区间标度属性:使用相等的单位尺度度量。可以为正,0,负。
    值有序,可以评估值之间的差,不能评估倍数。
    没有绝对的零点。
    比率标度(ratio-scaled)属性:具有固定零点的数值属性。
    值有序,可以评估值之间的差,也可以说一个值是另一个的倍数。

其他类型

  1. 离散属性(discrete Attribute):具有有限或者无限可数个值,可以用或不用整数表示。
    连续属性(Continuous Attribute):属性值为实数。如果属性不是离散就是连续的。

二、什么叫数据立方体?什么叫冰山立方体?书上p122
答:

  • 数据立方体是一种多维数据模型,允许以多维对数据建模和观察。数据立方体由方体的格组成,每个方体代表一个group-by,对应给定多维数据的一个不同级别的汇总。

  • 冰山立方体:对于稀疏的数据立方体,我们往往通过指定一个最小支持度阈值(也称冰山条件),来进行部分物化。
    这种部分物化的方体称之为冰山方体,其只存放其聚集值大于某个最小支持度阈值的立方体单元。

三、简要介绍聚类方法,每种给出一个例子 书上p320
划分方法:

  • 概念:给定一个n个对象或元组的数据库,一个划分方法构建数据的k个划分,每个划分表示一个簇,并且k<=n。它采用迭代重定位的方式,把对象从一个簇转移到另一个簇来改变划分质量。
    划分准则:同一个聚类中的对象尽可能的接近或相关,不同聚类中的对象尽可能的远离或不同。
  • 举例:K-均值和K-中心点算法。
  • 特点:
    发现的球形互斥的簇。
    基于距离。
    可以用均值或中心点等代表簇中心。
    对中小规模数据集有效。

层次方法:

  • 概念:对给定数据对象集合进行层次分解;
    自底向上方法(凝聚):开始将每个对象作为单独的一个组,然后相继的合并相近的对象或组,直到所有的组合并为一个,或者达到一个终止条件。
    自顶向下方法(分裂):开始将所有的对象置于一个簇中,在迭代的每一步,一个簇被分裂为多个更小的簇,直到最终每个对象在一个单独的簇中,或达到一个终止条件
  • 举例:AGNES算法(自底向上方法)DIANA算法(自顶向下方法)
  • 特点:
    聚类是一个层次分解(多层)
    不能纠正错误的合并
    可以集成其他技术

基于密度的方法:

  • 概念:根据邻域中对象的密度,或根据某种密度函数生成簇。指导思想是,只要一个区域中的点的密度大于某个域值,就把它加到与之相近的聚类中去。这类算法能克服基于距离的算法只能发现“类圆形”的聚类的缺点,可发现任意形状的聚类,且对噪声数据不敏感。
  • 举例:DBSCAN、OPTICS、DENCLUE算法
  • 特点
    可以发现任意形状的簇
    簇是对象空间中被低密度区域分割开的稠密区域。
    簇密度:每个点的领域内必须有最少个数个点。
    可能过滤离群点

基于网格的方法

  • 概念:把对象空间量化为有限数目的单元,形成一个网格结构。所有的聚类都在这个网格结构上进行。
  • 举例:STING算法
  • 特点:
    使用一种多分辨率网格数据结构
    快速处理

四、离群点检测的挑战 书上p354
答:

  1. 正常对象和离群点的有效建模
  2. 针对应用的离群点检测
    不同的应用有不同的要求,不可能开发通用的离群点检测的方法。
  3. 在离群点检测中处理噪声
  4. 可理解性
    被检测的点为什么是噪点

大题

K均值

书上p320
在这里插入图片描述

Apriori算法

在这里插入图片描述
min_sup :最小支持度,min_conf:最小置信度

书上p161 例题

信息增益进行决策树归纳

书上p218
在这里插入图片描述

综述题

物联网相关

以你对物联网信息系统的了解,回答下面两个问题:
(1) 在搭建物联网信息系统时,面临的挑战。(7.5 分)

答:
一、安全
二、平台
三、互操作性和标准化
四、数据存储与分析
五、物联网传感器

(2) 物联网信息系统设计的一般原则。(7.5 分)

多样性原则。物联网体系结构须根据物联网的服务类型、节点的不同,分别设计多种类型的体系结构,不能也没有必要建立起统一的标准体系结构。

时空性原则。物联网尚在发展之中,其体系结构应能满足物联网在时间、空间和能源方面的需求。

互联性原则。物联网体系结构需要能与互联网实现互联互通;如果试图另行设计一套互联通信协议及其描述语言将是不现实的。

扩展性原则。对于物联网体系结构的架构,应该具有一定的扩展性设计,以便最大限度地利用现有网络通信基础设施,保护已投资利益。

安全性原则。物物互联之后,物联网的安全性将比计算机互联网的安全性更为重要,因此物联网的体系结构应能够防御大范围内的网络攻击。

健壮性原则。物联网体系结构应具备相当好的健壮性和可靠性。

物联网相关知识:

物联网:感知、传输与处理

全面感知
可靠传输
智能处理
在这里插入图片描述
在这里插入图片描述
智能信息处理指信息的储存、检索、智能化分析利用,比如利用人工智能对感知的信息作出决策和处理。物联网的智能信息处理主要针对感知的数据,而物联网的数据具有三个独特的特点:
1、异构性
在物联网中,不仅不同的感知对象有不同类型的表征数据,即使是同一个感知对象也会有各种不同格式的表征数据。比如在物联网中为了实现对一栋写字楼的智能感知,需要处理各种不同类型的数据,如文本、图形、音频、视频,互联网上提供的相关超文本链接标记语言(HTML)等。
为了实现完整准确的感知,必须综合利用不同类型的数据获得全面准确信息。

2、海量性
物联网是网络和数据的海洋。在物联网中海量对象连接在一起,每个对象每时每刻都在变化,表达其特征的数据也会不断地积累。如何有效地改进已有的技术和方法,或者提出新的技术和方法,从而高效地管理和处理这些海量数据,将是从这些原始数据中提取信息并进一步融合、推理和决策的关键。

3、不确定性
物联网中的数据具有明显的不确定性特征,主要包括数据本身的不确定性、语义匹配的不确定性和查询分析的不确定性等。为了获得客观对象的准确信息,需要去粗取精、去伪存真,以便更全面地进行表达和推理。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


http://www.ppmy.cn/news/148741.html

相关文章

寄存器操作方法

一, 寄存器的设置和操作特性 1&#xff0c;一个寄存器的每个位有其不同的意义&#xff0c;进行不同的设置会使硬件产生不同的效果和功能&#xff1b; 2&#xff0c;有些情况下需要对一个寄存器进行连续的不同的甚至完全相反的设置&#xff1b; 3&#xff0c;有些情况下需要对…

SSD性能怎么测?看这一篇就够了!

转载自&#xff1a;https://www.sohu.com/a/390625596_505795 一、概述 自从很多年前开始做SSD方面的测试以来&#xff0c;我就和某些行业工作者产生了同感&#xff1a;存储性能测试基本是所有计算机硬件测试里最复杂困难的一项。存储系统的性能受到整个机器其他硬件甚至软件…

洛谷 P3203 [HNOI2010]BOUNCE 弹飞绵羊(分块)

题目描述 某天&#xff0c;Lostmonkey发明了一种超级弹力装置&#xff0c;为了在他的绵羊朋友面前显摆&#xff0c;他邀请小绵羊一起玩个游戏。游戏一开始&#xff0c;Lostmonkey在地上沿着一条直线摆上n个装置&#xff0c;每个装置设定初始弹力系数ki&#xff0c;当绵羊达到第…

使用U盘安装操作系统

前些天对门寝室朋友的电脑系统崩溃啦&#xff0c;让我过去帮忙弄一下。要是在平时我三两下就给他弄好啦&#xff0c;但是那天却把我给难住啦&#xff0c;为什么呢&#xff1f;那是因为他的光驱是坏的&#xff0c;⊙﹏⊙b汗&#xff0c;无法正常读取系统安装盘&#xff0c;是怎么…

Stack与Queue

Stack(栈) 堆栈&#xff08;Stack&#xff09;代表了一个后进先出的对象集合。当您需要对各项进行后进先出的访问时&#xff0c;则使用堆栈。当您在列表中添加一项&#xff0c;称为推入元素&#xff0c;当您从列表中移除一项时&#xff0c;称为弹出元素。 方法 Clear(); 从 S…

c语言程序设计P320,《C程序设计》作业内容

《《C程序设计》作业内容》由会员分享,可在线阅读,更多相关《《C程序设计》作业内容(11页珍藏版)》请在人人文库网上搜索。 1、实验一 C语言的运行环境的使用一、目的与要求1. 了解Windows系统下C语言的运行环境,熟悉C程序调试、运行的基本操作方法。2. 熟练掌握编辑、编译、…

第十章第十题(Queue类)(Queue class)

第十章第十题&#xff08;Queue类&#xff09;&#xff08;Queue class&#xff09; *10.10&#xff08;Queue类&#xff09;10.6节给出了一个Stack类。设计一个名为Queue的类用于存储整数。像栈一样&#xff0c;队列保存元素。在栈中&#xff0c;元素以“后进先出”的方式获取…

联想微型计算机急救方法,lenovo微型计算机电脑无法启动文件丢失怎么办

满意答案 pd_bzx236 2015.11.22 采纳率:53% 等级:9 已帮助:417人 1、使用Windows启动盘 如果启动问题是由于活动分区的启动记录或者操作系统启动所使用的文件被破坏造成的,启动盘就能够解决问题。具体方法如下: 创建Windows启动盘,找一台配置相似、工作正常的Windows …