南开18秋(1709、1803、1809)《数据挖掘》在线作业题目
18秋学期(1709、1803、1809)《数据挖掘》在线作业随机作业,核对题目下载答案
1.[单选题]()的目标是找出最小属性集,使得数据类的概率分布尽可能地接近使用所有属性得到的原分布。在缩小的属性集上挖掘还有其他的优点:它减少了出现在发现模式上的属性数目,使得模式更易于理解。 (满分:)
A. 变换 B. 归约 C. 集成 D. 属性子集选择
正确答案:——D——
2.[单选题]()是影响数据质量的因素,反映数据是否容易理解。 (满分:)
A. 时效性
B. 可信性
C. 可解释性
D. 正确性
正确答案:——C——
3.[单选题]下面哪种不属于数据预处理的方法?() (满分:)
A. 变量代换
B. 离散化
C. 聚集
D. 估计遗漏值
正确答案:——D——
4.[单选题]联机操作数据库系统的主要任务是执行联机事务和查询处理,这种系统称为()。 (满分:)
A. OLAP系统
B. 数据库系统
C. 查询系统
D. 联机事务处理(OLTP)系统
正确答案:————
5.[单选题]使用()填充缺失值:例如,利用数据集中其他顾客的属性,可以构造一棵决策树,来预测income的缺失值。通过考虑其他属性的值,有更大的机会保持income和其他属性之间的联系。 (满分:)
A. 平均值
B. 中位数
C. 最可能的值
D. 全局常量
正确答案:————
6.[单选题]考虑两队之间的足球比赛:队0和队1。假设65%的比赛队0胜出,剩余的比赛队1获胜。队0获胜的比赛中只有30%是在队1的主场,而队1取胜的比赛中75%是主场获胜。如果下一场比赛在队1的主场进行队1获胜的概率为()。 (满分:)
A. 0.75
B. 0.35
C. 0.468
D. 0.574
正确答案:————
7.[单选题]下面哪个不属于数据的属性类型?() (满分:)
A. 标称
B. 序数
C. 区间
D. 相异
正确答案:———— 奥鹏作业答案
8.[单选题]()是KDD。 (满分:)
A. 数据挖掘与知识发现
B. 领域知识发现
C. 文档知识发现
D. 动态知识发现
正确答案:————
9.[单选题]头发颜色是描述人的一个属性。在我们的应用中,它的可能值为黑色、棕色、淡黄色、红色、赤褐色、灰色和白色,这种属性是()。 (满分:)
A. 标称属性
B. 二元属性
C. 序数属性
D. 数值属性
正确答案:————
10.[单选题]()的基本思想是将每个数据值映射成一个带颜色的像素,根据数据集的维数把屏幕分为若干个子窗口,每个子窗口显示数据的一维。 (满分:)
A. 数据可视化技术
B. 数据库系统
C. 基于图符的可视化技术
D. 像素可视化技术
正确答案:————
11.[单选题]()是数据挖掘最常见、最丰富的信息源,因此它是数据挖掘研究的一种主要数据形式。 (满分:)
A. 事务数据
B. 数据仓库
C. 关系数据库
D. 文本数据
正确答案:————
12.[单选题]考察数据时,()是说给定属性的每个值都必须不同于该属性的其他值。 (满分:)
A. 唯一性规则
B. 连续性规则
C. 空值规则
D. 离散规则
正确答案:————
13.[单选题]设X={1,2,3}是频繁项集,则可由X产生()个关联规则。 (满分:)
A. 4
B. 5
C. 6
D. 7
正确答案:————
14.[单选题]数据挖掘是一个基于()的学习过程,一位好的数据挖掘人员必须对新思想持开放态度。 (满分:)
A. 过程
B. 分析
C. 数据
D. 素质
正确答案:————
15.[单选题]()是一种不使用目标变量(至少不明确使用)的数据挖掘。 (满分:)
A. 无指导数据挖掘
B. 有指导数据挖掘
C. 聚类
D. 数据分析
正确答案:————
16.[单选题]()说明空白、问号、特殊符号或指示空值条件的其他串的使用(例如,一个给定属性的值何处不能用),以及如何处理这样的值。 (满分:)
A. 唯一性规则
B. 连续性规则
C. 空值规则
D. 解释性规则
正确答案:————
17.[单选题]下列()不是将主观信息加入到模式发现任务中的方法。 (满分:)
A. 与同一时期其他数据对比
B. 可视化
C. 基于模板的方法
D. 主观兴趣度量
正确答案:————
18.[单选题]()将两个簇的邻近度定义为两个簇合并时导致的平方误差的增量,它是一种凝聚层次聚类技术。 (满分:)
A. MIN(单链)
B. MAX(全链)
C. 组平均
D. Ward方法
正确答案:————
19.[单选题]以下哪些算法是分类算法?() (满分:)
A. DBSCAN
B. C4.5
C. K-Mean
D. EM
正确答案:————
20.[单选题]用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务?() (满分:)
A. 根据内容检索
B. 建模描述
C. 预测建模
D. 寻找模式和规则
正确答案:————
二、多选题:
21.[多选题]()都导致不正确的数据。 (满分:)
A. 缺失值
B. 噪声
C. 不一致性
D. 分层
正确答案:————
22.[多选题]数据挖掘应用了许多应用领域的大量的技术,包括()、信息检索、可视化、算法、高性能计算等。 (满分:)
A. 统计学
B. 机器学习
C. 模式识别
D. 数据库和数据仓库
正确答案:————
23.[多选题]电信数据的()等是利用数据挖掘改进电信服务的具体应用。 (满分:)
A. 多维分析
B. 盗用模式分析
C. 异常模式识别
D. 单模式分析
正确答案:————
24.[多选题]在图象和视频数据库中可以挖掘涉及多媒体对象的关联规则,至少包含以下三类规则:()。 (满分:)
A. 与时间关系有关的图象内容的关联
B. 图象内容和非图象内容特征间的关联
C. 与空间关系无关的图象内容的关联
D. 与空间关系有关的图象内容的关联
正确答案:————
25.[多选题]周期模式挖掘的问题可分为三类:()。 (满分:)
A. 挖掘全周期模式
B. 挖掘部分周期模式
C. 挖掘循环或周期关联规则
D. 挖掘单个周期模式
正确答案:————
26.[多选题]空间数据库系统通常处理的是由()和其组合组成的向量数据。如:地图、设计图、蛋白质分子链的3-D排列、卫星图象、遥感数据和计算机x线断层摄影图象等。 (满分:)
A. 点
B. 线
C. 四边形
D. 多边形
正确答案:————
27.[多选题]同一个人的名字可能在第一个数据库中登记为“Bill”,在第二个数据库中登记为“William”,而在第三个数据库中登记为“B”,导致()。 (满分:)
A. 不一致性
B. 冗余
C. 备份
D. 复用
正确答案:————
28.[多选题]数据预处理的原因:数据多半来自多个异种数据源,极易受()数据的侵扰,低质量的数据将导致低质量的挖掘结果。因此需要对数据进行预处理。 (满分:)
A. 受噪声
B. 不一致
C. 缺失值
D. 正确
正确答案:————
29.[多选题]Web日志记录提供了有关Web动态的丰富信息,典型的Web日志记录条目包含了()等。 (满分:)
A. 图像
B. 时间戳
C. 所请求的URL
D. 发出请求的IP地址
正确答案:————
30.[多选题]在评价不平衡类问题分类的度量方法有如下几种()。 (满分:)
A. F1度量
B. 召回率(recall)
C. 精度(precision)
D. 真正率(turepositiverate,TPR)
正确答案:————
三、判断题:
31.[判断题]元数据的价值:能够从侧面描述对象,可以结构化、信息化。比如,要判断一幅画的价值,除了专家直接通过画的艺术性来评价,还可以通过元数据进行判断:这幅画是名家的还是二流画家的?是作者在创作鼎盛时期的作品,还是在早期时的作品?是作者擅长的类型还是他不熟悉的类型? (满分:)
T. 对
F. 错
正确答案:————
32.[判断题]属性是一个数据字段,表示数据对象的一个特征。在文献中,属性(attribute)、维(dimension)、特征(feature)和变量(variable)可以互换地使用。 (满分:)
T. 对
F. 错
正确答案:————
33.[判断题]用于分类的离散化方法之间的根本区别在于是否使用类信息。 (满分:)
T. 对
F. 错
正确答案:————
34.[判断题]数据挖掘是指对数据进行处理和研究,并从数据中提取有用的信息和发现知识的过程。 (满分:)
T. 对
F. 错
正确答案:————
35.[判断题]数据挖掘本身就是在大量的数据中找到有用的模式和规则的过程。为了获得成功,数据挖掘必须成为大的业务流程的一个组成部分,即数据挖掘的良性循环。 (满分:)
T. 对
F. 错
正确答案:————
36.[判断题]多元回归是简单线性回归的扩展,允许用两个或多个自变量的线性函数对因变量y建模。 (满分:)
T. 对
F. 错
正确答案:————
37.[判断题]重复元组不需要数据清理。 (满分:)
T. 对
F. 错
正确答案:————
38.[判断题]通常,数据对象用属性描述。数据对象又称样本、实例、数据点或对象。 (满分:)
T. 对
F. 错
正确答案:————
39.[判断题]数据集可能非常大,在海量数据上进行复杂的数据分析和挖掘将需要很长时间,使这种分析不现实或不可行。这就需要进行数据归约。 (满分:)
T. 对
F. 错
正确答案:————
40.[判断题]数据集成包括填充空缺值,识别孤立点,去掉噪声和无关数据。 (满分:)
T. 对
F. 错
正确答案:————
41.[判断题]回归用来预测缺失的或难以获得的数值数据值,而不是离散的类标号。回归分析是最常使用的数值预测的统计学方法。 (满分:)
T. 对
F. 错
正确答案:————
42.[判断题]关联规则的经典算法包括Apriori算法和FP-growth算法,其中FP-grownth算法的效率更高。 (满分:)
T. 对
F. 错
正确答案:————
43.[判断题]数据挖掘技术的一个突出的特点是处理巨大的、复杂的数据集,这对聚类分析技术提出了特殊的挑战,要求算法具有可伸缩性、处理不同类型属性的能力、发现任意形状的类、处理高维数据的能力等。根据潜在的各项应用,数据挖掘对聚类分析方法提出了不同要求。 (满分:)
T. 对
F. 错
正确答案:————
44.[判断题]使用一个全局常量填充缺失值:将缺失的属性值用同一个常量(如“Unknown”或-∞)替换,则挖掘程序可能误以为它们形成了一个有趣的概念,因此,尽管该方法简单,但是并不十分可靠。 (满分:)
T. 对
F. 错
正确答案:————
45.[判断题]聚类分析可以完成孤立点挖掘:许多数据挖掘算法试图使孤立点影响最小化,或者排除它们。然而孤立点本身可能是非常有用的。如在欺诈探测中,孤立点可能预示着欺诈行为的存在。 (满分:)
T. 对
F. 错
正确答案:————
46.[判断题]可视化为探索数据提供了有效的工具,可视化也可以用于表现挖掘过程、从挖掘方法得到的模式,以及用户与数据交互。 (满分:)
T. 对
F. 错
正确答案:————
47.[判断题]数据处理是将目标类对象的一般特性与一个或多个对比类对象的一般特性比较。 (满分:)
T. 对
F. 错
正确答案:————
48.[判断题]购物篮分析可以搜索经常在一起或依次购买的商品的集合,研究顾客的购买习惯。 (满分:)
T. 对
F. 错
正确答案:————
49.[判断题]相异度矩阵(dissimilaritymatrix,或称为对象一对象结构):存储n个对象两两之间的近似性,表现形式是一个n×n的矩阵。 (满分:)
T. 对
F. 错
正确答案:————
50.[判断题]数据矩阵(datamatrix,或称为对象与变量结构):它用P个变量(也称为度量或属性)来表现n个对象,例如用年龄、身高、体重、性别、种族等属性来表现对象“人”。 (满分:)
T. 对
F. 错
正确答案:————
附件是答案,需要的自助下载,q761296021
页:
[1]