作业答案 发表于 2019-3-20 09:53:06

南开19春(1709、1803、1809、1903)《数据挖掘》在线作业

19春学期(1709、1803、1809、1903)《数据挖掘》在线作业
1.[单选题]( )用替代的、较小的数据表示形式替换原数据。
奥鹏作业答案可以联系QQ 761296021
    A.维归约    B.数量归约    C.离散    D.聚集
    正确答案:——B——
2.[单选题]只有非零值才重要的二元属性被称作( )。
    A.计数属性
    B.离散属性
    C.非对称的二元属性
    D.对称属性
    正确答案:——C——
3.[单选题]职位可以按顺序枚举,对于教师有:助教、讲师、副教授、教授。职位属性是( )。
    A.标称属性
    B.序数属性
    C.数值属性
    D.二元属性
    正确答案:——B——
4.[单选题]( )去掉数据中的噪声,这类技术包括分箱、回归和聚类。
    A.光滑
    B.聚集
    C.规范化
    D.属性构造
    正确答案:————
5.[单选题]在基于规则分类器的中,依据规则质量的某种度量对规则排序,保证每一个测试记录都是由覆盖它的“最好的”规格来分类,这种方案称为( )。
    A.基于类的排序方案
    B.基于规则的排序方案
    C.基于度量的排序方案
    D.基于规格的排序方案
    正确答案:————
6.[单选题]分位数是取自数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合。如:4-分位数是( )个数据点,它们把数据分布划分成4个相等的部分,使得每部分表示数据分布的四分之一。
    A.1
    B.2
    C.3
    D.4
    正确答案:————
7.[单选题]决策树学习:决策树算法对数据处理过程中,将数据按( )结构分成若干分枝形成决策树,从根到树叶的每条路径创建一个规则。
    A.树状
    B.网状    奥鹏作业答案

    C.星形
    D.雪花形
    正确答案:————
8.[单选题]以下属于可伸缩聚类算法的是( )。
    A.CURE
    B.DENCLUE
    C.CLIQUE
    D.OPOSSUM
    正确答案:————
9.[单选题]( )将两个簇的邻近度定义为不同簇的所有点对的平均逐对邻近度,它是一种凝聚层次聚类技术。
    A.MIN(单链)
    B.MAX(全链)
    C.组平均
    D.Ward方法
    正确答案:————
10.[单选题]如果规则集R中不存在两条规则被同一条记录触发,则称规则集R中的规则为( )。
    A.无序规则
    B.穷举规则
    C.互斥规则
    D.有序规则
    正确答案:————
11.[单选题]( )是KDD。
    A.数据挖掘与知识发现
    B.领域知识发现
    C.文档知识发现
    D.动态知识发现
    正确答案:————
12.[单选题]在有关数据仓库测试,下列说法不正确的是( )。
    A.在完成数据仓库的实施过程中,需要对数据仓库进行各种测试。测试工作中要包括单元测试和系统测试
    B.当数据仓库的每个单独组件完成后,就需要对他们进行单元测试
    C.系统的集成测试需要对数据仓库的所有组件进行大量的功能测试和回归测试
    D.在测试之前没必要制定详细的测试计划
    正确答案:————
13.[单选题]假设12个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用等频(等深)划分成四个箱时,15在第( )个箱子内。
    A.第一个
    B.第二个
    C.第三个
    D.第四个
    正确答案:————
14.[单选题]决策树中不包含以下哪种结点?( )
    A.根结点(root node)
    B.内部结点(internal node)
    C.外部结点(external node)
    D.叶结点(leaf node)
    正确答案:————
15.[单选题]( )是说属性的最低和最高值之间没有缺失的值,并且所有的值还必须是唯一的
    A.唯一性规则
    B.连续性规则
    C.空值规则
    D.解释性规则
    正确答案:————
16.[单选题]在( )的数据集上挖掘将更有效,而且会产生相同或几乎相同的分析结果。
    A.归约后
    B.集成后
    C.离散后
    D.规范后
    正确答案:————
17.[单选题]检测一元正态分布中的离群点,属于异常检测中的基于( )的离群点检测。
    A.统计方法
    B.邻近度
    C.密度
    D.聚类技术
    正确答案:————
18.[单选题]假定用于分析的数据包含属性age。数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70,问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。第二个箱子值为( )。
    A.18.3
    B.22.6
    C.26.8
    D.27.9
    正确答案:————
19.[单选题]OLAM技术一般简称为“数据联机分析挖掘”,下面说法正确的是( )。
    A.OLAP和OLAM都基于客户机/服务器模式,只有后者有与用户的交互性
    B.由于OLAM的立方体和用于OLAP的立方体有本质的区别
    C.基于WEB的OLAM是WEB技术与OLAM技术的结合
    D.OLAM服务器通过用户图形借口接收用户的分析指令,在元数据的知道下,对超级立方体作一定的操作
    正确答案:————
20.[单选题]以下哪项关于决策树的说法是错误的?( )
    A.冗余属性不会对决策树的准确率造成不利的影响
    B.子树可能在决策树中重复多次
    C.决策树算法对于噪声的干扰非常敏感
    D.寻找最佳决策树是NP完全问题
    正确答案:————
21.[多选题]现实世界的数据一般是( )。数据预处理技术可以改进数据的质量,提高挖掘过程的准确率和效率。
    A.脏的
    B.正确的
    C.不完整的
    D.不一致的
    正确答案:————
22.[多选题]联机分析处理包括以下哪些基本分析功能( )?
    A.聚类
    B.切片
    C.转轴
    D.切块
    正确答案:————
23.[多选题]离群点检测的挑战包括:( )。
    A.发现合适的数据模型
    B.离群点检测系统对应的依赖性
    C.找到区别离群点与噪声的方法
    D.提供为什么对象被识别为离群点的解释
    正确答案:————
24.[多选题]数据挖掘可用于任何类型的数据,对于挖掘的应用,数据的最基本形式是( )。
    A.数据库数据
    B.数据仓库数据
    C.事务数据
    D.文本数据
    正确答案:————
25.[多选题]以下哪些学科和数据挖掘有密切联系( )?
    A.统计
    B.计算机组成原理
    C.矿产挖掘
    D.人工智能
    正确答案:————
26.[多选题]( )都是某种形式的数据变换(data transformation)。
    A.规范化
    B.数据离散化
    C.概念分层产生
    D.数据归约
    正确答案:————
27.[多选题]分类是一种重要的数据分析形式,其应用包括( )。
    A.欺诈检测
    B.目标营销
    C.性能预测
    D.制造
    正确答案:————
28.[多选题]衡量一个聚类分析算法质量,包括( )。
    A.相似度测量机制是否合适
    B.是否能发现数据背后潜在的知识
    C.是否能发现手工难以发现的知识
    D.算法是否简单
    正确答案:————
29.[多选题]( )都是定性的。
    A.标称属性
    B.序数属性
    C.数值属性
    D.二元属性
    正确答案:————
30.[多选题]以下属于分类器评价或比较尺度的有( )。
    A.预测准确度
    B.召回率
    C.模型描述的简洁度
    D.计算复杂度
    正确答案:————
31.[判断题]好的数据库和数据输入设计将有助于在第一现场把缺失值或错误的数量降至最低。
    T.对
    F.错
    正确答案:————
32.[判断题]基于邻近度的离群点检测方法不能处理具有不同密度区域的数据集。
    T.对
    F.错
    正确答案:————
33.[判断题]关联规则的经典算法包括Apriori算法和FP-growth算法,其中FP-grownth算法的效率更高。
    T.对
    F.错
    正确答案:————
34.[判断题]分类模型的误差大致分为两种:训练误差(training error)和泛化误差(generalization error)。
    T.对
    F.错
    正确答案:————
35.[判断题]两个属性,如果一个蕴含另一个,则他们是相关的。
    T.对
    F.错
    正确答案:————
36.[判断题]为了找出原属性的一个“好的”子集,对于n个属性,有2n个可能的子集。穷举搜索找出属性的最佳子集是很现实的。
    T.对
    F.错
    正确答案:————
37.[判断题]SVM是这样一个分类器,他寻找具有最小边缘的超平面,因此它也经常被称为最小边缘分类器(minimal margin classifier)。
    T.对
    F.错
    正确答案:————
38.[判断题]频繁项集导致发现大型事务或关系数据集中项之间有趣的关联或相关性。
    T.对
    F.错
    正确答案:————
39.[判断题]对于SVM分类算法,待分样本集中的大部分样本不是支持向量,移去或者减少这些样本对分类结果没有影响。
    T.对
    F.错
    正确答案:————
40.[判断题]数据挖掘是通过构建模型来完成的。从某种词义来看,模型是对事物如何工作的一种解释或说明,其足以反映现实,从而可以用来对现实世界进行推理。
    T.对
    F.错
    正确答案:————
41.[判断题]数据变换是缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果。
    T.对
    F.错
    正确答案:————
42.[判断题]先验原理可以表述为:如果一个项集是频繁的,那包含它的所有项集也是频繁的。
    T.对
    F.错
    正确答案:————
43.[判断题]在数据挖掘之前对数据进行预处理,可以显著地提高挖掘模式的总体质量,减少实际挖掘所需要的时间。
    T.对
    F.错
    正确答案:————
44.[判断题]特征提取技术并不依赖于特定的领域。
    T.对
    F.错
    正确答案:————
45.[判断题]数据集成包括填充空缺值,识别孤立点,去掉噪声和无关数据。
    T.对
    F.错
    正确答案:————
46.[判断题]高维数据的离群点检测方法可以划分成三种主要方法,包括扩充的传统离群点检测、找出子空间的离群点和对高维离群点建模。
    T.对
    F.错
    正确答案:————
47.[判断题]决策树分类器的构造不需要任何领域知识或参数设置,因此适合于探测式知识发现。
    T.对
    F.错
    正确答案:————
48.[判断题]如果将顾客按信用风险分类,则可以用具有相同信用风险的顾客的平均收入替换income中的缺失值。
    T.对
    F.错
    正确答案:————
49.[判断题]观察大型数据表令人乏味,通过浓缩数据,切尔诺夫脸使数据容易被用户消化理解,用的是基于图符的可视化技术。
    T.对
    F.错
    正确答案:————
50.[判断题]数据挖掘技术的一个突出的特点是处理巨大的、复杂的数据集,这对聚类分析技术提出了特殊的挑战,要求算法具有可伸缩性、处理不同类型属性的能力、发现任意形状的类、处理高维数据的能力等。根据潜在的各项应用,数据挖掘对聚类分析方法提出了不同要求。
    T.对
    F.错
    正确答案:————
无忧答案网 ,附件是答案,请核对题目下载
页: [1]
查看完整版本: 南开19春(1709、1803、1809、1903)《数据挖掘》在线作业