北语网院22年11月《大数据技术与应用》作业_1

青青 · 发表于 2022-11-23 11:00:37

22秋《大数据技术与应用》作业_1
1.[单选题]关联规则最基础的元素是
A.项
B.项集
C.超项集
D.子项集
答:——A——

2.[单选题]利用Sklearn构建KNN分类器，用于KNN分类器训练的程序为
A.knn.fit(X_train,y_train)
B.y_pred=knn.predict(X_test)
C.knn=KNeighborsClassifier(n_neighbors=k)
D.以上都不对
答:——A——

3.[单选题]以下不是数据可视化工具库的是（）
A.pandas
B.matplotlib
C.matlab
D.seaborn
答:————

4.[单选题]数据集{2,2,4,4,4,4,6,6,8,8,12,14,16,20,22,28,30,44}的中四分位数为
A.2
B.4
C.6
D.8
答:————

5.[单选题]在pandas中脏数据的典型表示有（）
A.np.nan
B.*
C.?
D.no
答:————

6.[单选题]用训练好的孤立森林isolation forest实例对数据进行异常值检测的语句是
A.from sklean.ensemble import IsolationForest
B.LocalOutlierFactor
C.clf= IsolationForest(max_samples=100,random_state=0)
D.clf.fit(X_train)
E.y_pred=clf.fit_predict(X)
F.y_pred_test = clf.predict(X_test)
答:————

7.[单选题]创建孤立森林isolation forest实例的语句是
A.from sklean.ensemble import IsolationForest
B.LocalOutlierFactor
C.clf= IsolationForest(max_samples=100,random_state=0)
D.clf.fit(X_train)
E.y_pred=clf.fit_predict(X)
F.y_pred_test = clf.predict(X_test)
答:————

8.[单选题]:from sklearn.tree import DecisionTreeClassifiernclf = DecisionTreeClassifier()nclf.fit(Xtrain,Ytrain) npredictions = clf.predict(Xtest)n上面代码第4行中Xtest表示
A.训练数据集
B.测试数据集
C.训练数据的类别标签数组
D.测试数据的类别标签数组
答:————

9.[单选题]利用pandas处理数据缺失值时，用于丢弃缺失值的函数为
A.isnull
B.head
C.tail
D.dropna
答:————

10.[单选题]局部异常因子(LOF)算法属于
A.基于统计的异常值检测方法
B.基于密度的异常检测方法
C.基于聚类的异常值检测
D.基于决策树的异常检测
答:————

11.[多选题]数据离散程度分析的常用指标包括
A.极差
B.标准差
C.四分位差
D.离散系数
答:————

12.[多选题]分箱法包括
A.等深分箱
B.众数分箱
C.等宽分箱
D.以上都不对
答:————

13.[多选题]以下哪些是数据可视化图表
A.柱状图
B.折线图
C.饼图
D.散点图
答:————

14.[多选题]可用于实现数据one-hot编码的方法包括
A.Pandas的head
B.Pandas的get_dummies
C.sklearn.preprocessing.OneHotEncoder方法
D.Pandas的tail
答:————

15.[多选题]决策树的关键点包括
A.采用Bagging框架
B.采用随机特征选择生成每个决策树的训练数据特征子集
C.采用采样数据集的特征子集训练对应决策树
D.以上都不对
答:————

16.[判断题]K均值聚类方法输出结果为各个样本的类簇归属，可能存在一个样本同时属于多个类簇的情况
A.T
B.F
答:————

17.[判断题]逻辑回归logistic regression方法顾名思义属于回归方法
A.T
B.F
答:————

18.[判断题]平均值能够有效抑制数据极值的影响，不容易出现偏差
A.T
B.F
答:————

19.[判断题]低层次数据可以向高层次转化，代价是损失部分数据信息
A.T
B.F
答:————

20.[判断题]离散系数是数据集中趋势分析常用指标之一
A.T
B.F
答:————

21.[判断题]数据挖掘主要探索的是已知的规律
A.T
B.F
答:————

22.[判断题]高层次数据无法向低层次转化，会出现F
A.T
B.F
答:————

23.[判断题]两个或多个事物之间无论存在多强的关联关系，其中一个事物也无法通过其他事务预测到
A.T
B.F
答:————

24.[判断题]KNN分类器随着参数k的变化，样本的分类结果不会发生变化
A.T
B.F
答:————

25.[判断题]数据类型等级最高的是定类数据
A.T
B.F
答:————

北语网院22年11月《大数据技术与应用》作业_1

相关帖子