北语网院22年11月《大数据技术与应用》作业_1

[复制链接]
发表于 2022-11-23 11:00:37 | 显示全部楼层 |阅读模式
22秋《大数据技术与应用》作业_1
1.[单选题]关联规则最基础的元素是
    A.项
    B.项集
    C.超项集
    D.子项集
    答:——A——

2.[单选题]利用Sklearn构建KNN分类器,用于KNN分类器训练的程序为
    A.knn.fit(X_train,y_train)
    B.y_pred=knn.predict(X_test)
    C.knn=KNeighborsClassifier(n_neighbors=k)
    D.以上都不对
    答:——A——

3.[单选题]以下不是数据可视化工具库的是()
    A.pandas
    B.matplotlib
    C.matlab
    D.seaborn
    答:————

4.[单选题]数据集{2,2,4,4,4,4,6,6,8,8,12,14,16,20,22,28,30,44}的中四分位数为
    A.2
    B.4
    C.6
    D.8
    答:————

5.[单选题]在pandas中脏数据的典型表示有()
    A.np.nan
    B.*
    C.?
    D.no
    答:————

6.[单选题]用训练好的孤立森林isolation forest实例对数据进行异常值检测的语句是
    A.from sklean.ensemble import IsolationForest
    B.LocalOutlierFactor
    C.clf= IsolationForest(max_samples=100,random_state=0)
    D.clf.fit(X_train)
    E.y_pred=clf.fit_predict(X)
    F.y_pred_test = clf.predict(X_test)
    答:————

7.[单选题]创建孤立森林isolation forest实例的语句是
    A.from sklean.ensemble import IsolationForest
    B.LocalOutlierFactor
    C.clf= IsolationForest(max_samples=100,random_state=0)
    D.clf.fit(X_train)
    E.y_pred=clf.fit_predict(X)
    F.y_pred_test = clf.predict(X_test)
    答:————

8.[单选题]:from sklearn.tree import DecisionTreeClassifiernclf = DecisionTreeClassifier()nclf.fit(Xtrain,Ytrain) npredictions = clf.predict(Xtest)n上面代码第4行中Xtest表示
    A.训练数据集
    B.测试数据集
    C.训练数据的类别标签数组
    D.测试数据的类别标签数组
    答:————

9.[单选题]利用pandas处理数据缺失值时,用于丢弃缺失值的函数为
    A.isnull
    B.head
    C.tail
    D.dropna
    答:————

10.[单选题]局部异常因子(LOF)算法属于
    A.基于统计的异常值检测方法
    B.基于密度的异常检测方法
    C.基于聚类的异常值检测
    D.基于决策树的异常检测
    答:————

11.[多选题]数据离散程度分析的常用指标包括
    A.极差
    B.标准差
    C.四分位差
    D.离散系数
    答:————

12.[多选题]分箱法包括
    A.等深分箱
    B.众数分箱
    C.等宽分箱
    D.以上都不对
    答:————

13.[多选题]以下哪些是数据可视化图表
    A.柱状图
    B.折线图
    C.饼图
    D.散点图
    答:————

14.[多选题]可用于实现数据one-hot编码的方法包括
    A.Pandas的head
    B.Pandas的get_dummies
    C.sklearn.preprocessing.OneHotEncoder方法
    D.Pandas的tail
    答:————

15.[多选题]决策树的关键点包括
    A.采用Bagging框架
    B.采用随机特征选择生成每个决策树的训练数据特征子集
    C.采用采样数据集的特征子集训练对应决策树
    D.以上都不对
    答:————

16.[判断题]K均值聚类方法输出结果为各个样本的类簇归属,可能存在一个样本同时属于多个类簇的情况
    A.T
    B.F
    答:————

17.[判断题]逻辑回归logistic regression方法顾名思义属于回归方法
    A.T
    B.F
    答:————

18.[判断题]平均值能够有效抑制数据极值的影响,不容易出现偏差
    A.T
    B.F
    答:————

19.[判断题]低层次数据可以向高层次转化,代价是损失部分数据信息
    A.T
    B.F
    答:————

20.[判断题]离散系数是数据集中趋势分析常用指标之一
    A.T
    B.F
    答:————

21.[判断题]数据挖掘主要探索的是已知的规律
    A.T
    B.F
    答:————

22.[判断题]高层次数据无法向低层次转化,会出现F
    A.T
    B.F
    答:————

23.[判断题]两个或多个事物之间无论存在多强的关联关系,其中一个事物也无法通过其他事务预测到
    A.T
    B.F
    答:————

24.[判断题]KNN分类器随着参数k的变化,样本的分类结果不会发生变化
    A.T
    B.F
    答:————

25.[判断题]数据类型等级最高的是定类数据
    A.T
    B.F
    答:————


快速回复 返回顶部 返回列表