北语22秋《大数据技术与应用》作业2【标准答案】 作者:周老师 分类: 北京语言大学 发布时间: 2022-11-25 14:33 专业辅导各院校在线、离线考核、形考、终极考核、统考、社会调查报告、毕业论文写作交流等! 联系我们:QQ客服:3326650399 439328128 微信客服①:cs80188 微信客服②:cs80189 扫一扫添加我为好友 扫一扫添加我为好友 21秋《大数据技术与应用》作业2-00001 试卷总分:100 得分:100 一、单选题 (共 15 道试题,共 60 分) 1.用练习好的LOF实例判别数据是不是反常,正常样本用1表明,反常样本用-1表明的句子 A.from sklean.neighbors import LocalOutlierFactor B.clf=LocalOutlierFactor(n_neighbors=20) C.y_pred=clf.fit_predict(X) D.X_scores = clf.negative_outlier_factor_ 2.使用pandas处理数据缺失值时,用于填充缺失值的函数为 A.isnull B.head C.fillna D.dropna 3.决议计划树生成过程中,以信息增益作为特征挑选原则生成决议计划树的算法是 A.ID3 B.C4.5 C.CART D.以上都不对 4.决议计划树的生成是一个递归过程,在决议计划树根本算法中,满意哪种景象,会致使递归过程回来中止 A.特征挑选次数超越必定约束 B.当时特点集为空,或一切样本在一切特点上取值一样 C.决议计划树深度超越2 D.以上都不对 5.:from sklearn.tree import DecisionTreeClassifiernclf = DecisionTreeClassifier()nclf.fit(Xtrain,Ytrain) npredictions = clf.predict(Xtest)n上面代码第4行中Xtest表明 A.练习数据集 B.测试数据集 C.练习数据的种类标签数组 D.测试数据的种类标签数组 6.以下不归于大数据剖析方法的是() A.统计剖析 B.数学模型 C.机器学习 D.人工智能 7.用练习好的孤立森林isolation forest实例对数据进行反常值检测的句子是 A.from sklean.ensemble import IsolationForest B.LocalOutlierFactor C.clf= IsolationForest(max_samples=100,random_state=0) D.clf.fit(X_train) E.y_pred=clf.fit_predict(X) F.y_pred_test = clf.predict(X_test) 8.用练习好的含糊C均值聚类实例对数据进行聚类操作的句子是 A.from fcmeans import FCM B.fcm=FCM(n_clusters=3) C.fcm.fit(X) D.fcm_labels=fcm.u.argmax(axis=1) 9.数据集{1,2,2,2,3,4}的众数是 A.1 B.2 C.3 D.4 10.不包括任何项的项集是指 A.项 B.空集 C.超项集 D.子项集 11.使用Sklearn构建KNN分类器,用于KNN分类器练习的程序为 A.knn.fit(X_train,y_train) B.y_pred=knn.predict(X_test) C.knn=KNeighborsClassifier(n_neighbors=k) D.以上都不对 12.数据集{2,2,4,4,4,4,6,6,8,8,12,14,16,20,22,28,30,44}的中四分位数为 A.2 B.4 C.6 D.8 13.相关规矩 X→Y 表明中X称为 A.前件 B.后件 C.中心件 D.以上都不对 14.从软件库中导入含糊C均值聚类算法类的句子是 A.from fcmeans import FCM B.fcm=FCM(n_clusters=3) C.fcm.fit(X) D.fcm_labels=fcm.u.argmax(axis=1) 15.假如一个项集包括K个项,则该项集称为 A.项 B.空集 C.超项集 D.K项集 二、多选题 (共 5 道试题,共 20 分) 16.数据会集趋势剖析的常用目标包含 A.均匀值 B.中位数 C.众数 D.四分位数 17.以下哪些是数据可视化图表 A.柱状图 B.折线图 C.饼图 D.散点图 18.分箱法包含 A.等深分箱 B.众数分箱 C.等宽分箱 D.以上都不对 19.在数据清洁过程中,用于处理噪声值的方法包含 A.盖帽法 B.分箱法 C.聚类法 D.以上都不对 20.定性数据包含 A.有序数据 B.无序数据 C.定类等级数据 D.定性等级数据 三、判别题 (共 5 道试题,共 20 分) 21.回归算法的意图是寻觅决议计划鸿沟 22.描绘性数据剖析归于对比高级杂乱的数据剖析手法 23.盖帽法是将某接连变量均值上下三倍规范差规模外的数值悉数删去 24.定性数据包含离散数据和接连数据 25.等宽分箱方法是指每个分箱中样本数量共同 专业辅导各院校在线、离线考核、形考、终极考核、统考、社会调查报告、毕业论文写作交流等!(非免费) 联系我们:QQ客服:3326650399 439328128 微信客服①:cs80188 微信客服②:cs80189 扫一扫添加我为好友 扫一扫添加我为好友
试卷总分:100 得分:100
一、单选题 (共 15 道试题,共 60 分)
1.用练习好的LOF实例判别数据是不是反常,正常样本用1表明,反常样本用-1表明的句子
A.from sklean.neighbors import LocalOutlierFactor
B.clf=LocalOutlierFactor(n_neighbors=20)
C.y_pred=clf.fit_predict(X)
D.X_scores = clf.negative_outlier_factor_
2.使用pandas处理数据缺失值时,用于填充缺失值的函数为
A.isnull
B.head
C.fillna
D.dropna
3.决议计划树生成过程中,以信息增益作为特征挑选原则生成决议计划树的算法是
A.ID3
B.C4.5
C.CART
D.以上都不对
4.决议计划树的生成是一个递归过程,在决议计划树根本算法中,满意哪种景象,会致使递归过程回来中止
A.特征挑选次数超越必定约束
B.当时特点集为空,或一切样本在一切特点上取值一样
C.决议计划树深度超越2
D.以上都不对
5.:from sklearn.tree import DecisionTreeClassifiernclf = DecisionTreeClassifier()nclf.fit(Xtrain,Ytrain) npredictions = clf.predict(Xtest)n上面代码第4行中Xtest表明
A.练习数据集
B.测试数据集
C.练习数据的种类标签数组
D.测试数据的种类标签数组
6.以下不归于大数据剖析方法的是()
A.统计剖析
B.数学模型
C.机器学习
D.人工智能
7.用练习好的孤立森林isolation forest实例对数据进行反常值检测的句子是
A.from sklean.ensemble import IsolationForest
B.LocalOutlierFactor
C.clf= IsolationForest(max_samples=100,random_state=0)
D.clf.fit(X_train)
E.y_pred=clf.fit_predict(X)
F.y_pred_test = clf.predict(X_test)
8.用练习好的含糊C均值聚类实例对数据进行聚类操作的句子是
A.from fcmeans import FCM
B.fcm=FCM(n_clusters=3)
C.fcm.fit(X)
D.fcm_labels=fcm.u.argmax(axis=1)
9.数据集{1,2,2,2,3,4}的众数是
A.1
B.2
C.3
D.4
10.不包括任何项的项集是指
A.项
B.空集
C.超项集
D.子项集
11.使用Sklearn构建KNN分类器,用于KNN分类器练习的程序为
A.knn.fit(X_train,y_train)
B.y_pred=knn.predict(X_test)
C.knn=KNeighborsClassifier(n_neighbors=k)
D.以上都不对
12.数据集{2,2,4,4,4,4,6,6,8,8,12,14,16,20,22,28,30,44}的中四分位数为
A.2
B.4
C.6
D.8
13.相关规矩 X→Y 表明中X称为
A.前件
B.后件
C.中心件
D.以上都不对
14.从软件库中导入含糊C均值聚类算法类的句子是
A.from fcmeans import FCM
B.fcm=FCM(n_clusters=3)
C.fcm.fit(X)
D.fcm_labels=fcm.u.argmax(axis=1)
15.假如一个项集包括K个项,则该项集称为
A.项
B.空集
C.超项集
D.K项集
二、多选题 (共 5 道试题,共 20 分)
16.数据会集趋势剖析的常用目标包含
A.均匀值
B.中位数
C.众数
D.四分位数
17.以下哪些是数据可视化图表
A.柱状图
B.折线图
C.饼图
D.散点图
18.分箱法包含
A.等深分箱
B.众数分箱
C.等宽分箱
D.以上都不对
19.在数据清洁过程中,用于处理噪声值的方法包含
A.盖帽法
B.分箱法
C.聚类法
D.以上都不对
20.定性数据包含
A.有序数据
B.无序数据
C.定类等级数据
D.定性等级数据
三、判别题 (共 5 道试题,共 20 分)
21.回归算法的意图是寻觅决议计划鸿沟
22.描绘性数据剖析归于对比高级杂乱的数据剖析手法
23.盖帽法是将某接连变量均值上下三倍规范差规模外的数值悉数删去
24.定性数据包含离散数据和接连数据
25.等宽分箱方法是指每个分箱中样本数量共同
专业辅导各院校在线、离线考核、形考、终极考核、统考、社会调查报告、毕业论文写作交流等!(非免费)
联系我们:QQ客服:3326650399 439328128 微信客服①:cs80188 微信客服②:cs80189
扫一扫添加我为好友 扫一扫添加我为好友