南开22春学期(高起本1709、全层次1803-2103)《大数据开发技术(二)》在线作业【标准答案】 作者:奥鹏周老师 分类: 南开大学 发布时间: 2022-11-08 18:53 作业答案 联系QQ:3326650399 微信:cs80188 微信二维码 22春学期(高起本1709-1803、全层次1809-2103)《大数据开发技术(二)》在线作业-00003 试卷总分:100 得分:100 一、单选题 (共 25 道试题,共 50 分) 1.Scala函数组合器能够把一个二维的列表打开成一个一维的列表的方法是() A.filter B.flatten C.grouby D.flatmap 2.GraphX中()方法能够查询边信息 A.numVertices B.numEdges C.vertices D.edges 3.PairRDD中()函数能够兼并具有一样键的值 A.mapValues B.groupBy C.groupByKey D.reduceByKey 4.Scala列表方法中将函数应用到列表的一切元素的方法是() A.filter B.foreach C.map D.mkString 5.Spark Streming中()函数当被调用类型别离为(K,V)和(K,W)键值对的2个DStream 时,回来类型为(K,(V,W))键值对的一个新 DStream。 A.union B.reduce C.join D.cogroup 6.Scala中假如函数中的每个参数在函数中最多只呈现一次,则能够运用占位符()替代参数。 A.井号 B.下划线 C.斜杠 D.逗号 7.GraphX中graph.edges能够得到() A.极点视图 B.边视图 C.极点与边的三元组全体视图 D.有向图 8.Scala中兼并两个数组的方法是() A.line B.add C.append D.concat 9.Dstream输出操作中()方法将DStream中的内容以文本的方式保留为文这篇文章件 A.print B.saveAsTextFiles C.saveAsObjectFiles D.saveAsHadoopFiles 10.var a=10; for(a<-1 until 20){ println(a); } 共循环了()次 A.10 B.11 C.20 D.19 11.GraphX中()方法能够查询极点信息 A.numVertices B.numEdges C.vertices D.edges 12.以下哪个函数能够求两个RDD交集 () A.union B.substract C.intersection D.cartesian 13.一般状况下,关于迭代次数较多的应用程序,Spark程序在内存中的运转速度是Hadoop MapReduce运转速度的()多倍 A.2 B.10 C.100 D.1000 14.Mllib中metrics.fMeasureByThreshold 表明()目标 A.精确度 B.召回率 C.F值 D.ROC曲线 15.Graph类中假如依据边数据创立图,数据需求变换成RDD[Edge[ED]类型,大概用()方法 A.Graph(vertices,edges, defaultVertexAttr) B.Graph.fromEdges(RDD[Edge[ED]], defaultValue) C.Graph.fromEdgeTuples(rawEdges: RDD[(VertexId, VertexId)], defaultValue,) D.GraphLoader.edgeListFile(sc,filename) 16.Scala中()方法回来一个列表,包括除了最终一个元素之外的其他元素 A.head B.init C.tail D.last 17.以下算法中归于无监督学习算法的是() A.KNN算法 B.逻辑回归 C.随机森林 D.Kmeans 18.Dstream输出操作中()方法将DStream中的内容按对象序列化而且以SequenceFile的格局保留 A.print B.saveAsTextFiles C.saveAsObjectFiles D.saveAsHadoopFiles 19.Scala函数组合器能够对调集中的元素进行分组操作,成果得到的是一个Map的方法是() A.filter B.flatten C.grouby D.flatmap 20.MLlib 中能够调用mllib.tree.DecisionTree 类中的静态方法()练习回归树 A.trainClassifier B.trainRegressor C.LogisticRegressionModel D.LabeledPoint 21.Graph类中假如要直接经过边数据文件创立图,要求数据按空格分隔,大概用()方法 A.Graph(vertices,edges, defaultVertexAttr) B.Graph.fromEdges(RDD[Edge[ED]], defaultValue) C.Graph.fromEdgeTuples(rawEdges: RDD[(VertexId, VertexId)], defaultValue,) D.GraphLoader.edgeListFile(sc,filename) 22.GraphX中()是寄存着寄存极点的RDD A.RDD[Edge] B.EdgeRDD C.RDD[(VertexId,VD)] D.VertexRDD 23.Scala元组的值是经过将单个的值包括在()中构成的 A.小括号 B.中括号 C.大括号 D.尖括号 24.GraphX中()方法能够开释边缓存 A.cache B.presist C.unpersistVertices D.edges.unpersist 25.PairRDD的()方法,能够把两个RDD中键一样的元素组合在一同,兼并为一个RDD。 A.join B.union C.substract D.intersection 二、多选题 (共 10 道试题,共 20 分) 26.Spark SQL读取的数据源撑持() A.Hive表 B.Parquent文件 C.JSON数据 D.关系数据库 27.GraphX中Edge边对象存有()字段 A.srcId B.dstId C.attr D.val 28.以下哪种方法能够让Spark不自界说分区也能对任何类型RDD 简略重分区() A.resetpartition B.repartiton C.Partition D.coalesce 29.Scala函数撑持() A.递归函数 B.高阶函数 C.柯里化 D.匿名函数 30.Scala中运用() 方法来衔接两个调集 A.append B.++ C.concat D.Set.++() 31.Spark撑持运用()语言编写应用 A.Scala B.Python C.Java D.R 32.Scala撑持() A.显式参数 B.隐式参数 C.变换 D.多态方法 33.Spark DataFrame中()方法能够获取若干行数据 A.first B.head C.take D.collect 34.Spark是一个()计算结构 A.疾速 B.散布式 C.可拓展 D.容错 35.Spark DataFrame中()方法能够回来一个List A.collect B.take C.takeAsList D.collectAsList 三、判别题 (共 15 道试题,共 30 分) 36.Scala中Map的isEmpty函数在Map为空时回来false 37.Scala 调集分为可变的和不可以变的调集 38.RDD的flatMap操作是将函数应用于RDD 之中的每一个元素,将回来的迭代器(数组、列表等)中的一切元素构成新的RDD 。 39.Scala函数组合器中foreach和map相似,有回来值 40.Scala中列表是可变的 41.Scala中默许状况下运用的是可变的Map 42.RDD的filter过滤会将回来值为true的过滤掉 43.Scala函数组合器中groupBy是对调集中的元素进行分组操作,成果得到的是一个Map 44.val好像Java里边的非final变量,能够在它的声明周期中被屡次赋值。 45.用户能够在Hadoop YARN上运转Spark 46.RDD的sortBy函数包括参数numPartitions,该参数决议排序后的RDD的分区个数,默许排序后的分区个数和排序之前的个数持平,即为this.partitions.size。 47.Spark GraphX课经过mapVertices[VD2: ClassTag](map: (VertexId, VD) => VD2)完成对极点特点通过变换生成新的图 48.Spark Streming中对DStream的任何操作都会转化成对底层RDDs的操作 49.Spark对只要未曾设置存储等级的RDD才干设置存储等级,设置了存储等级的RDD不能修正其存储等级 50.Scala中++i和i++表明变量i自增1 作业答案 联系QQ:3326650399 微信:cs80188 微信二维码
试卷总分:100 得分:100
一、单选题 (共 25 道试题,共 50 分)
1.Scala函数组合器能够把一个二维的列表打开成一个一维的列表的方法是()
A.filter
B.flatten
C.grouby
D.flatmap
2.GraphX中()方法能够查询边信息
A.numVertices
B.numEdges
C.vertices
D.edges
3.PairRDD中()函数能够兼并具有一样键的值
A.mapValues
B.groupBy
C.groupByKey
D.reduceByKey
4.Scala列表方法中将函数应用到列表的一切元素的方法是()
A.filter
B.foreach
C.map
D.mkString
5.Spark Streming中()函数当被调用类型别离为(K,V)和(K,W)键值对的2个DStream 时,回来类型为(K,(V,W))键值对的一个新 DStream。
A.union
B.reduce
C.join
D.cogroup
6.Scala中假如函数中的每个参数在函数中最多只呈现一次,则能够运用占位符()替代参数。
A.井号
B.下划线
C.斜杠
D.逗号
7.GraphX中graph.edges能够得到()
A.极点视图
B.边视图
C.极点与边的三元组全体视图
D.有向图
8.Scala中兼并两个数组的方法是()
A.line
B.add
C.append
D.concat
9.Dstream输出操作中()方法将DStream中的内容以文本的方式保留为文这篇文章件
A.print
B.saveAsTextFiles
C.saveAsObjectFiles
D.saveAsHadoopFiles
10.var a=10; for(a<-1 until 20){ println(a); } 共循环了()次
A.10
B.11
C.20
D.19
11.GraphX中()方法能够查询极点信息
A.numVertices
B.numEdges
C.vertices
D.edges
12.以下哪个函数能够求两个RDD交集 ()
A.union
B.substract
C.intersection
D.cartesian
13.一般状况下,关于迭代次数较多的应用程序,Spark程序在内存中的运转速度是Hadoop MapReduce运转速度的()多倍
A.2
B.10
C.100
D.1000
14.Mllib中metrics.fMeasureByThreshold 表明()目标
A.精确度
B.召回率
C.F值
D.ROC曲线
15.Graph类中假如依据边数据创立图,数据需求变换成RDD[Edge[ED]类型,大概用()方法
A.Graph(vertices,edges, defaultVertexAttr)
B.Graph.fromEdges(RDD[Edge[ED]], defaultValue)
C.Graph.fromEdgeTuples(rawEdges: RDD[(VertexId, VertexId)], defaultValue,)
D.GraphLoader.edgeListFile(sc,filename)
16.Scala中()方法回来一个列表,包括除了最终一个元素之外的其他元素
A.head
B.init
C.tail
D.last
17.以下算法中归于无监督学习算法的是()
A.KNN算法
B.逻辑回归
C.随机森林
D.Kmeans
18.Dstream输出操作中()方法将DStream中的内容按对象序列化而且以SequenceFile的格局保留
A.print
B.saveAsTextFiles
C.saveAsObjectFiles
D.saveAsHadoopFiles
19.Scala函数组合器能够对调集中的元素进行分组操作,成果得到的是一个Map的方法是()
A.filter
B.flatten
C.grouby
D.flatmap
20.MLlib 中能够调用mllib.tree.DecisionTree 类中的静态方法()练习回归树
A.trainClassifier
B.trainRegressor
C.LogisticRegressionModel
D.LabeledPoint
21.Graph类中假如要直接经过边数据文件创立图,要求数据按空格分隔,大概用()方法
A.Graph(vertices,edges, defaultVertexAttr)
B.Graph.fromEdges(RDD[Edge[ED]], defaultValue)
C.Graph.fromEdgeTuples(rawEdges: RDD[(VertexId, VertexId)], defaultValue,)
D.GraphLoader.edgeListFile(sc,filename)
22.GraphX中()是寄存着寄存极点的RDD
A.RDD[Edge]
B.EdgeRDD
C.RDD[(VertexId,VD)]
D.VertexRDD
23.Scala元组的值是经过将单个的值包括在()中构成的
A.小括号
B.中括号
C.大括号
D.尖括号
24.GraphX中()方法能够开释边缓存
A.cache
B.presist
C.unpersistVertices
D.edges.unpersist
25.PairRDD的()方法,能够把两个RDD中键一样的元素组合在一同,兼并为一个RDD。
A.join
B.union
C.substract
D.intersection
二、多选题 (共 10 道试题,共 20 分)
26.Spark SQL读取的数据源撑持()
A.Hive表
B.Parquent文件
C.JSON数据
D.关系数据库
27.GraphX中Edge边对象存有()字段
A.srcId
B.dstId
C.attr
D.val
28.以下哪种方法能够让Spark不自界说分区也能对任何类型RDD 简略重分区()
A.resetpartition
B.repartiton
C.Partition
D.coalesce
29.Scala函数撑持()
A.递归函数
B.高阶函数
C.柯里化
D.匿名函数
30.Scala中运用() 方法来衔接两个调集
A.append
B.++
C.concat
D.Set.++()
31.Spark撑持运用()语言编写应用
A.Scala
B.Python
C.Java
D.R
32.Scala撑持()
A.显式参数
B.隐式参数
C.变换
D.多态方法
33.Spark DataFrame中()方法能够获取若干行数据
A.first
B.head
C.take
D.collect
34.Spark是一个()计算结构
A.疾速
B.散布式
C.可拓展
D.容错
35.Spark DataFrame中()方法能够回来一个List
A.collect
B.take
C.takeAsList
D.collectAsList
三、判别题 (共 15 道试题,共 30 分)
36.Scala中Map的isEmpty函数在Map为空时回来false
37.Scala 调集分为可变的和不可以变的调集
38.RDD的flatMap操作是将函数应用于RDD 之中的每一个元素,将回来的迭代器(数组、列表等)中的一切元素构成新的RDD 。
39.Scala函数组合器中foreach和map相似,有回来值
40.Scala中列表是可变的
41.Scala中默许状况下运用的是可变的Map
42.RDD的filter过滤会将回来值为true的过滤掉
43.Scala函数组合器中groupBy是对调集中的元素进行分组操作,成果得到的是一个Map
44.val好像Java里边的非final变量,能够在它的声明周期中被屡次赋值。
45.用户能够在Hadoop YARN上运转Spark
46.RDD的sortBy函数包括参数numPartitions,该参数决议排序后的RDD的分区个数,默许排序后的分区个数和排序之前的个数持平,即为this.partitions.size。
47.Spark GraphX课经过mapVertices[VD2: ClassTag](map: (VertexId, VD) => VD2)完成对极点特点通过变换生成新的图
48.Spark Streming中对DStream的任何操作都会转化成对底层RDDs的操作
49.Spark对只要未曾设置存储等级的RDD才干设置存储等级,设置了存储等级的RDD不能修正其存储等级
50.Scala中++i和i++表明变量i自增1
作业答案 联系QQ:3326650399 微信:cs80188