南开22春学期(高起本1709、全层次1803-2103)《大数据开发技术(二)》在线作业【标准答案】

作者:奥鹏周老师 分类: 南开大学 发布时间: 2022-11-08 18:53

作业答案 联系QQ:3326650399 微信:cs80188

22春学期(高起本1709-1803、全层次1809-2103)《大数据开发技术(二)》在线作业-00003

试卷总分:100 得分:100

一、单选题 (共 25 道试题,共 50 分)

1.Scala函数组合器能够把一个二维的列表打开成一个一维的列表的方法是()

A.filter

B.flatten

C.grouby

D.flatmap



2.GraphX中()方法能够查询边信息

A.numVertices

B.numEdges

C.vertices

D.edges



3.PairRDD中()函数能够兼并具有一样键的值

A.mapValues

B.groupBy

C.groupByKey

D.reduceByKey



4.Scala列表方法中将函数应用到列表的一切元素的方法是()

A.filter

B.foreach

C.map

D.mkString



5.Spark Streming中()函数当被调用类型别离为(K,V)和(K,W)键值对的2个DStream 时,回来类型为(K,(V,W))键值对的一个新 DStream。

A.union

B.reduce

C.join

D.cogroup



6.Scala中假如函数中的每个参数在函数中最多只呈现一次,则能够运用占位符()替代参数。

A.井号

B.下划线

C.斜杠

D.逗号



7.GraphX中graph.edges能够得到()

A.极点视图

B.边视图

C.极点与边的三元组全体视图

D.有向图



8.Scala中兼并两个数组的方法是()

A.line

B.add

C.append

D.concat



9.Dstream输出操作中()方法将DStream中的内容以文本的方式保留为文这篇文章件

A.print

B.saveAsTextFiles

C.saveAsObjectFiles

D.saveAsHadoopFiles



10.var a=10; for(a<-1 until 20){ println(a); } 共循环了()次

A.10

B.11

C.20

D.19



11.GraphX中()方法能够查询极点信息

A.numVertices

B.numEdges

C.vertices

D.edges



12.以下哪个函数能够求两个RDD交集 ()

A.union

B.substract

C.intersection

D.cartesian



13.一般状况下,关于迭代次数较多的应用程序,Spark程序在内存中的运转速度是Hadoop MapReduce运转速度的()多倍

A.2

B.10

C.100

D.1000



14.Mllib中metrics.fMeasureByThreshold 表明()目标

A.精确度

B.召回率

C.F值

D.ROC曲线



15.Graph类中假如依据边数据创立图,数据需求变换成RDD[Edge[ED]类型,大概用()方法

A.Graph(vertices,edges, defaultVertexAttr)

B.Graph.fromEdges(RDD[Edge[ED]], defaultValue)

C.Graph.fromEdgeTuples(rawEdges: RDD[(VertexId, VertexId)], defaultValue,)

D.GraphLoader.edgeListFile(sc,filename)



16.Scala中()方法回来一个列表,包括除了最终一个元素之外的其他元素

A.head

B.init

C.tail

D.last



17.以下算法中归于无监督学习算法的是()

A.KNN算法

B.逻辑回归

C.随机森林

D.Kmeans



18.Dstream输出操作中()方法将DStream中的内容按对象序列化而且以SequenceFile的格局保留

A.print

B.saveAsTextFiles

C.saveAsObjectFiles

D.saveAsHadoopFiles



19.Scala函数组合器能够对调集中的元素进行分组操作,成果得到的是一个Map的方法是()

A.filter

B.flatten

C.grouby

D.flatmap



20.MLlib 中能够调用mllib.tree.DecisionTree 类中的静态方法()练习回归树

A.trainClassifier

B.trainRegressor

C.LogisticRegressionModel

D.LabeledPoint



21.Graph类中假如要直接经过边数据文件创立图,要求数据按空格分隔,大概用()方法

A.Graph(vertices,edges, defaultVertexAttr)

B.Graph.fromEdges(RDD[Edge[ED]], defaultValue)

C.Graph.fromEdgeTuples(rawEdges: RDD[(VertexId, VertexId)], defaultValue,)

D.GraphLoader.edgeListFile(sc,filename)



22.GraphX中()是寄存着寄存极点的RDD

A.RDD[Edge]

B.EdgeRDD

C.RDD[(VertexId,VD)]

D.VertexRDD



23.Scala元组的值是经过将单个的值包括在()中构成的

A.小括号

B.中括号

C.大括号

D.尖括号



24.GraphX中()方法能够开释边缓存

A.cache

B.presist

C.unpersistVertices

D.edges.unpersist



25.PairRDD的()方法,能够把两个RDD中键一样的元素组合在一同,兼并为一个RDD。

A.join

B.union

C.substract

D.intersection



二、多选题 (共 10 道试题,共 20 分)

26.Spark SQL读取的数据源撑持()

A.Hive表

B.Parquent文件

C.JSON数据

D.关系数据库



27.GraphX中Edge边对象存有()字段

A.srcId

B.dstId

C.attr

D.val



28.以下哪种方法能够让Spark不自界说分区也能对任何类型RDD 简略重分区()

A.resetpartition

B.repartiton

C.Partition

D.coalesce



29.Scala函数撑持()

A.递归函数

B.高阶函数

C.柯里化

D.匿名函数



30.Scala中运用() 方法来衔接两个调集

A.append

B.++

C.concat

D.Set.++()



31.Spark撑持运用()语言编写应用

A.Scala

B.Python

C.Java

D.R



32.Scala撑持()

A.显式参数

B.隐式参数

C.变换

D.多态方法



33.Spark DataFrame中()方法能够获取若干行数据

A.first

B.head

C.take

D.collect



34.Spark是一个()计算结构

A.疾速

B.散布式

C.可拓展

D.容错



35.Spark DataFrame中()方法能够回来一个List

A.collect

B.take

C.takeAsList

D.collectAsList



三、判别题 (共 15 道试题,共 30 分)

36.Scala中Map的isEmpty函数在Map为空时回来false



37.Scala 调集分为可变的和不可以变的调集



38.RDD的flatMap操作是将函数应用于RDD 之中的每一个元素,将回来的迭代器(数组、列表等)中的一切元素构成新的RDD 。



39.Scala函数组合器中foreach和map相似,有回来值



40.Scala中列表是可变的



41.Scala中默许状况下运用的是可变的Map



42.RDD的filter过滤会将回来值为true的过滤掉



43.Scala函数组合器中groupBy是对调集中的元素进行分组操作,成果得到的是一个Map



44.val好像Java里边的非final变量,能够在它的声明周期中被屡次赋值。



45.用户能够在Hadoop YARN上运转Spark



46.RDD的sortBy函数包括参数numPartitions,该参数决议排序后的RDD的分区个数,默许排序后的分区个数和排序之前的个数持平,即为this.partitions.size。



47.Spark GraphX课经过mapVertices[VD2: ClassTag](map: (VertexId, VD) => VD2)完成对极点特点通过变换生成新的图



48.Spark Streming中对DStream的任何操作都会转化成对底层RDDs的操作



49.Spark对只要未曾设置存储等级的RDD才干设置存储等级,设置了存储等级的RDD不能修正其存储等级



50.Scala中++i和i++表明变量i自增1

作业答案 联系QQ:3326650399 微信:cs80188