南开22秋学期(高起本1709-1803、全层次1809-2103)《大数据开发技术(二)》在线作业【标准答案】

作者:奥鹏周老师 分类: 南开大学 发布时间: 2022-12-26 09:27

作业答案 联系QQ:3326650399 微信:cs80188

22秋学期(高起本1709-1803、全层次1809-2103)《大数据开发技术(二)》在线作业-00003

试卷总分:100 得分:100

一、单选题 (共 25 道试题,共 50 分)

1.以下算法中归于聚类算法的是()

A.KNN算法

B.逻辑回归

C.随机森林

D.Kmeans



2.Spark GraphX中类Graph的reverse方法能够()

A.回转图中一切边的方向

B.依照设定条件取出子图

C.取两个图的公共极点和边作为新图,并坚持前一个图极点与边的特点

D.兼并边一样的特点



3.GraphX中()是供给极点的各种操作方法的对象

A.RDD[Edge]

B.EdgeRDD

C.RDD[(VertexId,VD)]

D.VertexRDD



4.Spark Streming中DStream的每个RDD都是由()切割开来的数据集

A.分区

B.一小段时刻

C.数据量

D.随机



5.请问RDD的()操作效果于K-V类型的RDD上,回来指定K的一切V值

A.search

B.find

C.findByKey

D.lookup



6.GraphX中()方法能够查询边信息

A.numVertices

B.numEdges

C.vertices

D.edges



7.Scala源代码被编译成()字节码,所以它能够运转于JVM之上

A.Spark

B.Scala

C.Java

D.JDK



8.Scala中重写一个非笼统方法有必要运用()润饰符。

A.extends

B.override

C.extend

D.overrides



9.Graph类中假如要直接经过边数据文件创立图,要求数据按空格分隔,大概用()方法

A.Graph(vertices,edges, defaultVertexAttr)

B.Graph.fromEdges(RDD[Edge[ED]], defaultValue)

C.Graph.fromEdgeTuples(rawEdges: RDD[(VertexId, VertexId)], defaultValue,)

D.GraphLoader.edgeListFile(sc,filename)



10.Scala列表方法中经过给定的方法将一切元素从头计算的方法是()

A.filter

B.foreach

C.map

D.mkString



11.Mllib中线性会馆算法中的参数stepSize表明()

A.要运转的迭代次数

B.梯度降低的步长

C.是不是给数据加搅扰特征或许误差特征

D.Lasso 和ridge 的规范化参数



12.Scala列表方法中丢掉前n个元素,并回来新列表的方法是()

A.drop

B.head

C.filter

D.init



13.以下算法中归于无监督学习算法的是()

A.KNN算法

B.逻辑回归

C.随机森林

D.Kmeans



14.var a=10; do{ a+=1; }while(a<20) 共循环了()次

A.9

B.10

C.11

D.12



15.Scala中假如函数无回来值,则函数回来类型为()

A.NULL

B.Void

C.Nothing

D.Unit



16.var a=10; while(a<20){ a+=1; } 共循环了()次

A.9

B.10

C.11

D.12



17.递归函数意味着函数能够调用它()

A.其他函数

B.主函数

C.子函数

D.本身



18.Scala函数组合器能够接纳一个能够处理嵌套列表的函数,然后把回来成果衔接起来的方法是()

A.map

B.foreach

C.flatten

D.flatmap



19.Spark中DataFrame的()方法是进行排序查询

A.order by

B.group by

C.select by

D.sort by



20.Spark Streming中()函数能够对统计DStream中每个RDD包括的元素的个数,得到一个新的DStream

A.count

B.union

C.length

D.reduce



21.Spark Streming中()函数能够对源DStream中的每一个元素应用func方法进行计算,假如func函数回来成果为true,则保存该元素,不然丢掉该元素,回来一个新的Dstream

A.map

B.flatMap

C.filter

D.union



22.()是AMPLab发布的一个R开发包,使得R脱节单机运转的命运,能够作为Spark的Job运转在集群上

A.SparkR

B.BlinkDB

C.GraphX

D.Mllib



23.Graph类中假如依据边数据创立图,数据需求变换成RDD[Edge[ED]类型,大概用()方法

A.Graph(vertices,edges, defaultVertexAttr)

B.Graph.fromEdges(RDD[Edge[ED]], defaultValue)

C.Graph.fromEdgeTuples(rawEdges: RDD[(VertexId, VertexId)], defaultValue,)

D.GraphLoader.edgeListFile(sc,filename)



24.Scala函数组合器能够过滤移除使得传入的函数的回来值为false的元素的方法是()

A.filter

B.flatten

C.grouby

D.flatmap



25.以下哪个函数能够求两个RDD交集 ()

A.union

B.substract

C.intersection

D.cartesian



二、多选题 (共 10 道试题,共 20 分)

26.Spark Streaming可以处理来自()的数据

A.Kafka

B.Flume

C.Twitter

D.ZeroMQ



27.Scala系统撑持()作为对象成员

A.通用类

B.内部类

C.笼统类

D.复合类



28.Scala中能够用()方法来衔接两个或多个列表

A.::

B.#:::

C.List.:::()

D.List.concat()



29.Scala中结构列表的两个根本单位是 ()

A.Nil

B.Nill

C.::

D.List



30.Spark创立DataFrame对象方法有()

A.结构化数据文件

B.外部数据库

C.RDD

D.Hive中的表



31.Spark的RDD耐久化操作有()方法

A.cache

B.presist

C.storage

D.long



32.TF-IDF中TF指的是()

A.词频

B.词在文档中呈现的次数

C.逆文档概率

D.词在文档会集呈现的概率

E.词在文档会集呈现的概率



33.MapReudce不合适()使命

A.大数据计算

B.迭代

C.交互式

D.离线剖析



34.Spark撑持的文件格局包含()

A.文这篇文章件

B.JSON

C.CSV

D.SequenceFile



35.Spark Streaming的特色有()

A.单极性

B.可弹性

C.高吞吐量

D.容错才能强



三、判别题 (共 15 道试题,共 30 分)

36.RDD的sortBy排序默许是升序



37.RDD的flatMap操作是将函数应用于RDD 之中的每一个元素,将回来的迭代器(数组、列表等)中的一切元素构成新的RDD 。



38.Scala中Map的isEmpty函数在Map为空时回来false



39.Spark中DataFrame 的查询操作也是一个懒操作, 只是生成一个查询方案, 只要触发Action 操作才会进行计算并回来查询成果。



40.RDD中的collect 函数是一个举动操作,把RDD 一切元素变换成数组并回来到Driver 端,适用于大数据处理后的回来。



41.RDD是一个可读写的数据结构



42.RDD中zip操作要求两个RDD的partition数量以及元素数量都一样



43.RDD中join操作最终只回来两个RDD 都存在的键的衔接成果。



44.Spark替代Hadoop只是是替代MapReduce这种计算结构,Spark能够替代HDFS吗



45.SparkContext类中makeRDD方法不可以将单机数据创立为散布式RDD



46.Scala是Scalable Language的简写,是一门多范式的编程语言,设计初衷是不包含面向对象编程的特性。



47.PairRDD中groupBy(func)func回来key,传入的RDD的各个元素依据这个key进行分组。



48.PairRDD中mapValues是对于键值对(Key,Value)类型的数据中的key和Value进行Map操作



49.MLlib由一些通用的学习算法和东西构成,包含分类、回归、聚类、协同过滤、降维等,一起还包含底层的优化原语和高层的管道API。



50.RDD的变换操作是用于触发变换操作的操作,这个时分才会真实开端进行计算。

作业答案 联系QQ:3326650399 微信:cs80188