南开22秋学期(高起本1709-1803、全层次1809-2103)《大数据开发技术(二)》在线作业【标准答案】 作者:奥鹏周老师 分类: 南开大学 发布时间: 2022-12-26 09:27 作业答案 联系QQ:3326650399 微信:cs80188 微信二维码 22秋学期(高起本1709-1803、全层次1809-2103)《大数据开发技术(二)》在线作业-00003 试卷总分:100 得分:100 一、单选题 (共 25 道试题,共 50 分) 1.以下算法中归于聚类算法的是() A.KNN算法 B.逻辑回归 C.随机森林 D.Kmeans 2.Spark GraphX中类Graph的reverse方法能够() A.回转图中一切边的方向 B.依照设定条件取出子图 C.取两个图的公共极点和边作为新图,并坚持前一个图极点与边的特点 D.兼并边一样的特点 3.GraphX中()是供给极点的各种操作方法的对象 A.RDD[Edge] B.EdgeRDD C.RDD[(VertexId,VD)] D.VertexRDD 4.Spark Streming中DStream的每个RDD都是由()切割开来的数据集 A.分区 B.一小段时刻 C.数据量 D.随机 5.请问RDD的()操作效果于K-V类型的RDD上,回来指定K的一切V值 A.search B.find C.findByKey D.lookup 6.GraphX中()方法能够查询边信息 A.numVertices B.numEdges C.vertices D.edges 7.Scala源代码被编译成()字节码,所以它能够运转于JVM之上 A.Spark B.Scala C.Java D.JDK 8.Scala中重写一个非笼统方法有必要运用()润饰符。 A.extends B.override C.extend D.overrides 9.Graph类中假如要直接经过边数据文件创立图,要求数据按空格分隔,大概用()方法 A.Graph(vertices,edges, defaultVertexAttr) B.Graph.fromEdges(RDD[Edge[ED]], defaultValue) C.Graph.fromEdgeTuples(rawEdges: RDD[(VertexId, VertexId)], defaultValue,) D.GraphLoader.edgeListFile(sc,filename) 10.Scala列表方法中经过给定的方法将一切元素从头计算的方法是() A.filter B.foreach C.map D.mkString 11.Mllib中线性会馆算法中的参数stepSize表明() A.要运转的迭代次数 B.梯度降低的步长 C.是不是给数据加搅扰特征或许误差特征 D.Lasso 和ridge 的规范化参数 12.Scala列表方法中丢掉前n个元素,并回来新列表的方法是() A.drop B.head C.filter D.init 13.以下算法中归于无监督学习算法的是() A.KNN算法 B.逻辑回归 C.随机森林 D.Kmeans 14.var a=10; do{ a+=1; }while(a<20) 共循环了()次 A.9 B.10 C.11 D.12 15.Scala中假如函数无回来值,则函数回来类型为() A.NULL B.Void C.Nothing D.Unit 16.var a=10; while(a<20){ a+=1; } 共循环了()次 A.9 B.10 C.11 D.12 17.递归函数意味着函数能够调用它() A.其他函数 B.主函数 C.子函数 D.本身 18.Scala函数组合器能够接纳一个能够处理嵌套列表的函数,然后把回来成果衔接起来的方法是() A.map B.foreach C.flatten D.flatmap 19.Spark中DataFrame的()方法是进行排序查询 A.order by B.group by C.select by D.sort by 20.Spark Streming中()函数能够对统计DStream中每个RDD包括的元素的个数,得到一个新的DStream A.count B.union C.length D.reduce 21.Spark Streming中()函数能够对源DStream中的每一个元素应用func方法进行计算,假如func函数回来成果为true,则保存该元素,不然丢掉该元素,回来一个新的Dstream A.map B.flatMap C.filter D.union 22.()是AMPLab发布的一个R开发包,使得R脱节单机运转的命运,能够作为Spark的Job运转在集群上 A.SparkR B.BlinkDB C.GraphX D.Mllib 23.Graph类中假如依据边数据创立图,数据需求变换成RDD[Edge[ED]类型,大概用()方法 A.Graph(vertices,edges, defaultVertexAttr) B.Graph.fromEdges(RDD[Edge[ED]], defaultValue) C.Graph.fromEdgeTuples(rawEdges: RDD[(VertexId, VertexId)], defaultValue,) D.GraphLoader.edgeListFile(sc,filename) 24.Scala函数组合器能够过滤移除使得传入的函数的回来值为false的元素的方法是() A.filter B.flatten C.grouby D.flatmap 25.以下哪个函数能够求两个RDD交集 () A.union B.substract C.intersection D.cartesian 二、多选题 (共 10 道试题,共 20 分) 26.Spark Streaming可以处理来自()的数据 A.Kafka B.Flume C.Twitter D.ZeroMQ 27.Scala系统撑持()作为对象成员 A.通用类 B.内部类 C.笼统类 D.复合类 28.Scala中能够用()方法来衔接两个或多个列表 A.:: B.#::: C.List.:::() D.List.concat() 29.Scala中结构列表的两个根本单位是 () A.Nil B.Nill C.:: D.List 30.Spark创立DataFrame对象方法有() A.结构化数据文件 B.外部数据库 C.RDD D.Hive中的表 31.Spark的RDD耐久化操作有()方法 A.cache B.presist C.storage D.long 32.TF-IDF中TF指的是() A.词频 B.词在文档中呈现的次数 C.逆文档概率 D.词在文档会集呈现的概率 E.词在文档会集呈现的概率 33.MapReudce不合适()使命 A.大数据计算 B.迭代 C.交互式 D.离线剖析 34.Spark撑持的文件格局包含() A.文这篇文章件 B.JSON C.CSV D.SequenceFile 35.Spark Streaming的特色有() A.单极性 B.可弹性 C.高吞吐量 D.容错才能强 三、判别题 (共 15 道试题,共 30 分) 36.RDD的sortBy排序默许是升序 37.RDD的flatMap操作是将函数应用于RDD 之中的每一个元素,将回来的迭代器(数组、列表等)中的一切元素构成新的RDD 。 38.Scala中Map的isEmpty函数在Map为空时回来false 39.Spark中DataFrame 的查询操作也是一个懒操作, 只是生成一个查询方案, 只要触发Action 操作才会进行计算并回来查询成果。 40.RDD中的collect 函数是一个举动操作,把RDD 一切元素变换成数组并回来到Driver 端,适用于大数据处理后的回来。 41.RDD是一个可读写的数据结构 42.RDD中zip操作要求两个RDD的partition数量以及元素数量都一样 43.RDD中join操作最终只回来两个RDD 都存在的键的衔接成果。 44.Spark替代Hadoop只是是替代MapReduce这种计算结构,Spark能够替代HDFS吗 45.SparkContext类中makeRDD方法不可以将单机数据创立为散布式RDD 46.Scala是Scalable Language的简写,是一门多范式的编程语言,设计初衷是不包含面向对象编程的特性。 47.PairRDD中groupBy(func)func回来key,传入的RDD的各个元素依据这个key进行分组。 48.PairRDD中mapValues是对于键值对(Key,Value)类型的数据中的key和Value进行Map操作 49.MLlib由一些通用的学习算法和东西构成,包含分类、回归、聚类、协同过滤、降维等,一起还包含底层的优化原语和高层的管道API。 50.RDD的变换操作是用于触发变换操作的操作,这个时分才会真实开端进行计算。 作业答案 联系QQ:3326650399 微信:cs80188 微信二维码
试卷总分:100 得分:100
一、单选题 (共 25 道试题,共 50 分)
1.以下算法中归于聚类算法的是()
A.KNN算法
B.逻辑回归
C.随机森林
D.Kmeans
2.Spark GraphX中类Graph的reverse方法能够()
A.回转图中一切边的方向
B.依照设定条件取出子图
C.取两个图的公共极点和边作为新图,并坚持前一个图极点与边的特点
D.兼并边一样的特点
3.GraphX中()是供给极点的各种操作方法的对象
A.RDD[Edge]
B.EdgeRDD
C.RDD[(VertexId,VD)]
D.VertexRDD
4.Spark Streming中DStream的每个RDD都是由()切割开来的数据集
A.分区
B.一小段时刻
C.数据量
D.随机
5.请问RDD的()操作效果于K-V类型的RDD上,回来指定K的一切V值
A.search
B.find
C.findByKey
D.lookup
6.GraphX中()方法能够查询边信息
A.numVertices
B.numEdges
C.vertices
D.edges
7.Scala源代码被编译成()字节码,所以它能够运转于JVM之上
A.Spark
B.Scala
C.Java
D.JDK
8.Scala中重写一个非笼统方法有必要运用()润饰符。
A.extends
B.override
C.extend
D.overrides
9.Graph类中假如要直接经过边数据文件创立图,要求数据按空格分隔,大概用()方法
A.Graph(vertices,edges, defaultVertexAttr)
B.Graph.fromEdges(RDD[Edge[ED]], defaultValue)
C.Graph.fromEdgeTuples(rawEdges: RDD[(VertexId, VertexId)], defaultValue,)
D.GraphLoader.edgeListFile(sc,filename)
10.Scala列表方法中经过给定的方法将一切元素从头计算的方法是()
A.filter
B.foreach
C.map
D.mkString
11.Mllib中线性会馆算法中的参数stepSize表明()
A.要运转的迭代次数
B.梯度降低的步长
C.是不是给数据加搅扰特征或许误差特征
D.Lasso 和ridge 的规范化参数
12.Scala列表方法中丢掉前n个元素,并回来新列表的方法是()
A.drop
B.head
C.filter
D.init
13.以下算法中归于无监督学习算法的是()
A.KNN算法
B.逻辑回归
C.随机森林
D.Kmeans
14.var a=10; do{ a+=1; }while(a<20) 共循环了()次
A.9
B.10
C.11
D.12
15.Scala中假如函数无回来值,则函数回来类型为()
A.NULL
B.Void
C.Nothing
D.Unit
16.var a=10; while(a<20){ a+=1; } 共循环了()次
A.9
B.10
C.11
D.12
17.递归函数意味着函数能够调用它()
A.其他函数
B.主函数
C.子函数
D.本身
18.Scala函数组合器能够接纳一个能够处理嵌套列表的函数,然后把回来成果衔接起来的方法是()
A.map
B.foreach
C.flatten
D.flatmap
19.Spark中DataFrame的()方法是进行排序查询
A.order by
B.group by
C.select by
D.sort by
20.Spark Streming中()函数能够对统计DStream中每个RDD包括的元素的个数,得到一个新的DStream
A.count
B.union
C.length
D.reduce
21.Spark Streming中()函数能够对源DStream中的每一个元素应用func方法进行计算,假如func函数回来成果为true,则保存该元素,不然丢掉该元素,回来一个新的Dstream
A.map
B.flatMap
C.filter
D.union
22.()是AMPLab发布的一个R开发包,使得R脱节单机运转的命运,能够作为Spark的Job运转在集群上
A.SparkR
B.BlinkDB
C.GraphX
D.Mllib
23.Graph类中假如依据边数据创立图,数据需求变换成RDD[Edge[ED]类型,大概用()方法
A.Graph(vertices,edges, defaultVertexAttr)
B.Graph.fromEdges(RDD[Edge[ED]], defaultValue)
C.Graph.fromEdgeTuples(rawEdges: RDD[(VertexId, VertexId)], defaultValue,)
D.GraphLoader.edgeListFile(sc,filename)
24.Scala函数组合器能够过滤移除使得传入的函数的回来值为false的元素的方法是()
A.filter
B.flatten
C.grouby
D.flatmap
25.以下哪个函数能够求两个RDD交集 ()
A.union
B.substract
C.intersection
D.cartesian
二、多选题 (共 10 道试题,共 20 分)
26.Spark Streaming可以处理来自()的数据
A.Kafka
B.Flume
C.Twitter
D.ZeroMQ
27.Scala系统撑持()作为对象成员
A.通用类
B.内部类
C.笼统类
D.复合类
28.Scala中能够用()方法来衔接两个或多个列表
A.::
B.#:::
C.List.:::()
D.List.concat()
29.Scala中结构列表的两个根本单位是 ()
A.Nil
B.Nill
C.::
D.List
30.Spark创立DataFrame对象方法有()
A.结构化数据文件
B.外部数据库
C.RDD
D.Hive中的表
31.Spark的RDD耐久化操作有()方法
A.cache
B.presist
C.storage
D.long
32.TF-IDF中TF指的是()
A.词频
B.词在文档中呈现的次数
C.逆文档概率
D.词在文档会集呈现的概率
E.词在文档会集呈现的概率
33.MapReudce不合适()使命
A.大数据计算
B.迭代
C.交互式
D.离线剖析
34.Spark撑持的文件格局包含()
A.文这篇文章件
B.JSON
C.CSV
D.SequenceFile
35.Spark Streaming的特色有()
A.单极性
B.可弹性
C.高吞吐量
D.容错才能强
三、判别题 (共 15 道试题,共 30 分)
36.RDD的sortBy排序默许是升序
37.RDD的flatMap操作是将函数应用于RDD 之中的每一个元素,将回来的迭代器(数组、列表等)中的一切元素构成新的RDD 。
38.Scala中Map的isEmpty函数在Map为空时回来false
39.Spark中DataFrame 的查询操作也是一个懒操作, 只是生成一个查询方案, 只要触发Action 操作才会进行计算并回来查询成果。
40.RDD中的collect 函数是一个举动操作,把RDD 一切元素变换成数组并回来到Driver 端,适用于大数据处理后的回来。
41.RDD是一个可读写的数据结构
42.RDD中zip操作要求两个RDD的partition数量以及元素数量都一样
43.RDD中join操作最终只回来两个RDD 都存在的键的衔接成果。
44.Spark替代Hadoop只是是替代MapReduce这种计算结构,Spark能够替代HDFS吗
45.SparkContext类中makeRDD方法不可以将单机数据创立为散布式RDD
46.Scala是Scalable Language的简写,是一门多范式的编程语言,设计初衷是不包含面向对象编程的特性。
47.PairRDD中groupBy(func)func回来key,传入的RDD的各个元素依据这个key进行分组。
48.PairRDD中mapValues是对于键值对(Key,Value)类型的数据中的key和Value进行Map操作
49.MLlib由一些通用的学习算法和东西构成,包含分类、回归、聚类、协同过滤、降维等,一起还包含底层的优化原语和高层的管道API。
50.RDD的变换操作是用于触发变换操作的操作,这个时分才会真实开端进行计算。
作业答案 联系QQ:3326650399 微信:cs80188