[南开大学]20秋学期《网络爬虫与信息提取》在线作业

作者:奥鹏周老师 分类: 南开大学 发布时间: 2020-10-20 16:06
答案来历:熊猫奥鹏(www.188open.com)-[南开大学]20秋学期(1709、1803、1809、1903、1909、2003、2009 )《网络爬虫与信息获取》在线作业
试卷总分:100 得分:100
第1题,当爬虫创立好了之后,能够运用"scrapy()" 指令运转爬虫。
A、startup
B、starwar
C、drawl
D、crawl
正确答案:


第2题,以下哪个指令是仿制文件或许文件夹指令()
A、curl
B、tar -zxvf
C、mkdir
D、cp
正确答案:


第3题,Python中哪种容器一旦生成果不能修正
A、列表
B、元组
C、字典
D、调集
正确答案:


第4题,在Scrapy的目录下,哪个文件担任界说需求爬取的数据?()
A、spiders文件夹
B、item.py
C、pipeline.py
D、settings.py
正确答案:


答案来历:熊猫奥鹏(www.188open.com),运用UI Automatorr依据坐标来滑动桌面的操作是得到相应控件后运用指令()
A、swipe
B、move
C、scroll
D、fly
正确答案:


第6题,xpath中extract方法回来值类型是()
A、列表
B、元组
C、字典
D、调集
正确答案:


第7题,以下哪个指令是linux下解紧缩指令()
A、curl
B、tar -zxvf
C、mkdir
D、cp
正确答案:


第8题,Python中界说函数关键词为()
A、def
B、define
C、func
D、function
正确答案:


第9题,下列说法错误的是()
A、小程序的恳求极端简略,根本上没有验证信息
B、用Python来恳求小程序的后台接口然后获取数据,比恳求异步加载网页的后台接口要杂乱许多。
C、假如方针网站有微信小程序,那么必定要优先查询能否经过小程序的接口来抓取数据。
D、小程序的反爬虫才能比网页版的低许多。运用小程序的接口来爬数据,能极大进步爬虫的开发功率。
正确答案:


答案来历:熊猫奥鹏(www.188open.com),当需求把Python里边的数据发送给网页时,应先将其变换成()
A、Json字符串
B、GET
C、POST
D、Request
正确答案:


第11题,Redis中从调集中检查有多少个值,用关键词()
A、scard
B、card
C、count
D、distinct
正确答案:


答案来历:熊猫奥鹏(www.188open.com),Python中把调集变换为列表需求运用##函数
A、set
B、list
C、convert
D、change
正确答案:


第13题,lxml库中etree模块的()方法把Selector对象变换为bytes型的源代码数据
A、etree.tostring
B、etree.convertBytes
C、etree.toBytes
D、etree.convertstring
正确答案:


第14题,Python操作CSV文件可经过()容器的方法操作单元格
A、列表
B、元组
C、字典
D、调集
正确答案:


答案来历:熊猫奥鹏(www.188open.com),Python在Windows途径字符串左引号的左面加()符号来防止反斜杠疑问
A、s
B、c
C、d
D、r
正确答案:


第16题,假如运用Python的数据结构来做类推的话,MongoDB中库适当于一个()
A、列表
B、元组
C、字典
D、调集
正确答案:


第17题,HTTP常用状况码标明效劳器正忙的是()
A、500
B、503
C、403
D、404
正确答案:


第18题,运用xpath方法的回来类型是()
A、列表
B、元组
C、字典
D、调集
正确答案:


第19题,下面Python代码输出为():
def default_para_trap(para=[], value=0):para.append(value)return paraprint(\'榜首步:{}\'.format(default_para_trap(value=100)))print(\'第二步:{}\'.format(default_para_trap(value=50)))
A、榜首步:[100]
第二步:[100,50]
B、榜首步:[100]
第二步:[50]
C、榜首步:[100]
第二步:[]
D、榜首步:[100]
第二步:[100]
正确答案:


答案来历:熊猫奥鹏(www.188open.com),下面Python代码输出为():
def default_para_without_trap(para=[], value=0):if not para:para = []para.append(value)return para
print(\'榜首步:{}\'.format(default_para_trap(value=100)))print(\'第二步:{}\'.format(default_para_trap(value=50)))
A、榜首步:[100]
第二步:[100,50]
B、榜首步:[100]
第二步:[50]
C、榜首步:[100]
第二步:[]
D、榜首步:[100]
第二步:[100]
正确答案:


第21题,运用Selennium获取网页中元素的方法有
A、find_element_by_name
B、find_element_by_id
C、find_elements_by_name
D、find_elements_by_id
正确答案:,B,C,D


第22题,下列关于在IOS上装备charles的说法正确的是()
A、不一样ios设备之间会有对比大的不同,所以装备的时分需求找到对应的装置证书的进口。
B、手机和电脑需求在同一个局域网下。
C、HTTP署理能够运用"自动"选项。
D、装置好证书今后,翻开iOS设备上的任何一个App,能够看到Charles中稀有据包在活动
正确答案:,D


第23题,Python中有哪些完成多线程方法()
A、multiprocess.dummy
B、threading.Thread
C、process
D、PyMongoDB
正确答案:,B


第24题,Redis中的值能够撑持()
A、列表
B、哈希
C、调集
D、有序调集
正确答案:,B,C,D


答案来历:熊猫奥鹏(www.188open.com),cookies的缺陷是
A、完成自动登录
B、盯梢用户状况
C、http中明文传输
D、添加http恳求的流量
正确答案:,D


第26题,Python中经过Key来从字典object中读取对应的Value的方法有()
A、object[key]
B、object.get(key)
C、object.pop(key)
D、object.pop()
正确答案:,B


第27题,为知道决爬虫代码自身的错误导致的反常,能够选用下列哪些方法
A、细心检查代码
B、开发爬虫中心件
C、开发下载器中心件
D、等候
正确答案:,B


第28题,Python中()与元组由相似的数据读取方法
A、字符串
B、列表
C、字典
D、调集
正确答案:,B


第29题,HTTP常用状况码标明恳求被正常处理的有()
A、200
B、301
C、302
D、204
正确答案:,D


答案来历:熊猫奥鹏(www.188open.com),PyMongo更新操作有()
A、update
B、update_all
C、update_one
D、update_many
正确答案:,D


第31题,在发送恳求时需求留意requests提交的恳求头不能与阅读器的恳求头共同,由于这样才干躲藏好自己到达获取数据的意图
T、对
F、错
正确答案:F


第32题,假如方针网站自身即是供给大众查询效劳的网站,那么运用爬虫是合法合规的。
T、对
F、错
更新答案联系微信或QQ 熊猫奥鹏(www.188open.com)


第33题,Redis中运用lrange读取数据后数据也会删去
T、对
F、错
正确答案:


第34题,Redis刺进数据都是刺进到列表右侧,因而读取数据也是从右侧读取
T、对
F、错
正确答案:F


第35题,假如经过爬虫抓取某公司网站的揭露数据,剖析今后发现这个公司成绩十分好,所以买入该公司股市并赚了一笔钱。这是合法的。
T、对
F、错
更新答案联系微信或QQ 熊猫奥鹏(www.188open.com)


第36题,HTTP状况码中303状况码清晰表明客户端应当选用POST方法获取资源
T、对
F、错
正确答案:F


第37题,process_spider_output(response, result, output)是鄙人载器中心件处理完结后,立刻要进入某个回调函数parse_xxx()前调用
T、对
F、错
正确答案:F


第38题,通用查找引擎的方针是尽能够大的网络掩盖率,查找引擎效劳器资源与网络数据资源相互匹配
T、对
F、错
正确答案:F


第39题,在运用多线程处理疑问时,线程池设置越大越好
T、对
F、错
正确答案:F


第40题,需求登录的网站一般经过GET恳求就能够完成登录。
T、对
F、错
正确答案:F


第41题,process_spider_input(response, spider)是在爬虫运转yield item或许yield scrapy.Request()的时分调用
T、对
F、错
正确答案:F


第42题,Python中函数回来值的个数能够是多个
T、对
F、错
正确答案:


第43题,爬虫的源代码经过揭露不会对被爬虫网站形成影响
T、对
F、错
正确答案:F


第44题,通用网络爬虫一般选用串行工作方法
T、对
F、错
正确答案:F


第45题,尽管MongoDB比较于MySQL来说,速度马上许多,可是频频读写MongoDB仍是会严峻拖慢程序的履行速度。
T、对
F、错
更新答案联系微信或QQ 熊猫奥鹏(www.188open.com)


第46题,爬虫中心件的激活需求别的写一个文件来进行
T、对
F、错
正确答案:F


第47题,在Linux的终端运用apt-get指令装置一系列依靠库时,其间假如存在有现已装置的库,会掩盖掉之前的库从头装置
T、对
F、错
正确答案:F


第48题,Redis中查询列表长度指令llen中l代表left,即从左边开端数
T、对
F、错
正确答案:


第49题,Charles能截获HTTP和HTTPS的数据包,假如网站运用websocket就能够截获。
T、对
F、错
正确答案:F


答案来历:熊猫奥鹏(www.188open.com),mitmproxy的强壮之处在于它还自带一个mitmdump指令。这个指令能够用来运转契合必定规矩的Python脚本
T、对
F、错
更新答案联系微信或QQ 熊猫奥鹏(www.188open.com)

作业答案 联系QQ:3326650399 微信:cs80188