[南开大学(本部)]20秋学期《网络爬虫与信息提取》在线作业

作者:奥鹏周老师 分类: 南开大学 发布时间: 2020-10-21 22:08
答案来历:熊猫奥鹏(www.188open.com)-[南开大学(本部)]20秋学期(1709、1803、1809、1903、1909、2003、2009 )《网络爬虫与信息获取》在线作业
试卷总分:100 得分:100
第1题,()是Scrapy官方开发的,用来布置、运转和管理Scrapy爬虫的东西
A、Scrapyd
B、ScrapyDeploy
C、Deploy
D、Scrapy_Deploy
正确答案:


第2题,当爬虫创立好了之后,能够运用"scrapy()" 指令运转爬虫。
A、startup
B、starwar
C、drawl
D、crawl
正确答案:


第3题,在Scrapy的目录下,哪个文件担任寄存爬虫的各种装备信息?()
A、spiders文件夹
B、item.py
C、pipeline.py
D、settings.py
正确答案:


第4题,运用UI Automatorr依据坐标来滑动桌面的操作是得到相应控件后运用指令()
A、swipe
B、move
C、scroll
D、fly
正确答案:


答案来历:熊猫奥鹏(www.188open.com),windows中创立守时使命的指令为
A、task
B、schtasks
C、createtasks
D、maketasks
正确答案:


第6题,MongoDB中数据存储的方式相似于()
A、列表
B、元组
C、字典
D、调集
正确答案:


第7题,requests中post恳求方法的运用为requests.post(\'网址\', data=data)中的data为()
A、列表
B、元组
C、字典
D、调集
正确答案:


第8题,Python中把列表变换为调集需求运用##函数
A、set
B、list
C、convert
D、change
正确答案:


第9题,运用了RedisSpider作为爬虫的父类今后,爬虫会直接监控()中的数据,并不读取start_urls中的数据。
A、Redis
B、RedisSpider
C、Spider
D、MongoDB
正确答案:


答案来历:熊猫奥鹏(www.188open.com),在Mac OS下装置MongoDB运用指令() install mongodb
A、brew
B、apt-get
C、sudo
D、apt
正确答案:


第11题,当需求把Python里边的数据发送给网页时,应先将其变换成()
A、Json字符串
B、GET
C、POST
D、Request
正确答案:


答案来历:熊猫奥鹏(www.188open.com),效劳器端记载信息断定用户身份的数据是
A、session
B、cookies
C、moonpies
D、localstorage
正确答案:


第13题,下列说法错误的是()
A、小程序的恳求极端简略,根本上没有验证信息
B、用Python来恳求小程序的后台接口然后获取数据,比恳求异步加载网页的后台接口要杂乱许多。
C、假如方针网站有微信小程序,那么必定要优先查询能否经过小程序的接口来抓取数据。
D、小程序的反爬虫才能比网页版的低许多。运用小程序的接口来爬数据,能极大进步爬虫的开发功率。
正确答案:


第14题,下面Python代码输出为():
def default_para_trap(para=[], value=0):para.append(value)return paraprint(\'榜首步:{}\'.format(default_para_trap(value=100)))print(\'第二步:{}\'.format(default_para_trap(value=50)))
A、榜首步:[100]
第二步:[100,50]
B、榜首步:[100]
第二步:[50]
C、榜首步:[100]
第二步:[]
D、榜首步:[100]
第二步:[100]
正确答案:


答案来历:熊猫奥鹏(www.188open.com),在Scrapy的目录下,哪个文件担任寄存爬虫文件?()
A、spiders文件夹
B、item.py
C、pipeline.py
D、settings.py
正确答案:


第16题,xpath中extract方法回来值类型是()
A、列表
B、元组
C、字典
D、调集
正确答案:


第17题,参数headers=(),把恳求头增加到Scrapy恳求中,使爬虫的恳求看起来像是从阅读器建议的。
A、HEADER
B、HEADERS
C、HEAD
D、BODY
正确答案:


第18题,Python中Object=(1, 2, 3, 4, 5),则Objcet是()
A、列表
B、元组
C、字典
D、调集
正确答案:


第19题,在Scrapy的目录下,哪个文件担任界说需求爬取的数据?()
A、spiders文件夹
B、item.py
C、pipeline.py
D、settings.py
正确答案:


答案来历:熊猫奥鹏(www.188open.com),Scrapy中运用Xpath取得的成果调用了.extract方法,成果以()方式生成
A、列表
B、元组
C、字典
D、调集
正确答案:


第21题,Python中的容器有()
A、列表
B、元组
C、字典
D、调集
正确答案:,B,C,D


第22题,运用Selennium获取网页中元素的方法有
A、find_element_by_name
B、find_element_by_id
C、find_elements_by_name
D、find_elements_by_id
正确答案:,B,C,D


第23题,一个可行的自动替换署理的爬虫系统,大概下列哪些功用?
A、有一个小爬虫ProxySpider去各大署理网站爬取免费署理并验证,将能够运用的署理IP保留到数据库中
B、在发现某个恳求现已被设置过署理后,啥也不做,直接回来
C、在ProxyMiddlerware的process_request中,每次从数据库里边随机挑选一条署理IP地址运用
D、周期性验证数据库中的无效署理,及时将其删去
正确答案:,C,D


第24题,下列关于在IOS上装备charles的说法正确的是()
A、不一样ios设备之间会有对比大的不同,所以装备的时分需求找到对应的装置证书的进口。
B、手机和电脑需求在同一个局域网下。
C、HTTP署理能够运用"自动"选项。
D、装置好证书今后,翻开iOS设备上的任何一个App,能够看到Charles中稀有据包在活动
正确答案:,D


答案来历:熊猫奥鹏(www.188open.com),下列说法错误的是()
A、mitmproxy的强壮之处在于它还自带一个mitmdump指令。这个指令能够用来运转契合必定规矩的Python脚本,并在Python脚本里边直接操作HTTP和HTTPS的恳求,以及回来的数据包。
B、指令行中履行mitmdump -s parse_request.py即可运转python 脚本
C、运用python能够自界说回来的数据包,如 response.headers,即是回来的头部信息
D、假如回来的是JSON类型的字符串,python无法进行解析。
正确答案:


第26题,以下HTTP状况码表明效劳器自身发作错误的是
A、400
B、503
C、302
D、500
正确答案:,D


第27题,Python中哪种容器生成后能够修正内容
A、列表
B、元组
C、字典
D、调集
正确答案:,C,D


第28题,以下HTTP状况码表明效劳器没有正常回来成果的是
A、200
B、301
C、404
D、500
正确答案:,C,D


第29题,假如方针网站有反爬虫声明,那么对方在被爬虫爬取今后,能够依据()来申述运用爬虫的公司
A、效劳器日志
B、数据库日志记载
C、程序日志记载
D、效劳器监控
正确答案:,B,C,D


答案来历:熊猫奥鹏(www.188open.com),requests中post恳求方法的第二个参数能够为()
A、字典
B、列表
C、json数据
D、字符串
正确答案:,C


第31题,process_spider_output(response, result, output)是鄙人载器中心件处理完结后,立刻要进入某个回调函数parse_xxx()前调用
T、对
F、错
正确答案:F


第32题,需求登录的网站一般经过GET恳求就能够完成登录。
T、对
F、错
正确答案:F


第33题,Python中比较于findall方法,search方法关于从超级大的文本里边只找第1个数据尤其有用,能够大大进步程序的运转功率。
T、对
F、错
更新答案联系微信或QQ 熊猫奥鹏(www.188open.com)


第34题,UI Automator Viewer与Python uiautomator能够一起运用
T、对
F、错
正确答案:F


第35题,device.sleep()方法是运用UI Automatorr封闭屏幕的指令
T、对
F、错
更新答案联系微信或QQ 熊猫奥鹏(www.188open.com)


第36题,在发送恳求时需求留意requests提交的恳求头不能与阅读器的恳求头共同,由于这样才干躲藏好自己到达获取数据的意图
T、对
F、错
正确答案:F


第37题,mitmproxy的强壮之处在于它还自带一个mitmdump指令。这个指令能够用来运转契合必定规矩的Python脚本
T、对
F、错
更新答案联系微信或QQ 熊猫奥鹏(www.188open.com)


第38题,MongoDB是一个关系数据库商品
T、对
F、错
正确答案:F


第39题,Python正则表达式中".*?"对错贪婪形式,获取最短的能满意条件的字符串。
T、对
F、错
更新答案联系微信或QQ 熊猫奥鹏(www.188open.com)


第40题,Charles能截获HTTP和HTTPS的数据包,假如网站运用websocket就能够截获。
T、对
F、错
正确答案:F


第41题,Charles和Chrome开发者东西比较,仅仅多了一个查找功用。
T、对
F、错
正确答案:


第42题,爬虫中心件的激活需求别的写一个文件来进行
T、对
F、错
正确答案:F


第43题,Cookies一般包括在恳求头Headers中
T、对
F、错
更新答案联系微信或QQ 熊猫奥鹏(www.188open.com)


第44题,现已创立好的Scrapy爬虫*.py文件能够直接经过Python来运转
T、对
F、错
正确答案:F


第45题,假如方针网站自身即是供给大众查询效劳的网站,那么运用爬虫是合法合规的。
T、对
F、错
更新答案联系微信或QQ 熊猫奥鹏(www.188open.com)


第46题,Redis中运用lrange读取数据后数据也会删去
T、对
F、错
正确答案:


第47题,开源库pytesseract的效果是将图画中文字变换为文本。
T、对
F、错
更新答案联系微信或QQ 熊猫奥鹏(www.188open.com)


第48题,Scrapy每一次建议恳求之前都会在这儿检查网址是不是重复。因而假如的确需求再一次爬取数据,在Redis中把这个Key删去即可。
T、对
F、错
更新答案联系微信或QQ 熊猫奥鹏(www.188open.com)


第49题,"curl http://爬虫效劳器IP地址:6800/cancel.json -d project=工程名 -d job=爬虫JOBID"该指令的效果是发动爬虫
T、对
F、错
正确答案:


答案来历:熊猫奥鹏(www.188open.com),中心人爬虫即是使用了中心人进犯的原理来完成数据抓取的一种爬虫技术
T、对
F、错
正确答案:

作业答案 联系QQ:3326650399 微信:cs80188