南开23秋学期(仅限-高起专1909、专升本1909)《网络爬虫与信息提取》在线作业【标准答案】 作者:奥鹏周老师 分类: 南开大学 发布时间: 2023-11-14 21:10 作业答案 联系QQ:3326650399 微信:cs80188 微信二维码 23秋学期(仅限-高起专1909、专升本1909)《网络爬虫与信息获取》在线作业-00002 试卷总分:100 得分:100 一、单选题 (共 20 道试题,共 40 分) 1.当需求把Python里边的数据发送给网页时,应先将其变换成() A.Json字符串 B.GET C.POST D.Request 2.Scrapy中运用Xpath取得的成果调用了.extract方法,成果以()方式生成 A.列表 B.元组 C.字典 D.调集 3.Python中Object={\'obj_1\':\'1\',\'obj_2\':\'2\'},则Objcet是() A.列表 B.元组 C.字典 D.调集 4.当需求把Python里边的数据发送给网页时,需求先变换成()字符串 A.Python B.Json C.正则表达式 D.Ajax 5.Python正则表达式模块的findall方法获取内容包括多个,则回来成果的列表中会包括() A.列表 B.元组 C.字典 D.调集 6.HTTP常用状况码标明效劳器不答应拜访那个资源的是() A.500 B.503 C.403 D.405 7.Python中退出循环应用关键词() A.break B.continue C.exit D.return 8.运用python定制mitmproxy,下面的句子恳求的是()。{req.headers["User-Agent"]} A.headers B.文本内容 C.方针网站 D.user-agent 9.requests中post恳求方法的运用为requests.post(\'网址\', data=data)中的data为() A.列表 B.元组 C.字典 D.调集 10.在Scrapy的目录下,哪个文件担任寄存爬虫的各种装备信息?() A.spiders文件夹 B.item.py C.pipeline.py D.settings.py 11.一般运用()东西来模仿阅读器进行爬虫恳求 A.Selenium B.Chrome C.ChromeDriver D.WebDriver 12.当爬虫运转到yield scrapy.Request()或许yield item的时分,下列哪个爬虫中心件的方法被调用? A.process_spider_output() B.process_spider_exception() C.process_spider_input() D.process_start_ requests() 13.下面代码总共履行循环多少次(): i=0 while i<10: i+=1 A.9 B.10 C.11#0 14.运用UI Automator获翻滚屏幕的操作是得到相应控件后运用指令() A.scroll B.scroll_up C.scroll_forword D.scroll_back 15.某些网站在建议Ajax恳求时会带着()字符串用于身份验证 A.Token B.Cookie C.ReqTime D.sum 16.Python中以下哪个容器里的元素不能重复() A.列表 B.元组 C.字典 D.调集 17.Python操作CSV文件可经过()容器的方法操作单元格 A.列表 B.元组 C.字典 D.调集 18.以下哪个指令是使用URL语法在指令行下工作的文件传输东西() A.curl B.tar -zxvf C.mkdir D.cp 19.Python中若界说object="12345",则print(object[::-1])输出() A.1 B.5 C.54321 D.程序报错 20.在Mac OS下装置MongoDB运用指令() install mongodb A.brew B.apt-get C.sudo D.apt 二、多选题 (共 10 道试题,共 20 分) 21.网络爬虫的用处有() A.搜集数据 B.尽职查询 C.进步流量 D.进犯效劳器 22.以下HTTP状况码表明效劳器没有正常回来成果的是 A.200 B.301 C.404 D.500 23.requests中post恳求方法的第二个参数能够为() A.字典 B.列表 C.json数据 D.字符串 24.HTTP常用状况码标明标明效劳器自身发作错误的有() A.403 B.404 C.500 D.503 25.MongoDB中获取姓名为db的库的句子为() A.client.db B.client(\'db\') C.client[\'db\'] D.client{\'db\'} 26.运用BeautifulSoup对象后能够运用()来查找内容 A.find_all B.find C.search D.search_all 27.Python中的容器有() A.列表 B.元组 C.字典 D.调集 28.PyMongo删去操作有() A.delete B.delete_all C.delete_one D.delete_many 29.PyMongo更新操作有() A.update B.update_all C.update_one D.update_many 30.Redis中的值能够撑持() A.列表 B.哈希 C.调集 D.有序调集 三、判别题 (共 20 道试题,共 40 分) 31.运用UI Automatorr操作实体键的指令为device.press.实体按键称号() 32.当Charles抓包今后,在Mac OS系统下能够按Command+F组合键,在Windows系统下按Ctrl+F组合键翻开Charles进行查找 33.XPath获取出来的内容是一个SelectorList对象,它的第0个元素即是网页的源代码。 34.Python中写CSV文件的writerow方法参数为包括字典的列表类型 35.Python中比较于findall方法,search方法关于从超级大的文本里边只找第1个数据尤其有用,能够大大进步程序的运转功率。 36.process_spider_output(response, result, output)是鄙人载器中心件处理完结后,立刻要进入某个回调函数parse_xxx()前调用 37.Redis中写数据指令lpush中l代表list 38.为了确保数据刺进功率,在内存答应的状况下,大概一次性把数据读入内存,尽量削减对MongoDB的读取操作。 39.HTTP状况码503表明效劳器内部毛病。 40.Robo 3T与RoboMongo是彻底纷歧样的软件 41.运用AJAX技术,能够在不改写网页的状况下更新网页数据 42.Python中条件句子在运用and衔接的多个表达式中,只需有一个表达式不为真,那么后边的表达式就不会履行。 43.UI Automator Viewer与Python uiautomator能够一起运用 44.在默许状况下,Scrapyd能够从外网拜访 45.需求实名认证的打码网站愈加安全牢靠。 46.requests中post恳求方法的运用为requests.post(\'网址\', data=data) 47.HTTP状况码中303状况码清晰表明客户端应当选用POST方法获取资源 48.自己能检查的数据,答应私行拿给第三方检查 49.chrome开发者东西无法对数据进行查找。假如想晓得一个特定的异步加载内容来自哪个恳求,有必要在“Network”选项卡里边一个恳求一个恳求地进行检查. 50.在恳求头中设置User-Agent即可正常恳求网站 作业答案 联系QQ:3326650399 微信:cs80188 微信二维码
试卷总分:100 得分:100
一、单选题 (共 20 道试题,共 40 分)
1.当需求把Python里边的数据发送给网页时,应先将其变换成()
A.Json字符串
B.GET
C.POST
D.Request
2.Scrapy中运用Xpath取得的成果调用了.extract方法,成果以()方式生成
A.列表
B.元组
C.字典
D.调集
3.Python中Object={\'obj_1\':\'1\',\'obj_2\':\'2\'},则Objcet是()
A.列表
B.元组
C.字典
D.调集
4.当需求把Python里边的数据发送给网页时,需求先变换成()字符串
A.Python
B.Json
C.正则表达式
D.Ajax
5.Python正则表达式模块的findall方法获取内容包括多个,则回来成果的列表中会包括()
A.列表
B.元组
C.字典
D.调集
6.HTTP常用状况码标明效劳器不答应拜访那个资源的是()
A.500
B.503
C.403
D.405
7.Python中退出循环应用关键词()
A.break
B.continue
C.exit
D.return
8.运用python定制mitmproxy,下面的句子恳求的是()。{req.headers["User-Agent"]}
A.headers
B.文本内容
C.方针网站
D.user-agent
9.requests中post恳求方法的运用为requests.post(\'网址\', data=data)中的data为()
A.列表
B.元组
C.字典
D.调集
10.在Scrapy的目录下,哪个文件担任寄存爬虫的各种装备信息?()
A.spiders文件夹
B.item.py
C.pipeline.py
D.settings.py
11.一般运用()东西来模仿阅读器进行爬虫恳求
A.Selenium
B.Chrome
C.ChromeDriver
D.WebDriver
12.当爬虫运转到yield scrapy.Request()或许yield item的时分,下列哪个爬虫中心件的方法被调用?
A.process_spider_output()
B.process_spider_exception()
C.process_spider_input()
D.process_start_ requests()
13.下面代码总共履行循环多少次(): i=0 while i<10: i+=1
A.9
B.10
C.11#0
14.运用UI Automator获翻滚屏幕的操作是得到相应控件后运用指令()
A.scroll
B.scroll_up
C.scroll_forword
D.scroll_back
15.某些网站在建议Ajax恳求时会带着()字符串用于身份验证
A.Token
B.Cookie
C.ReqTime
D.sum
16.Python中以下哪个容器里的元素不能重复()
A.列表
B.元组
C.字典
D.调集
17.Python操作CSV文件可经过()容器的方法操作单元格
A.列表
B.元组
C.字典
D.调集
18.以下哪个指令是使用URL语法在指令行下工作的文件传输东西()
A.curl
B.tar -zxvf
C.mkdir
D.cp
19.Python中若界说object="12345",则print(object[::-1])输出()
A.1
B.5
C.54321
D.程序报错
20.在Mac OS下装置MongoDB运用指令() install mongodb
A.brew
B.apt-get
C.sudo
D.apt
二、多选题 (共 10 道试题,共 20 分)
21.网络爬虫的用处有()
A.搜集数据
B.尽职查询
C.进步流量
D.进犯效劳器
22.以下HTTP状况码表明效劳器没有正常回来成果的是
A.200
B.301
C.404
D.500
23.requests中post恳求方法的第二个参数能够为()
A.字典
B.列表
C.json数据
D.字符串
24.HTTP常用状况码标明标明效劳器自身发作错误的有()
A.403
B.404
C.500
D.503
25.MongoDB中获取姓名为db的库的句子为()
A.client.db
B.client(\'db\')
C.client[\'db\']
D.client{\'db\'}
26.运用BeautifulSoup对象后能够运用()来查找内容
A.find_all
B.find
C.search
D.search_all
27.Python中的容器有()
A.列表
B.元组
C.字典
D.调集
28.PyMongo删去操作有()
A.delete
B.delete_all
C.delete_one
D.delete_many
29.PyMongo更新操作有()
A.update
B.update_all
C.update_one
D.update_many
30.Redis中的值能够撑持()
A.列表
B.哈希
C.调集
D.有序调集
三、判别题 (共 20 道试题,共 40 分)
31.运用UI Automatorr操作实体键的指令为device.press.实体按键称号()
32.当Charles抓包今后,在Mac OS系统下能够按Command+F组合键,在Windows系统下按Ctrl+F组合键翻开Charles进行查找
33.XPath获取出来的内容是一个SelectorList对象,它的第0个元素即是网页的源代码。
34.Python中写CSV文件的writerow方法参数为包括字典的列表类型
35.Python中比较于findall方法,search方法关于从超级大的文本里边只找第1个数据尤其有用,能够大大进步程序的运转功率。
36.process_spider_output(response, result, output)是鄙人载器中心件处理完结后,立刻要进入某个回调函数parse_xxx()前调用
37.Redis中写数据指令lpush中l代表list
38.为了确保数据刺进功率,在内存答应的状况下,大概一次性把数据读入内存,尽量削减对MongoDB的读取操作。
39.HTTP状况码503表明效劳器内部毛病。
40.Robo 3T与RoboMongo是彻底纷歧样的软件
41.运用AJAX技术,能够在不改写网页的状况下更新网页数据
42.Python中条件句子在运用and衔接的多个表达式中,只需有一个表达式不为真,那么后边的表达式就不会履行。
43.UI Automator Viewer与Python uiautomator能够一起运用
44.在默许状况下,Scrapyd能够从外网拜访
45.需求实名认证的打码网站愈加安全牢靠。
46.requests中post恳求方法的运用为requests.post(\'网址\', data=data)
47.HTTP状况码中303状况码清晰表明客户端应当选用POST方法获取资源
48.自己能检查的数据,答应私行拿给第三方检查
49.chrome开发者东西无法对数据进行查找。假如想晓得一个特定的异步加载内容来自哪个恳求,有必要在“Network”选项卡里边一个恳求一个恳求地进行检查.
50.在恳求头中设置User-Agent即可正常恳求网站
作业答案 联系QQ:3326650399 微信:cs80188