南开网络爬虫与信息提取_24春学期(高起本:1803-2103、专升本高起专:2009-2103)《网络爬虫与信息提取》 作者:周老师 分类: 南开大学 发布时间: 2024-08-12 13:10 专业辅导各院校在线、离线考核、形考、终极考核、统考、社会调查报告、毕业论文写作交流等! 联系我们:QQ客服:3326650399 439328128 微信客服①:cs80188 微信客服②:cs80189 扫一扫添加我为好友 扫一扫添加我为好友 24秋学期(高起本:1803-2103、专升本/高起专:2009-2103)《网络爬虫与信息获取》在线作业-00002 试卷总分:100 得分:100 一、单选题 (共 20 道试题,共 40 分) 1.下面Python代码输出为(): def default_para_trap(para=[], value=0): para.append(value) return para print(\'榜首步:{}\'.format(default_para_trap(value=100))) print(\'第二步:{}\'.format(default_para_trap(value=50))) A.榜首步:[100] 第二步:[100,50] B.榜首步:[100] 第二步:[50] C.榜首步:[100] 第二步:[] D.榜首步:[100] 第二步:[100] 2.Python读CSV文件需求哪个方法() A.CSVReader B.CsvReader C.DictReader D.FileReader 3.在Python中,为了运用XPath,需求装置一个第三方库() A.lxml B.xml C.xpath D.path 4.chrome默许翻开开发者东西的方便是 A.F5 B.F11 C.F12 D.F2 5.xpath中extract方法回来值类型是() A.列表 B.元组 C.字典 D.调集 6.Redis中假如不删去列表中的数据,又要把数据读出来,就需求运用关键词() A.range B.lrange C.srange D.pop 7.Redis中读取数据句子lrange chapter 0 3,那么表明读列表中()个值 A.2 B.3 C.4 D.5 8.requests获取get或许post恳求后需求经过()特点获取文本内容 A.content B.text C.string D.body 9.以下表明恳求资源找不到的HTTP状况码为 A.200 B.301 C.404 D.500 10.当需求把Python里边的数据发送给网页时,需求先变换成()字符串 A.Python B.Json C.正则表达式 D.Ajax 11.Python中哪种容器一旦生成果不能修正 A.列表 B.元组 C.字典 D.调集 12.Python中Object=(1, 2, 3, 4, 5),则Objcet是() A.列表 B.元组 C.字典 D.调集 13.()是一个传递信息的通道。它担任将爬取博文列表页获取到的信息传递给担任爬取正文页的方法中。 A.meta B.head C.header D.body 14.在Scrapy工程的settings.py文件中,哪个装备项,假如设置为True,那么Scrapy就会自动越过网站不答应爬取的内容() A.ROBOTSTXT_ OBEY B.ROBOTSTXT_JUDGE C.ROBOTSTXT D.ROBOTSTXT_ IF 15.HTTP常用状况码标明效劳器内部资源出毛病了的是() A.500 B.503 C.403 D.404 16.Python操作CSV文件可经过()容器的方法操作单元格 A.列表 B.元组 C.字典 D.调集 17.Python中把列表变换为调集需求运用##函数 A.set B.list C.convert D.change 18.HTTP常用状况码标明效劳器不答应拜访那个资源的是() A.500 B.503 C.403 D.405 19.打码渠道一般经过()辨认验证码。 A.人工辨认 B.机器学习辨认 C.光学字符辨认 D.深度学习辨认 20.带上经过Chrome阅读器从谈论页面仿制而来的()再建议恳求,能够削减爬虫被网站封闭的概率 A.Cookie B.Html C.Headers D.CSS 二、多选题 (共 10 道试题,共 20 分) 21.最多见的HTTP恳求类型有() A.GET B.POST C.SEND D.RECEIVE 22.BS4能够用来从()中获取数据 A.HTML B.XML C.数据库 D.JSON 23.HTTP常用状况码标明标明效劳器自身发作错误的有() A.403 B.404 C.500 D.503 24.Python中哪种容器生成后能够修正内容 A.列表 B.元组 C.字典 D.调集 25.下列关于在IOS上装备charles的说法正确的是() A.不一样ios设备之间会有对比大的不同,所以装备的时分需求找到对应的装置证书的进口。 B.手机和电脑需求在同一个局域网下。 C.HTTP署理能够运用“自动”选项。 D.装置好证书今后,翻开iOS设备上的任何一个App,能够看到Charles中稀有据包在活动 26.PyMongo更新操作有() A.update B.update_all C.update_one D.update_many 27.Python中有哪些完成多线程方法() A.multiprocess.dummy B.threading.Thread C.process D.PyMongoDB 28.Python中经过Key来从字典object中读取对应的Value的方法有() A.object[key] B.object.get(key) C.object.pop(key) D.object.pop() 29.HTTP常用状况码标明标明客户端是发作错误的缘由地点的有() A.403 B.404 C.500 D.503 30.运用Selennium获取网页中元素的方法有 A.find_element_by_name B.find_element_by_id C.find_elements_by_name D.find_elements_by_id 三、判别题 (共 20 道试题,共 40 分) 31.charles装备中,装置完结证书今后,在设置中翻开“关于本机”,找到最下面的“证信件任设置”,并在里边发动对Charles证书的彻底信赖。 32.Redis是恪守BSD协议、撑持网络、可根据内存亦可耐久化的日志型、Key-Value数据库 33.Scrapy作为一个爬虫的结构,它在单机环境下运转时就能够取得最大功能优势 34.mitmproxy的强壮之处在于它还自带一个mitmdump指令。这个指令能够用来运转契合必定规矩的Python脚本 35.运用UI Automatorr让屏幕向右翻滚的操作是得到相应控件后运用指令scroll.horiz.forward() 36.PyMongoDB中排序方法sort第二个参数-1表明升序 37.HTTP状况码302与307彻底同义。 38.运用异步加载技术的网站,被加载的内容能够在源代码中找到 39.需求登录的网站一般经过GET恳求就能够完成登录。 40.在运用多线程处理疑问时,线程池设置越大越好 41.Python正则表达式中“.*?”对错贪婪形式,获取最短的能满意条件的字符串。 42.爬虫的源代码经过揭露不会对被爬虫网站形成影响 43.打码渠道都是靠机器运用OCR技术辨认图像上的文字。 44.Charles和Chrome开发者东西比较,仅仅多了一个查找功用。 45.爬虫文件无法从Pycharm运转和调试,只能经过指令行的方法运转。 46.Redis中查询列表长度指令llen中l代表left,即从左边开端数 47.在charles中运用CTRL+F查找,JSON里边的中文是能够直接查找到的。 48.当运用Scarpy创立爬虫时,当爬取网易云音乐主页信息时,scrapy genspider的第二个参数直接输入"163.com"就能够了 49.MongoDB是一个关系数据库商品 50.Scrapy每一次建议恳求之前都会在这儿检查网址是不是重复。因而假如的确需求再一次爬取数据,在Redis中把这个Key删去即可。 专业辅导各院校在线、离线考核、形考、终极考核、统考、社会调查报告、毕业论文写作交流等!(非免费) 联系我们:QQ客服:3326650399 439328128 微信客服①:cs80188 微信客服②:cs80189 扫一扫添加我为好友 扫一扫添加我为好友
试卷总分:100 得分:100
一、单选题 (共 20 道试题,共 40 分)
1.下面Python代码输出为(): def default_para_trap(para=[], value=0): para.append(value) return para print(\'榜首步:{}\'.format(default_para_trap(value=100))) print(\'第二步:{}\'.format(default_para_trap(value=50)))
A.榜首步:[100] 第二步:[100,50]
B.榜首步:[100] 第二步:[50]
C.榜首步:[100] 第二步:[]
D.榜首步:[100] 第二步:[100]
2.Python读CSV文件需求哪个方法()
A.CSVReader
B.CsvReader
C.DictReader
D.FileReader
3.在Python中,为了运用XPath,需求装置一个第三方库()
A.lxml
B.xml
C.xpath
D.path
4.chrome默许翻开开发者东西的方便是
A.F5
B.F11
C.F12
D.F2
5.xpath中extract方法回来值类型是()
A.列表
B.元组
C.字典
D.调集
6.Redis中假如不删去列表中的数据,又要把数据读出来,就需求运用关键词()
A.range
B.lrange
C.srange
D.pop
7.Redis中读取数据句子lrange chapter 0 3,那么表明读列表中()个值
A.2
B.3
C.4
D.5
8.requests获取get或许post恳求后需求经过()特点获取文本内容
A.content
B.text
C.string
D.body
9.以下表明恳求资源找不到的HTTP状况码为
A.200
B.301
C.404
D.500
10.当需求把Python里边的数据发送给网页时,需求先变换成()字符串
A.Python
B.Json
C.正则表达式
D.Ajax
11.Python中哪种容器一旦生成果不能修正
A.列表
B.元组
C.字典
D.调集
12.Python中Object=(1, 2, 3, 4, 5),则Objcet是()
A.列表
B.元组
C.字典
D.调集
13.()是一个传递信息的通道。它担任将爬取博文列表页获取到的信息传递给担任爬取正文页的方法中。
A.meta
B.head
C.header
D.body
14.在Scrapy工程的settings.py文件中,哪个装备项,假如设置为True,那么Scrapy就会自动越过网站不答应爬取的内容()
A.ROBOTSTXT_ OBEY
B.ROBOTSTXT_JUDGE
C.ROBOTSTXT
D.ROBOTSTXT_ IF
15.HTTP常用状况码标明效劳器内部资源出毛病了的是()
A.500
B.503
C.403
D.404
16.Python操作CSV文件可经过()容器的方法操作单元格
A.列表
B.元组
C.字典
D.调集
17.Python中把列表变换为调集需求运用##函数
A.set
B.list
C.convert
D.change
18.HTTP常用状况码标明效劳器不答应拜访那个资源的是()
A.500
B.503
C.403
D.405
19.打码渠道一般经过()辨认验证码。
A.人工辨认
B.机器学习辨认
C.光学字符辨认
D.深度学习辨认
20.带上经过Chrome阅读器从谈论页面仿制而来的()再建议恳求,能够削减爬虫被网站封闭的概率
A.Cookie
B.Html
C.Headers
D.CSS
二、多选题 (共 10 道试题,共 20 分)
21.最多见的HTTP恳求类型有()
A.GET
B.POST
C.SEND
D.RECEIVE
22.BS4能够用来从()中获取数据
A.HTML
B.XML
C.数据库
D.JSON
23.HTTP常用状况码标明标明效劳器自身发作错误的有()
A.403
B.404
C.500
D.503
24.Python中哪种容器生成后能够修正内容
A.列表
B.元组
C.字典
D.调集
25.下列关于在IOS上装备charles的说法正确的是()
A.不一样ios设备之间会有对比大的不同,所以装备的时分需求找到对应的装置证书的进口。
B.手机和电脑需求在同一个局域网下。
C.HTTP署理能够运用“自动”选项。
D.装置好证书今后,翻开iOS设备上的任何一个App,能够看到Charles中稀有据包在活动
26.PyMongo更新操作有()
A.update
B.update_all
C.update_one
D.update_many
27.Python中有哪些完成多线程方法()
A.multiprocess.dummy
B.threading.Thread
C.process
D.PyMongoDB
28.Python中经过Key来从字典object中读取对应的Value的方法有()
A.object[key]
B.object.get(key)
C.object.pop(key)
D.object.pop()
29.HTTP常用状况码标明标明客户端是发作错误的缘由地点的有()
A.403
B.404
C.500
D.503
30.运用Selennium获取网页中元素的方法有
A.find_element_by_name
B.find_element_by_id
C.find_elements_by_name
D.find_elements_by_id
三、判别题 (共 20 道试题,共 40 分)
31.charles装备中,装置完结证书今后,在设置中翻开“关于本机”,找到最下面的“证信件任设置”,并在里边发动对Charles证书的彻底信赖。
32.Redis是恪守BSD协议、撑持网络、可根据内存亦可耐久化的日志型、Key-Value数据库
33.Scrapy作为一个爬虫的结构,它在单机环境下运转时就能够取得最大功能优势
34.mitmproxy的强壮之处在于它还自带一个mitmdump指令。这个指令能够用来运转契合必定规矩的Python脚本
35.运用UI Automatorr让屏幕向右翻滚的操作是得到相应控件后运用指令scroll.horiz.forward()
36.PyMongoDB中排序方法sort第二个参数-1表明升序
37.HTTP状况码302与307彻底同义。
38.运用异步加载技术的网站,被加载的内容能够在源代码中找到
39.需求登录的网站一般经过GET恳求就能够完成登录。
40.在运用多线程处理疑问时,线程池设置越大越好
41.Python正则表达式中“.*?”对错贪婪形式,获取最短的能满意条件的字符串。
42.爬虫的源代码经过揭露不会对被爬虫网站形成影响
43.打码渠道都是靠机器运用OCR技术辨认图像上的文字。
44.Charles和Chrome开发者东西比较,仅仅多了一个查找功用。
45.爬虫文件无法从Pycharm运转和调试,只能经过指令行的方法运转。
46.Redis中查询列表长度指令llen中l代表left,即从左边开端数
47.在charles中运用CTRL+F查找,JSON里边的中文是能够直接查找到的。
48.当运用Scarpy创立爬虫时,当爬取网易云音乐主页信息时,scrapy genspider的第二个参数直接输入"163.com"就能够了
49.MongoDB是一个关系数据库商品
50.Scrapy每一次建议恳求之前都会在这儿检查网址是不是重复。因而假如的确需求再一次爬取数据,在Redis中把这个Key删去即可。
专业辅导各院校在线、离线考核、形考、终极考核、统考、社会调查报告、毕业论文写作交流等!(非免费)
联系我们:QQ客服:3326650399 439328128 微信客服①:cs80188 微信客服②:cs80189
扫一扫添加我为好友 扫一扫添加我为好友