南开19秋《网络爬虫与信息提取》在线作业答案
19秋学期(1709、1803、1809、1903、1909)《网络爬虫与信息提取》在线作业1.[单选题] 以下表示请求资源找不到的HTTP状态码为
A.200
B.301
C.404
D.500
正确答案:——C——
2.[单选题] Redis是()数据库
A.关系数据库
B.键值数据库
C.列存数据库
D.图数据库
正确答案:——B——
3.[单选题] 服务器端记录信息确定用户身份的数据是
A.session
B.cookies
C.moonpies
D.localstorage
正确答案:——A——
4.[单选题] lxml库中etree模块的()方法把Selector对象转换为bytes型的源代码数据
A.etree.tostring
B.etree.convertBytes
C.etree.toBytes
D.etree.convertstring
正确答案:————
5.[单选题] 当需要把Python里面的数据发送给网页时,应先将其转换成()
A.Json字符串
B.GET
C.POST
D.Request
正确答案:————
6.[单选题] 通过()爬取伪装成异步加载的后端渲染数据
A.正则表达式
B.Json字符串
C.JavaScript
D.Get
正确答案:————
7.[单选题] 下列说法错误的是()
A.小程序的请求极其简单,基本上没有验证信息
B.用Python来请求小程序的后台接口从而获取数据,比请求异步加载网页的后台接口要复杂很多。
C.如果目标网站有微信小程序,那么一定要优先调查能否通过小程序的接口来抓取数据。
D.小程序的反爬虫能力比网页版的低很多。使用小程序的接口来爬数据,能极大提高爬虫的开发效率。
正确答案:————
8.[单选题] Python中定义函数关键字为()
A.def
B.define
C.func
D.function
正确答案:————
9.[单选题] requests中post请求方法的使用为requests.post('网址', data=data)中的data为()
A.列表
B.元组
C.字典
D.集合
正确答案:————
10.[单选题] Redis中查看一个列表长度,使用关键字()
A.len
B.length
C.llen
D.count
正确答案:————
11.[单选题] Python并导入uiautomator来操作设备的语句是from uiautomator import ()
A.Device
B.Devices
C.Jobs
D.Job
正确答案:————
12.[单选题] HTTP常用状态码表明服务器内部资源出故障了的是()
A.500
B.503
C.403
D.404
正确答案:————
13.[单选题] 下面代码一共执行循环多少次():
for i in range(10):
print(i ** i)
A.9
B.10
C.11#0
正确答案:————
14.[单选题] PyMongo中的查找方法的参数是哪种数据结构()
A.列表
B.元组
C.字典
D.集合
正确答案:————
15.[单选题] 使用UI Automatorr根据坐标来滑动桌面的操作是得到相应控件后使用命令()
A.swipe
B.move
C.scroll
D.fly
正确答案:————
16.[单选题] Python中列表可以用()方法在末尾添加元素
A.add
B.append
C.plus
D.+
正确答案:————
17.[单选题] Python中跳过本次循环应用关键字()
A.break
B.continue
C.exit
D.return
正确答案:————
18.[单选题] 如果计算机上连接了很多台手机,查看这些手机串号,需要在终端输入以下命令:()
A.adb device
B.adb devices
C.adb devices -l
D.adb devices -list
正确答案:————
19.[单选题] Python中若定义object=,则print(object[-4])输出()
A.NULL
B.2
C.4
D.程序报错
正确答案:————
20.[单选题] Python中线程池map()方法第二个参数是()
A.列表
B.元组
C.字典
D.集合
正确答案:————
21.[多选题] 以下哪种方法是MongoDB的查找方法()
A.find
B.find_one
C.finds
D.find_all
正确答案:————
22.[多选题] 下列关于mitmproxy的使用说法正确的是()
A.mitmproxy的端口为8080端口。
B.设置好代理以后,在手机上打开一个App或者打开一个网页,可以看到mitmproxy上面有数据滚动。
C.用鼠标在终端窗口上单击其中的任意一个请求,可以显示这个数据包的详情信息。
D.如果要访问HTTPS网站,还需要安装mitmproxy的证书
正确答案:————
23.[多选题] Python中一个函数没有返回值则可以写()
A.没有return
B.return
C.return None
D.return NULL
正确答案:————
24.[多选题] 下列说法错误的是()
A.mitmproxy的强大之处在于它还自带一个mitmdump命令。这个命令可以用来运行符合一定规则的Python脚本,并在Python脚本里面直接操作HTTP和HTTPS的请求,以及返回的数据包。
B.命令行中执行mitmdump -s parse_request.py即可运行python 脚本
C.使用python可以自定义返回的数据包,如 response.headers,就是返回的头部信息
D.如果返回的是JSON类型的字符串,python无法进行解析。
正确答案:————
25.[多选题] Python中一个函数可以有()个return语句
A.0
B.1
C.多个
D.2
正确答案:————
26.[多选题] 一个可行的自动更换代理的爬虫系统,应该下列哪些功能?
A.有一个小爬虫ProxySpider去各大代理网站爬取免费代理并验证,将可以使用的代理IP保存到数据库中
B.在发现某个请求已经被设置过代理后,什么也不做,直接返回
C.在ProxyMiddlerware的process_request中,每次从数据库里面随机选择一条代理IP地址使用
D.周期性验证数据库中的无效代理,及时将其删除
正确答案:————
27.[多选题] 为了解决爬虫代码本身的错误引起的异常,可以采用下列哪些方法
A.仔细检查代码
B.开发爬虫中间件
C.开发下载器中间件
D.等待
正确答案:————
28.[多选题] 以下HTTP状态码表示服务器本身发生错误的是
A.400
B.503
C.302
D.500
正确答案:————
29.[多选题] PyMongo更新操作有()
A.update
B.update_all
C.update_one
D.update_many
正确答案:————
30.[多选题] 以下HTTP状态码表示服务器没有正常返回结果的是
A.200
B.301
C.404
D.500
正确答案:————
31.[判断题] Cookies一般包含在请求头Headers中
A.对
B.错
正确答案:————
32.[判断题] MongoDB URI的格式为:
mongodb://服务器IP或域名:端口@用户名:密码
A.对
B.错
正确答案:————
33.[判断题] RoboMongo是MongoDB的管理软件
A.对
B.错
正确答案:————
34.[判断题] 上课传纸条中,传递纸条的人就可以发起中间人攻击。
A.对
B.错
正确答案:————
35.[判断题] 网站返回的Headers中经常有Cookies,可以用mitmdump脚本使用print函数把Cookies打印出来。
A.对
B.错
正确答案:————
36.[判断题] Python中写CSV文件的writerow方法参数为包含字典的列表类型
A.对
B.错
正确答案:————
37.[判断题] Charles能截获HTTP和HTTPS的数据包,如果网站使用websocket就可以截获。
A.对
B.错
正确答案:————
38.[判断题] Python中相比于findall方法,search方法对于从超级大的文本里面只找第1个数据特别有用,可以大大提高程序的运行效率。
A.对
B.错
正确答案:————
39.[判断题] 使用Nginx反向代理到Scrapyd以后,Scrapyd本身只需要开通内网访问即可,不许经过输入密码
A.对
B.错
正确答案:————
40.[判断题] 在Ubuntu下若要运行Redis可以使用CMD进入解压以后的文件夹并运行命令redis-server.exe redis.windows.conf启动Redis
A.对
B.错
正确答案:————
41.[判断题] 爬虫登录需要识别验证码可以先把程序关闭,肉眼识别以后再重新运行
A.对
B.错
正确答案:————
42.[判断题] process_spider_input(response, spider)是在爬虫运行yield item或者yield scrapy.Request()的时候调用
A.对
B.错
正确答案:————
43.[判断题] 通用搜索引擎的目标是尽可能大的网络覆盖率,搜索引擎服务器资源与网络数据资源互相匹配
A.对
B.错
正确答案:————
44.[判断题] 异步加载的内容一般在网页框架加载完成之前
A.对
B.错
正确答案:————
45.[判断题] Redis中列表读取数据命令lrange中l代表left,即从左侧开始读取
A.对
B.错
正确答案:————
46.[判断题] Selenium必须加载对应的webdriver才能模拟浏览器访问
A.对
B.错
正确答案:————
47.[判断题] 当运行爬虫代码后,出现"Forbidden by robots.txt"提示后,说明当前时间段被爬取的网站无法访问。
A.对
B.错
正确答案:————
48.[判断题] Redis是遵守BSD协议、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库
A.对
B.错
正确答案:————
49.[判断题] Python中包含字典的列表页可以转换成JSON字符串
A.对
B.错
正确答案:————
50.[判断题] PyMongoDB中排序方法sort第二个参数-1表示升序
A.对
B.错
正确答案:————
页:
[1]