南开大学22春《网络爬虫与信息提取》在线作业三及答案参考17
《南开大学22春《网络爬虫与信息提取》在线作业三及答案参考17》由会员分享,可在线阅读,更多相关《南开大学22春《网络爬虫与信息提取》在线作业三及答案参考17(14页珍藏版)》请在装配图网上搜索。
1、南开大学22春网络爬虫与信息提取在线作业三及答案参考1. 常用的会话跟踪技术是( )A.sessionB.cookiesC.moonpiesD.localstorage参考答案:AB2. Python中Object=&39;obj_1&39;:&39;1&39;,&39;obj_2&39;:&39;2&39;,则Objcet.get(&39;boj_1&39;,&39;3&39;)是( )Python中Object=obj_1:1,obj_2:2,则Objcet.get(boj_1,3)是( )A.1B.2C.3D.无输出参考答案:A3. charles配置中,安装完成证书以后,在设置中打开“
2、关于本机”,找到最下面的“证书信任设置”,并在里面启动对Charles证书的完全信任。( )T.对F.错参考答案:T4. requests中post请求方法的使用为requests.post(网址, data=data)中的data为( )。A.列表B.元组C.字典D.集合参考答案:C5. 如果爬虫爬取的是商业网站,并且目标网站使用了反爬虫机制,那么强行突破反爬虫机制可能构成( )。A.非法侵入计算机系统罪B.非法获取计算机信息系统数据罪C.非法获取计算机数据罪D.非法获取系统罪参考答案:AB6. RoboMongo是MongoDB的管理软件。( )T.对F.错参考答案:T7. charles
3、配置中,安装完成证书以后,在设置中打开“关于本机”,找到最下面的“证书信任设置”,并在里面启动对Charles证书的完全信任。( )charles配置中,安装完成证书以后,在设置中打开“关于本机”,找到最下面的“证书信任设置”,并在里面启动对Charles证书的完全信任。( )A.正确B.错误参考答案:A8. 虽然MongoDB相比于MySQL来说,速度快了很多,但是频繁读写MongoDB还是会严重拖慢程序的执行速度。( )A.正确B.错误参考答案:A9. 对Charles设置代理时,Ip可以设置为127.0.0.1,端口为8888。( )T.对F.错参考答案:T10. 需要登录的网站一般通过
4、GET请求就可以实现登录。( )A.正确B.错误参考答案:B11. 使用python定制mitmproxy,下面的语句请求的是( )。req.headersUser-Agent使用python定制mitmproxy,下面的语句请求的是( )。req.headersUser-AgentA.headersB.文本内容C.目标网站D.user-agent参考答案:D12. Selenium必须加载对应的webdriver才能模拟浏览器访问。( )Selenium必须加载对应的webdriver才能模拟浏览器访问。( )A.正确B.错误参考答案:A13. PyMongo中逻辑查询表示大于的符号是( )
5、PyMongo中逻辑查询表示大于的符号是( )A.$gtB.$ltC.$gte$lte参考答案:A14. Charles能截获HTTP和HTTPS的数据包,如果网站使用websocket就可以截获。( )A.正确B.错误参考答案:B15. 使用UI Automatorr根据坐标来滑动桌面的操作是得到相应控件后使用命令( )。A.swipeB.moveC.scrollD.fly参考答案:A16. 以下哪个HTML标签表示定义文档的主体( )以下哪个HTML标签表示定义文档的主体( )A.divB.bodyC.headD.footer参考答案:B17. 为了保证数据插入效率,在内存允许的情况下,应
6、该一次性把数据读入内存,尽量减少对MongoDB的读取操作。( )T.对F.错参考答案:T18. ( )是一个传递信息的通道。它负责将爬取博文列表页获取到的信息传递给负责爬取正文页的方法中。( )是一个传递信息的通道。它负责将爬取博文列表页获取到的信息传递给负责爬取正文页的方法中。A.metaB.headC.headerD.body参考答案:A19. 通常使用( )工具来模拟浏览器进行爬虫请求通常使用( )工具来模拟浏览器进行爬虫请求A.SeleniumB.ChromeC.ChromeDriverD.WebDriver参考答案:A20. 已经创建好的Scrapy爬虫*.py文件可以直接通过Py
7、thon来运行。( )A.正确B.错误参考答案:B21. cookies在http请求中是明文传输的。( )cookies在http请求中是明文传输的。( )A.正确B.错误参考答案:A22. Python中函数返回值的个数可以是多个。( )A.正确B.错误参考答案:A23. process_spider_input(response,spider)是在爬虫运行yield item或者yield scrapy.Request( )的时候调用。( )A.正确B.错误参考答案:B24. 爬虫的源代码通过公开不会对被爬虫网站造成影响。( )A.正确B.错误参考答案:B25. Python中写CSV文
8、件的writerow方法参数为包含字典的列表类型。( )Python中写CSV文件的writerow方法参数为包含字典的列表类型。( )A.正确B.错误参考答案:B26. Python中( )容器有推导式Python中( )容器有推导式A.列表B.元组C.字典D.集合参考答案:ACD27. Python操作CSV文件可通过( )容器的方式操作单元格。A.列表B.元组C.字典D.集合参考答案:C28. 下列说法错误的是( )。A.小程序的请求极其简单,基本上没有验证信息B.用Python来请求小程序的后台接口从而获取数据,比请求异步加载网页的后台接口要复杂很多C.如果目标网站有微信小程序,那么一
9、定要优先调查能否通过小程序的接口来抓取数据D.小程序的反爬虫能力比网页版的低很多。使用小程序的接口来爬数据,能极大提高爬虫的开发效率参考答案:D29. Python中列表生成以后还可以往里面继续添加数据,也可以从里面删除数据。( )A.正确B.错误参考答案:A30. 可以通过( )绕过网站登录。A.sessionB.cookiesC.moonpiesD.localstorage参考答案:B31. 使用Selennium获取网页中元素的方法有( )。A.find_element_by_nameB.find_element_by_idC.find_elements_by_nameD.find_el
10、ements_by_id参考答案:ABCD32. Python中列表可以用( )方法在末尾添加元素。A.addB.appendC.plusD.+参考答案:B33. Redis若要进入交互环境,需要打开终端输入( )。A.redis-cliB.redisC.redis-cmdD.redis-start参考答案:A34. Python中Object=&39;obj_1&39;:&39;1&39;,&39;obj_2&39;:&39;2&39;,则Objcet.get(&39;boj_3&39;,&39;3&39;)是( )A.1B.2C.3D.无输出参考答案:C35. 插入数据时,MongoDB会
11、自动添加一列“_id”,也就是自增ID,每次自动加1。( )T.对F.错参考答案:F36. 为了在安卓手机上安装证书,需要先发送证书到手机里面。在Charles中选择“Help”-“SSL Proxying”-“Save Charles Root Certificate”命令,可以将Charles的证书保存到计算机桌面。( )T.对F.错参考答案:T37. PyMongoDB中排序方法sort第二个参数1表示降序。( )T.对F.错参考答案:F38. “curl http:/爬虫服务器IP地址:6800/cancel.json-d project=工程名-d job=爬虫JOBID”该命令的作
12、用是启动爬虫。( )A.正确B.错误参考答案:B39. PyMongo中逻辑查询表示小于等于的符号是( )A.$gtB.$ltC.$gte$lte参考答案:C40. Python正则表达式中“.*?”是非贪婪模式,获取最短的能满足条件的字符串。( )A.正确B.错误参考答案:A41. BS4可以用来从( )中提取数据。BS4可以用来从( )中提取数据。A.HTMLB.XMLC.数据库D.JSON参考答案:AB42. 当爬虫创建好了之后,可以使用scrapy( )命令运行爬虫。A.startupB.starwarC.drawlD.crawl参考答案:D43. PyMongo删除操作有( )PyM
13、ongo删除操作有( )A.deleteB.delete_allC.delete_oneD.delete_many参考答案:CD44. 使用Nginx反向代理到Scrapyd以后,Scrapyd本身只需要开通内网访问即可,不许经过输入密码。( )A.正确B.错误参考答案:A45. requests中get请求方法的使用为requests.get(网址, data=data)。( )T.对F.错参考答案:F46. 在Linux的终端使用apt-get命令安装一系列依赖库时,其中如果存在有已经安装的库,会覆盖掉之前的库重新安装。( )A.正确B.错误参考答案:B47. Redis是( )数据库。A
14、.关系数据库B.键值数据库C.列存数据库D.图数据库参考答案:B48. Python中列表生成以后还可以往里面继续添加数据,也可以从里面删除数据。( )Python中列表生成以后还可以往里面继续添加数据,也可以从里面删除数据。( )A.正确B.错误参考答案:A49. Python中线程池map( )方法第二个参数是( )Python中线程池map( )方法第二个参数是( )A.列表B.元组C.字典D.集合参考答案:A50. 下面Python代码输出为:( )def default_para_without_trap(para=,value=0):if not para:par下面Python代
15、码输出为:( )def default_para_without_trap(para=,value=0):if not para:para=para.append(value)return para print(第一步:.format(default_para_trap(value=100) print(第二步:.format(default_para_trap(value=50)A.第一步:100第二步:100,50B.第一步:100第二步:50C.第一步:100第二步:D.第一步:100第二步:100参考答案:B51. ( )是一个传递信息的通道。它负责将爬取博文列表页获取到的信息传递给负
16、责爬取正文页的方法中。A.metaB.headC.headerD.body参考答案:A52. 插入数据时,MongoDB会自动添加一列“_id”,也就是自增ID,每次自动加1。( )插入数据时,MongoDB会自动添加一列“_id”,也就是自增ID,每次自动加1。( )A.正确B.错误参考答案:B53. 下面代码一共执行循环多少次( ): for i in range(10): print(i * i)A.9B.10C.11D.0参考答案:B54. 如果目标网站有反爬虫声明,那么对方在被爬虫爬取以后,可以根据( )来起诉使用爬虫的公司。A.服务器日志B.数据库日志记录C.程序日志记录D.服务器
17、监控参考答案:ABCD55. Redis插入数据都是插入到列表右侧,因此读取数据也是从右侧读取。( )T.对F.错参考答案:F56. 爬虫登录需要识别验证码可以先把程序关闭,肉眼识别以后再重新运行。( )A.正确B.错误参考答案:B57. 使用python定制mitmproxy,下面的语句请求的是( )。req.headersUser-AgentA.headersB.文本内容C.目标网站D.user-agent参考答案:D58. Python可以将列表或字典转换成Json字符串。( )T.对F.错参考答案:T59. Python中包含字典的列表页可以转换成JSON字符串。( )Python中包含字典的列表页可以转换成JSON字符串。( )A.正确B.错误参考答案:A60. 如果使用Python的数据结构来做类比的话,MongoDB中库相当于一个大字典,大字典里面的每一个键值对都对应了一个集合,Key为集合的名字,Value就是一个( )。A.字典B.集合的名字C.集合D.文档参考答案:C
- 温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。