南开大学21秋《网络爬虫与信息提取》平时作业一参考答案71

上传人:住在****她 文档编号:92053308 上传时间:2022-05-18 格式:DOCX 页数:14 大小:13.81KB
收藏 版权申诉 举报 下载
南开大学21秋《网络爬虫与信息提取》平时作业一参考答案71_第1页
第1页 / 共14页
南开大学21秋《网络爬虫与信息提取》平时作业一参考答案71_第2页
第2页 / 共14页
南开大学21秋《网络爬虫与信息提取》平时作业一参考答案71_第3页
第3页 / 共14页
资源描述:

《南开大学21秋《网络爬虫与信息提取》平时作业一参考答案71》由会员分享,可在线阅读,更多相关《南开大学21秋《网络爬虫与信息提取》平时作业一参考答案71(14页珍藏版)》请在装配图网上搜索。

1、南开大学21秋网络爬虫与信息提取平时作业一参考答案1. Python中( )容器有推导式。Python中( )容器有推导式。A.列表B.元组C.字典D.集合参考答案:ACD2. 服务器端记录信息确定用户身份的数据是( )。A.sessionB.cookiesC.moonpiesD.localstorage参考答案:A3. UI Automator Viewer与Python uiautomator可以同时使用。( )A.正确B.错误参考答案:B4. Python中跳过本次循环应用关键字( )A.breakB.continueC.exitD.return参考答案:B5. Python中若定义ob

2、ject=12345,则print(object:-1)输出( )Python中若定义object=12345,则print(object:-1)输出( )A.1B.5C.54321D.程序报错参考答案:C6. xpath中extract方法返回值类型是( )xpath中extract方法返回值类型是( )A.列表B.元组C.字典D.集合参考答案:A7. 如果目标网站本身就是提供公众查询服务的网站,那么使用爬虫是合法合规的。( )A.正确B.错误参考答案:A8. MongoDB中获取名字为db的库的语句为( )A.client.dbB.client(db)C.clientdbD.clientd

3、b参考答案:AC9. HTTP状态码中303状态码明确表示客户端应当采用POST方法获取资源。( )A.正确B.错误参考答案:B10. 在MacOS下若要运行Redis可以运行解压以后的文件夹下面的src文件夹中的redis-server文件启动redis服务src/redis-server。( )T.对F.错参考答案:F11. Python中有哪些实现多线程方法?( )A.multiprocess.dummyB.threading.ThreadC.processD.PyMongoDB参考答案:AB12. Python中Object=(1,2,3,4,5),则Objcet是( )。A.列表B.

4、元组C.字典D.集合参考答案:B13. 使用xpath方法的返回类型是( )。A.列表B.元组C.字典D.集合参考答案:A14. 为了保证数据插入效率,在内存允许的情况下,应该一次性把数据读入内存,尽量减少对MongoDB的读取操作。( )T.对F.错参考答案:T15. Redis中列表读取数据命令lrange中l代表left,即从左侧开始读取。( )Redis中列表读取数据命令lrange中l代表left,即从左侧开始读取。( )A.正确B.错误参考答案:B16. 自己能查看的数据,允许擅自拿给第三方查看。( )T.对F.错参考答案:F17. Selenium必须加载对应的webdriver

5、才能模拟浏览器访问。( )Selenium必须加载对应的webdriver才能模拟浏览器访问。( )A.正确B.错误参考答案:A18. Python中列表可以用( )方法在末尾添加元素。A.addB.appendC.plusD.+参考答案:B19. cookies在http请求中是明文传输的。( )cookies在http请求中是明文传输的。( )A.正确B.错误参考答案:A20. 采用以下( )技术可以实现异步加载A.HTMLB.AJAXC.CSSD.HTTP参考答案:B21. 下列哪项不是HTTP的请求类型( )下列哪项不是HTTP的请求类型( )A.GETB.POSTC.PUTD.SET

6、参考答案:D22. Python中通过Key来从字典object中读取对应的Value的方法有( )Python中通过Key来从字典object中读取对应的Value的方法有( )A.objectkeyB.object.get(key)C.object.pop(key)D.object.pop( )参考答案:AB23. robots.txt是一种规范,在法律范畴内。( )robots.txt是一种规范,在法律范畴内。( )A.正确B.错误参考答案:B24. 如果爬虫爬取的是商业网站,并且目标网站使用了反爬虫机制,那么强行突破反爬虫机制可能构成( )。A.非法侵入计算机系统罪B.非法获取计算机信

7、息系统数据罪C.非法获取计算机数据罪D.非法获取系统罪参考答案:AB25. Charles是一个收费软件,如果没有注册,安装以后的前30天可以正常使用。30天以后,虽然功能不会缩水,但每过30分钟Charles会自动关闭一次。( )A.正确B.错误参考答案:A26. 需要登录的网站一般通过GET请求就可以实现登录。( )A.正确B.错误参考答案:B27. 当使用Scarpy创建爬虫时,当爬取网易云音乐首页信息时,scrapy genspider的第二个参数直接输入就可以了。( )当使用Scarpy创建爬虫时,当爬取网易云音乐首页信息时,scrapy genspider的第二个参数直接输入就可以

8、了。( )A.正确B.错误参考答案:B28. Redis是( )数据库。A.关系数据库B.键值数据库C.列存数据库D.图数据库参考答案:B29. RoboMongo是MongoDB的管理软件。( )T.对F.错参考答案:T30. Python中列表生成以后还可以往里面继续添加数据,也可以从里面删除数据。( )T.对F.错参考答案:T31. Redis中从集合中查看有多少个值,用关键字( )。A.scardB.cardC.countD.distinct参考答案:A32. 使用python定制mitmproxy,下面的语句请求的是( )。req.headersUser-Agent使用python定

9、制mitmproxy,下面的语句请求的是( )。req.headersUser-AgentA.headersB.文本内容C.目标网站D.user-agent参考答案:D33. 如果目标网站有反爬虫声明,那么对方在被爬虫爬取以后,可以根据( )来起诉使用爬虫的公司。A.服务器日志B.数据库日志记录C.程序日志记录D.服务器监控参考答案:ABCD34. Python中若定义object=(1,2,3,4,5),则print(object:3)输出( )。A.345B.34C.45D.123参考答案:C35. PyMongo中逻辑查询表示大于的符号是( )PyMongo中逻辑查询表示大于的符号是(

10、)A.$gtB.$ltC.$gte$lte参考答案:A36. 在有spiders何setting.py这两项的情况下,可以写出爬虫并且保存数据,items.py和pipelines.py文件是原作者的失误而导致的冗余文件。( )T.对F.错参考答案:F37. ( )是一个传递信息的通道。它负责将爬取博文列表页获取到的信息传递给负责爬取正文页的方法中。( )是一个传递信息的通道。它负责将爬取博文列表页获取到的信息传递给负责爬取正文页的方法中。A.metaB.headC.headerD.body参考答案:A38. 以下哪些可以独立成为Python编译器( )以下哪些可以独立成为Python编译器(

11、 )A.PycharmB.IDLEC.EclipseD.Visual Studio 2010参考答案:AB39. ( )是一个传递信息的通道。它负责将爬取博文列表页获取到的信息传递给负责爬取正文页的方法中。A.metaB.headC.headerD.body参考答案:A40. 使用BeautifulSoup对象后可以使用( )来查找内容A.find_allB.findC.searchD.search_all参考答案:AB41. 浏览器用来记录用户状态信息的数据叫( )浏览器用来记录用户状态信息的数据叫( )A.sessionB.cookiesC.moonpiesD.selenium参考答案:B

12、42. 一个可行的自动更换代理的爬虫系统,应该下列哪些功能?( )A.有一个小爬虫ProxySpider去各大代理网站爬取免费代理并验证,将可以使用的代理IP保存到数据库中B.在发现某个请求已经被设置过代理后,什么也不做,直接返回C.在ProxyMiddlerware的process_request中,每次从数据库里面随机选择一条代理IP地址使用D.周期性验证数据库中的无效代理,及时将其删除参考答案:ACD43. Redis若要进入交互环境,需要打开终端输入( )Redis若要进入交互环境,需要打开终端输入( )A.redis-cliB.redisC.redis-D.redis-start参考

13、答案:A44. process_spider_output(response, result, output)是在下载器中间件处理完成后,马上要进入某个回调函数parse_xxx( )前调用。( )process_spider_output(response, result, output)是在下载器中间件处理完成后,马上要进入某个回调函数parse_xxx( )前调用。( )A.正确B.错误参考答案:B45. 使用UI Automator获滚动屏幕的操作是得到相应控件后使用命令( )A.scrollB.scroll_upC.scroll_forwordD.scroll_back参考答案:A4

14、6. 引用中间件时后面的数字代表的是中间件的执行顺序,例如 &39;AdvanceSpider.middlewares.ProxyMiddleware&39;: 543中的543。( )T.对F.错参考答案:T47. Python中若定义object=“12345”,则print(object:-1)输出( )。A.1B.5C.54321D.程序报错参考答案:C48. 当爬虫创建好了之后,可以使用“scrapy( )”命令运行爬虫。A.startupB.starwarC.drawlD.crawl参考答案:D49. 引用中间件时后面的数字代表的是中间件的执行顺序,例如 AdvanceSpider

15、.middlewares.ProxyMiddleware:543 中的543。( )A.正确B.错误参考答案:A50. charles配置中,安装完成证书以后,在设置中打开“关于本机”,找到最下面的“证书信任设置”,并在里面启动对Charles证书的完全信任。( )T.对F.错参考答案:T51. charles配置中,安装完成证书以后,在设置中打开“关于本机”,找到最下面的“证书信任设置”,并在里面启动对Charles证书的完全信任。( )charles配置中,安装完成证书以后,在设置中打开“关于本机”,找到最下面的“证书信任设置”,并在里面启动对Charles证书的完全信任。( )A.正确B

16、.错误参考答案:A52. Python中把列表转换为集合需要使用( )函数。A.setB.listC.convertD.change参考答案:A53. 使用UI Automatorr根据坐标来滑动桌面的操作是得到相应控件后使用命令( )。A.swipeB.moveC.scrollD.fly参考答案:A54. Python并导入uiautomator来操作设备的语句是from uiautomator import( )Python并导入uiautomator来操作设备的语句是from uiautomator import( )A.DeviceB.DevicesC.JobsD.Job参考答案:A5

17、5. HTTP常用状态码表明请求被正常处理的有( )。A.200B.301C.302D.204参考答案:AD56. 如果使用Python的数据结构来做类比的话,MongoDB中库相当于一个( )。A.列表B.元组C.字典D.集合参考答案:C57. PyMongo中逻辑查询表示大于等于的符号是( )PyMongo中逻辑查询表示大于等于的符号是( )A.$gtB.$ltC.$gteD.$lte参考答案:C58. 网站返回的Headers中经常有Cookies,可以用mitmdump脚本使用print函数把Cookies打印出来。( )T.对F.错参考答案:F59. 开源库pytesseract的作用是将图像中文字转换为文本。( )A.正确B.错误参考答案:A60. “curl http:/爬虫服务器IP地址:6800/cancel.json-d project=工程名-d job=爬虫JOBID”该命令的作用是启动爬虫。( )A.正确B.错误参考答案:B

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!