南开大学21秋《网络爬虫与信息提取》平时作业1答案参考74

上传人：住在山****ck 文档编号：74782342 上传时间：2022-04-14 格式：DOCX 页数：11 大小：13.27KB

收藏版权申诉举报下载

第1页 / 共11页

第2页 / 共11页

第3页 / 共11页

下载文档到电脑，查找使用更方便

10 积分

下载资源

资源描述：

《南开大学21秋《网络爬虫与信息提取》平时作业1答案参考74》由会员分享，可在线阅读，更多相关《南开大学21秋《网络爬虫与信息提取》平时作业1答案参考74（11页珍藏版）》请在装配图网上搜索。

1、南开大学21秋网络爬虫与信息提取平时作业1答案参考1. 当需要把Python里面的数据发送给网页时，应先将其转换成( )当需要把Python里面的数据发送给网页时，应先将其转换成( )A.Json字符串B.GETC.POSTD.Request参考答案：A2. 以下表示请求正常处理的HTTP状态码为( )以下表示请求正常处理的HTTP状态码为( )A.200B.301C.404D.500参考答案：A3. Redis若要进入交互环境，需要打开终端输入( )。A.redis-cliB.redisC.redis-cmdD.redis-start参考答案：A4. ( )是一个传递信息的通道。它负责将爬取

2、博文列表页获取到的信息传递给负责爬取正文页的方法中。( )是一个传递信息的通道。它负责将爬取博文列表页获取到的信息传递给负责爬取正文页的方法中。A.metaB.headC.headerD.body参考答案：A5. 为了保证数据插入效率，在内存允许的情况下，应该一次性把数据读入内存，尽量减少对MongoDB的读取操作。( )T.对F.错参考答案：T6. 自己能查看的数据，允许擅自拿给第三方查看。( )T.对F.错参考答案：F7. HTTP常用状态码表明服务器不允许访问那个资源的是( )A.500B.503C.403D.405参考答案：C8. 在发送请求时需要注意requests提交的请求头不能与

3、浏览器的请求头一致，因为这样才能隐藏好自己达到获取数据的目的。( )A.正确B.错误参考答案：B9. 如果通过爬虫抓取某公司网站的公开数据，分析以后发现这个公司业绩非常好，于是买入该公司股票并赚了一笔钱。这是合法的。( )A.正确B.错误参考答案：A10. 爬虫的源代码通过公开不会对被爬虫网站造成影响。( )A.正确B.错误参考答案：B11. 如果爬虫爬取的是商业网站，并且目标网站使用了反爬虫机制，那么强行突破反爬虫机制可能构成( )。A.非法侵入计算机系统罪B.非法获取计算机信息系统数据罪C.非法获取计算机数据罪D.非法获取系统罪参考答案：AB12. Robo 3T与RoboMongo是完全

4、不一样的软件。( )Robo 3T与RoboMongo是完全不一样的软件。( )A.正确B.错误参考答案：B13. process_spider_input(response， spider)是在爬虫运行yield item或者yield scrapy.Request( )的时候调用。( )T.对F.错参考答案：F14. 虽然MongoDB相比于MySQL来说，速度快了很多，但是频繁读写MongoDB还是会严重拖慢程序的执行速度。( )T.对F.错参考答案：T15. requests中post请求方法的使用为requests.post(网址， data=data)中的data为( )。A.列表

5、B.元组C.字典D.集合参考答案：C16. 在Windows中下若要运行Redis可以运行redis-server/usr/local/etc/redis.conf。( )T.对F.错参考答案：F17. Charles能截获HTTP和HTTPS的数据包，如果网站使用websocket就可以截获。( )A.正确B.错误参考答案：B18. 使用异步加载技术的网站，被加载的内容可以在源代码中找到。( )T.对F.错参考答案：F19. 要使用tesseract来进行图像识别，需要安装两个第三方库( )要使用tesseract来进行图像识别，需要安装两个第三方库( )A.requestsB.beauti

6、fulsoupC.PillowD.pytesseract参考答案：CD20. 使用UI Automatorr让屏幕向右滚动的操作是得到相应控件后使用命令scroll.horiz.forward( )。( )T.对F.错参考答案：F21. Python中Object=&39;obj_1&39;:&39;1&39;,&39;obj_2&39;:&39;2&39;，则Objcet.get(&39;boj_1&39;,&39;3&39;)是( )Python中Object=obj_1:1,obj_2:2，则Objcet.get(boj_1,3)是( )A.1B.2C.3D.无输出参考答案：A22. X

7、Path提取出来的内容是一个SelectorList对象，它的第0个元素就是网页的源代码。( )T.对F.错参考答案：F23. Python中直接对浮点数进行计算有print(0.1+0.2)，则结果为0.3。( )A.正确B.错误参考答案：B24. Redis中使用lrange读取数据后数据也会删除。( )A.正确B.错误参考答案：B25. Charles是一个收费软件，如果没有注册，安装以后的前30天可以正常使用。30天以后，虽然功能不会缩水，但每过30分钟Charles会自动关闭一次。( )A.正确B.错误参考答案：A26. 如果使用Python的数据结构来做类比的话，MongoDB中库

8、相当于一个大字典，大字典里面的每一个键值对都对应了一个集合，Key为集合的名字，Value就是一个( )。A.字典B.集合的名字C.集合D.文档参考答案：C27. Scrapy_redis是Scrapy的“( )”，它已经封装了使用Scrapy操作Redis的各个方法。Scrapy_redis是Scrapy的“( )”，它已经封装了使用Scrapy操作Redis的各个方法。A.组件B.模块C.控件D.单元参考答案：A28. Python中退出循环应用关键字( )。A.breakB.continueC.exitD.return参考答案：A29. 当使用Scarpy创建爬虫时，当爬取网易云音乐首页

9、信息时，scrapy genspider的第二个参数直接输入就可以了。( )T.对F.错参考答案：F30. 所有的异步加载都会向后台发送请求。( )T.对F.错参考答案：F31. 使用Charles，可以轻松截获手机App和微信小程序的数据包，从而开发出直接抓取App后台和小程序后台的爬虫。( )使用Charles，可以轻松截获手机App和微信小程序的数据包，从而开发出直接抓取App后台和小程序后台的爬虫。( )A.正确B.错误参考答案：A32. HTTP常用状态码表明服务器上没有请求的资源的是( )A.500B.503C.403D.404参考答案：D33. Python并导入uiautoma

10、tor来操作设备的语句是from uiautomator import( )。A.DeviceB.DevicesC.JobsD.Job参考答案：A34. 一个可行的自动更换代理的爬虫系统，应该下列哪些功能?( )A.有一个小爬虫ProxySpider去各大代理网站爬取免费代理并验证，将可以使用的代理IP保存到数据库中B.在发现某个请求已经被设置过代理后，什么也不做，直接返回C.在ProxyMiddlerware的process_request中，每次从数据库里面随机选择一条代理IP地址使用D.周期性验证数据库中的无效代理，及时将其删除参考答案：ACD35. PyMongo更新操作有( )PyM

11、ongo更新操作有( )A.updateB.update_allC.update_oneD.update_many参考答案：CD36. 当Charles抓包以后，在Mac OS系统下可以按Command+F组合键，在Windows系统下按Ctrl+F组合键打开Charles进行搜索。( )T.对F.错参考答案：T37. Python中( )与元组由类似的数据读取方式。A.字符串B.列表C.字典D.集合参考答案：AB38. Python中把列表转换为集合需要使用( )函数。A.setB.listC.convertD.change参考答案：A39. charles配置中，安装完成证书以后，在设置中

12、打开“关于本机”，找到最下面的“证书信任设置”，并在里面启动对Charles证书的完全信任。( )T.对F.错参考答案：T40. Python中直接对浮点数进行计算有print(0.1+0.2)，则结果为0.3。( )T.对F.错参考答案：F41. Cookies一般包含在请求头Headers中。( )T.对F.错参考答案：T42. 用Xpathh获取第二个div标签应该是( )用Xpathh获取第二个div标签应该是( )A.dvi(1)B.div(2)C.div1D.div2参考答案：D43. 以下哪个命令是利用URL语法在命令行下工作的文件传输工具( )以下哪个命令是利用URL语法在命令

13、行下工作的文件传输工具( )A.curlB.tar -zxvfC.mkdirD.cp参考答案：A44. 使用Nginx反向代理到Scrapyd以后，Scrapyd本身只需要开通内网访问即可，不许经过输入密码。( )A.正确B.错误参考答案：A45. Redis插入数据都是插入到列表右侧，因此读取数据也是从右侧读取。( )A.正确B.错误参考答案：B46. robots.txt是一种规范，在法律范畴内。( )A.正确B.错误参考答案：B47. MongoDB是一个关系数据库产品。( )A.正确B.错误参考答案：B48. 在Linux的终端使用apt-get命令安装一系列依赖库时，其中如果存在有已

14、经安装的库，会覆盖掉之前的库重新安装。( )在Linux的终端使用apt-get命令安装一系列依赖库时，其中如果存在有已经安装的库，会覆盖掉之前的库重新安装。( )A.正确B.错误参考答案：B49. 下列说法错误的是( )。A.小程序的请求极其简单，基本上没有验证信息B.用Python来请求小程序的后台接口从而获取数据，比请求异步加载网页的后台接口要复杂很多C.如果目标网站有微信小程序，那么一定要优先调查能否通过小程序的接口来抓取数据D.小程序的反爬虫能力比网页版的低很多。使用小程序的接口来爬数据，能极大提高爬虫的开发效率参考答案：D50. 在MacOS下若要运行Redis可以运行解压以后的文件夹下面的src文件夹中的redis-server文件启动redis服务src/redis-server。( )T.对F.错参考答案：F

展开阅读全文

温馨提示:
1: 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

备案号:蜀ICP备2024067431号-1 川公网安备51140202000466号

本站为文档C2C交易模式，即用户上传的文档直接被用户下载，本站只是中间服务平台，本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私，请立即通知装配图网，我们立即给予删除！

南开大学21秋《网络爬虫与信息提取》平时作业1答案参考74

最新文档

相关资源

相关搜索