欢迎来到装配图网! | 帮助中心 装配图网zhuangpeitu.com!
装配图网
ImageVerifierCode 换一换
首页 装配图网 > 资源分类 > DOCX文档下载
 

南开大学21秋《网络爬虫与信息提取》平时作业1答案参考74

  • 资源ID:74782342       资源大小:13.27KB        全文页数:11页
  • 资源格式: DOCX        下载积分:10积分
快捷下载 游客一键下载
会员登录下载
微信登录下载
三方登录下载: 微信开放平台登录 支付宝登录   QQ登录   微博登录  
二维码
微信扫一扫登录
下载资源需要10积分
邮箱/手机:
温馨提示:
用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
支付方式: 支付宝    微信支付   
验证码:   换一换

 
账号:
密码:
验证码:   换一换
  忘记密码?
    
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

南开大学21秋《网络爬虫与信息提取》平时作业1答案参考74

南开大学21秋网络爬虫与信息提取平时作业1答案参考1. 当需要把Python里面的数据发送给网页时,应先将其转换成( )当需要把Python里面的数据发送给网页时,应先将其转换成( )A.Json字符串B.GETC.POSTD.Request参考答案:A2. 以下表示请求正常处理的HTTP状态码为( )以下表示请求正常处理的HTTP状态码为( )A.200B.301C.404D.500参考答案:A3. Redis若要进入交互环境,需要打开终端输入( )。A.redis-cliB.redisC.redis-cmdD.redis-start参考答案:A4. ( )是一个传递信息的通道。它负责将爬取博文列表页获取到的信息传递给负责爬取正文页的方法中。( )是一个传递信息的通道。它负责将爬取博文列表页获取到的信息传递给负责爬取正文页的方法中。A.metaB.headC.headerD.body参考答案:A5. 为了保证数据插入效率,在内存允许的情况下,应该一次性把数据读入内存,尽量减少对MongoDB的读取操作。( )T.对F.错参考答案:T6. 自己能查看的数据,允许擅自拿给第三方查看。( )T.对F.错参考答案:F7. HTTP常用状态码表明服务器不允许访问那个资源的是( )A.500B.503C.403D.405参考答案:C8. 在发送请求时需要注意requests提交的请求头不能与浏览器的请求头一致,因为这样才能隐藏好自己达到获取数据的目的。( )A.正确B.错误参考答案:B9. 如果通过爬虫抓取某公司网站的公开数据,分析以后发现这个公司业绩非常好,于是买入该公司股票并赚了一笔钱。这是合法的。( )A.正确B.错误参考答案:A10. 爬虫的源代码通过公开不会对被爬虫网站造成影响。( )A.正确B.错误参考答案:B11. 如果爬虫爬取的是商业网站,并且目标网站使用了反爬虫机制,那么强行突破反爬虫机制可能构成( )。A.非法侵入计算机系统罪B.非法获取计算机信息系统数据罪C.非法获取计算机数据罪D.非法获取系统罪参考答案:AB12. Robo 3T与RoboMongo是完全不一样的软件。( )Robo 3T与RoboMongo是完全不一样的软件。( )A.正确B.错误参考答案:B13. process_spider_input(response, spider)是在爬虫运行yield item或者yield scrapy.Request( )的时候调用。( )T.对F.错参考答案:F14. 虽然MongoDB相比于MySQL来说,速度快了很多,但是频繁读写MongoDB还是会严重拖慢程序的执行速度。( )T.对F.错参考答案:T15. requests中post请求方法的使用为requests.post(网址, data=data)中的data为( )。A.列表B.元组C.字典D.集合参考答案:C16. 在Windows中下若要运行Redis可以运行redis-server/usr/local/etc/redis.conf。( )T.对F.错参考答案:F17. Charles能截获HTTP和HTTPS的数据包,如果网站使用websocket就可以截获。( )A.正确B.错误参考答案:B18. 使用异步加载技术的网站,被加载的内容可以在源代码中找到。( )T.对F.错参考答案:F19. 要使用tesseract来进行图像识别,需要安装两个第三方库( )要使用tesseract来进行图像识别,需要安装两个第三方库( )A.requestsB.beautifulsoupC.PillowD.pytesseract参考答案:CD20. 使用UI Automatorr让屏幕向右滚动的操作是得到相应控件后使用命令scroll.horiz.forward( )。( )T.对F.错参考答案:F21. Python中Object=&39;obj_1&39;:&39;1&39;,&39;obj_2&39;:&39;2&39;,则Objcet.get(&39;boj_1&39;,&39;3&39;)是( )Python中Object='obj_1':'1','obj_2':'2',则Objcet.get('boj_1','3')是( )A.1B.2C.3D.无输出参考答案:A22. XPath提取出来的内容是一个SelectorList对象,它的第0个元素就是网页的源代码。( )T.对F.错参考答案:F23. Python中直接对浮点数进行计算有print(0.1+0.2),则结果为0.3。( )A.正确B.错误参考答案:B24. Redis中使用lrange读取数据后数据也会删除。( )A.正确B.错误参考答案:B25. Charles是一个收费软件,如果没有注册,安装以后的前30天可以正常使用。30天以后,虽然功能不会缩水,但每过30分钟Charles会自动关闭一次。( )A.正确B.错误参考答案:A26. 如果使用Python的数据结构来做类比的话,MongoDB中库相当于一个大字典,大字典里面的每一个键值对都对应了一个集合,Key为集合的名字,Value就是一个( )。A.字典B.集合的名字C.集合D.文档参考答案:C27. Scrapy_redis是Scrapy的“( )”,它已经封装了使用Scrapy操作Redis的各个方法。Scrapy_redis是Scrapy的“( )”,它已经封装了使用Scrapy操作Redis的各个方法。A.组件B.模块C.控件D.单元参考答案:A28. Python中退出循环应用关键字( )。A.breakB.continueC.exitD.return参考答案:A29. 当使用Scarpy创建爬虫时,当爬取网易云音乐首页信息时,scrapy genspider的第二个参数直接输入就可以了。( )T.对F.错参考答案:F30. 所有的异步加载都会向后台发送请求。( )T.对F.错参考答案:F31. 使用Charles,可以轻松截获手机App和微信小程序的数据包,从而开发出直接抓取App后台和小程序后台的爬虫。( )使用Charles,可以轻松截获手机App和微信小程序的数据包,从而开发出直接抓取App后台和小程序后台的爬虫。( )A.正确B.错误参考答案:A32. HTTP常用状态码表明服务器上没有请求的资源的是( )A.500B.503C.403D.404参考答案:D33. Python并导入uiautomator来操作设备的语句是from uiautomator import( )。A.DeviceB.DevicesC.JobsD.Job参考答案:A34. 一个可行的自动更换代理的爬虫系统,应该下列哪些功能?( )A.有一个小爬虫ProxySpider去各大代理网站爬取免费代理并验证,将可以使用的代理IP保存到数据库中B.在发现某个请求已经被设置过代理后,什么也不做,直接返回C.在ProxyMiddlerware的process_request中,每次从数据库里面随机选择一条代理IP地址使用D.周期性验证数据库中的无效代理,及时将其删除参考答案:ACD35. PyMongo更新操作有( )PyMongo更新操作有( )A.updateB.update_allC.update_oneD.update_many参考答案:CD36. 当Charles抓包以后,在Mac OS系统下可以按Command+F组合键,在Windows系统下按Ctrl+F组合键打开Charles进行搜索。( )T.对F.错参考答案:T37. Python中( )与元组由类似的数据读取方式。A.字符串B.列表C.字典D.集合参考答案:AB38. Python中把列表转换为集合需要使用( )函数。A.setB.listC.convertD.change参考答案:A39. charles配置中,安装完成证书以后,在设置中打开“关于本机”,找到最下面的“证书信任设置”,并在里面启动对Charles证书的完全信任。( )T.对F.错参考答案:T40. Python中直接对浮点数进行计算有print(0.1+0.2),则结果为0.3。( )T.对F.错参考答案:F41. Cookies一般包含在请求头Headers中。( )T.对F.错参考答案:T42. 用Xpathh获取第二个div标签应该是( )用Xpathh获取第二个div标签应该是( )A.dvi(1)B.div(2)C.div1D.div2参考答案:D43. 以下哪个命令是利用URL语法在命令行下工作的文件传输工具( )以下哪个命令是利用URL语法在命令行下工作的文件传输工具( )A.curlB.tar -zxvfC.mkdirD.cp参考答案:A44. 使用Nginx反向代理到Scrapyd以后,Scrapyd本身只需要开通内网访问即可,不许经过输入密码。( )A.正确B.错误参考答案:A45. Redis插入数据都是插入到列表右侧,因此读取数据也是从右侧读取。( )A.正确B.错误参考答案:B46. robots.txt是一种规范,在法律范畴内。( )A.正确B.错误参考答案:B47. MongoDB是一个关系数据库产品。( )A.正确B.错误参考答案:B48. 在Linux的终端使用apt-get命令安装一系列依赖库时,其中如果存在有已经安装的库,会覆盖掉之前的库重新安装。( )在Linux的终端使用apt-get命令安装一系列依赖库时,其中如果存在有已经安装的库,会覆盖掉之前的库重新安装。( )A.正确B.错误参考答案:B49. 下列说法错误的是( )。A.小程序的请求极其简单,基本上没有验证信息B.用Python来请求小程序的后台接口从而获取数据,比请求异步加载网页的后台接口要复杂很多C.如果目标网站有微信小程序,那么一定要优先调查能否通过小程序的接口来抓取数据D.小程序的反爬虫能力比网页版的低很多。使用小程序的接口来爬数据,能极大提高爬虫的开发效率参考答案:D50. 在MacOS下若要运行Redis可以运行解压以后的文件夹下面的src文件夹中的redis-server文件启动redis服务src/redis-server。( )T.对F.错参考答案:F

注意事项

本文(南开大学21秋《网络爬虫与信息提取》平时作业1答案参考74)为本站会员(住在山****ck)主动上传,装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知装配图网(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!