南开大学22春《网络爬虫与信息提取》在线作业一及答案参考28

上传人:住在山****ck 文档编号:88068762 上传时间:2022-05-10 格式:DOCX 页数:14 大小:14.11KB
收藏 版权申诉 举报 下载
南开大学22春《网络爬虫与信息提取》在线作业一及答案参考28_第1页
第1页 / 共14页
南开大学22春《网络爬虫与信息提取》在线作业一及答案参考28_第2页
第2页 / 共14页
南开大学22春《网络爬虫与信息提取》在线作业一及答案参考28_第3页
第3页 / 共14页
资源描述:

《南开大学22春《网络爬虫与信息提取》在线作业一及答案参考28》由会员分享,可在线阅读,更多相关《南开大学22春《网络爬虫与信息提取》在线作业一及答案参考28(14页珍藏版)》请在装配图网上搜索。

1、南开大学22春网络爬虫与信息提取在线作业一及答案参考1. 使用UI Automatorr让屏幕向右滚动的操作是得到相应控件后使用命令scroll.horiz.forward( )。( )T.对F.错参考答案:F2. 一个可行的自动更换代理的爬虫系统,应该下列哪些功能?( )A.有一个小爬虫ProxySpider去各大代理网站爬取免费代理并验证,将可以使用的代理IP保存到数据库中B.在发现某个请求已经被设置过代理后,什么也不做,直接返回C.在ProxyMiddlerware的process_request中,每次从数据库里面随机选择一条代理IP地址使用D.周期性验证数据库中的无效代理,及时将其删

2、除参考答案:ACD3. 以下哪些可以独立成为Python编译器( )以下哪些可以独立成为Python编译器( )A.PycharmB.IDLEC.EclipseD.Visual Studio 2010参考答案:AB4. UI Automator Viewer与Python uiautomator可以同时使用。( )A.正确B.错误参考答案:B5. Python中把列表转换为集合需要使用( )函数Python中把列表转换为集合需要使用( )函数A.setB.listC.convertD.change参考答案:A6. Python正则表达式中“.*?”是非贪婪模式,获取最短的能满足条件的字符串。(

3、 )A.正确B.错误参考答案:A7. 下列说法错误的是( )。A.小程序的请求极其简单,基本上没有验证信息B.用Python来请求小程序的后台接口从而获取数据,比请求异步加载网页的后台接口要复杂很多C.如果目标网站有微信小程序,那么一定要优先调查能否通过小程序的接口来抓取数据D.小程序的反爬虫能力比网页版的低很多。使用小程序的接口来爬数据,能极大提高爬虫的开发效率参考答案:D8. 某些网站在发起Ajax请求时会携带( )字符串用于身份验证某些网站在发起Ajax请求时会携带( )字符串用于身份验证A.TokenB.CookieC.ReqTimeD.sum参考答案:A9. Redis中往集合中添加

4、数据,使用关键字( )Redis中往集合中添加数据,使用关键字( )A.saddB.addC.appendD.sappend参考答案:A10. Python中包含字典的列表页可以转换成JSON字符串。( )Python中包含字典的列表页可以转换成JSON字符串。( )A.正确B.错误参考答案:A11. 下列关于mitmproxy的安装说法错误的是( )A.对于Mac OS系统,使用Homebrew安装mitmproxy,命令为:brew install mitmproxyB.在Ubuntu中,要安装mitmproxy,首先需要保证系统的Python为Python3.5或者更高版本C.在wind

5、ows系统中无法使用linux的命令,只能通过下载安装包来安装D.UBUNTU中执行命令 sudo pip3 installmitmproxy 进行安装参考答案:C12. 以下HTTP状态码表示服务器没有正常返回结果的是( )。A.200B.301C.404D.500参考答案:BCD13. 以下哪个命令是linux下解压缩命令?( )A.curlB.tar-zxvfC.mkdirD.cp参考答案:B14. 插入数据时,MongoDB会自动添加一列“_id”,也就是自增ID,每次自动加1。( )T.对F.错参考答案:F15. 爬虫中间件的激活需要另外写一个文件来进行。( )A.正确B.错误参考答

6、案:B16. 当爬虫创建好了之后,可以使用“scrapy( )”命令运行爬虫。A.startupB.starwarC.drawlD.crawl参考答案:D17. 当运行爬虫代码后,出现“Forbidden by robots.txt”提示后,说明当前时间段被爬取的网站无法访问。( )当运行爬虫代码后,出现“Forbidden by robots.txt”提示后,说明当前时间段被爬取的网站无法访问。( )A.正确B.错误参考答案:B18. XPath提取出来的内容是一个SelectorList对象,它的第0个元素就是网页的源代码。( )T.对F.错参考答案:F19. HTTP常用状态码表明服务器

7、上没有请求的资源的是( )A.500B.503C.403D.404参考答案:D20. 用Xpathh获取第二个div标签应该是( )用Xpathh获取第二个div标签应该是( )A.dvi(1)B.div(2)C.div1D.div2参考答案:D21. Python中直接对浮点数进行计算有print(0.1+0.2),则结果为0.3。( )T.对F.错参考答案:F22. xpath中extract方法返回值类型是( )xpath中extract方法返回值类型是( )A.列表B.元组C.字典D.集合参考答案:A23. 在Mac OS下安装MongoDB使用命令( )install mongodb

8、。A.brewB.apt-getC.sudoD.apt参考答案:A24. MongoDB URI的格式为:mongodb:/服务器IP或域名:端口用户名:密码。( )MongoDB URI的格式为:mongodb:/服务器IP或域名:端口用户名:密码。( )A.正确B.错误参考答案:B25. Python中退出循环应用关键字( )。A.breakB.continueC.exitD.return参考答案:A26. 采用以下( )技术可以实现异步加载A.HTMLB.AJAXC.CSSD.HTTP参考答案:B27. Redis是( )数据库。A.关系数据库B.键值数据库C.列存数据库D.图数据库参考

9、答案:B28. chrome开发者工具没法对数据进行搜索。如果想知道一个特定的异步加载内容来自哪个请求,必须在“Network”选项卡里面一个请求一个请求地进行查看。( )T.对F.错参考答案:T29. 爬虫中间件的作用对象是请求request和返回response。( )爬虫中间件的作用对象是请求request和返回response。( )A.正确B.错误参考答案:B30. Charles和Chrome开发者工具相比,只是多了一个搜索功能。( )A.正确B.错误参考答案:B31. 查看网站请求一般在Chrome开发者模式下的( )选项卡中查看查看网站请求一般在Chrome开发者模式下的( )

10、选项卡中查看A.ConsoleB.SourcesC.NetworkD.Perance参考答案:C32. Python正则表达式模块的findall方法提取内容包含多个,则返回结果的列表中会包含( )Python正则表达式模块的findall方法提取内容包含多个,则返回结果的列表中会包含( )A.列表B.元组C.字典D.集合参考答案:B33. 已经创建好的Scrapy爬虫*.py文件可以直接通过Python来运行。( )A.正确B.错误参考答案:B34. 在Scrapy的目录下,哪个文件负责定义需要爬取的数据?( )A.spiders文件夹B.item.pyC.pipeline.pyD.sett

11、ings.py参考答案:B35. 引用中间件时后面的数字代表的是中间件的执行顺序,例如 AdvanceSpider.middlewares.ProxyMiddleware:543 中的543。( )A.正确B.错误参考答案:A36. Python中使用下面代码打开文件也需要对文件进行close关闭操作 with open(文件路径,文件操作方式,encoding=utf-8)as f。( )A.正确B.错误参考答案:B37. 在charles中使用CTRL+F搜索,JSON里面的中文是可以直接搜索到的。( )T.对F.错参考答案:F38. 自动填充验证码的方式有( )自动填充验证码的方式有(

12、)A.手动识别填写B.图像识别C.打码网站D.浏览器自动识别参考答案:BC39. 一般来说在页面都通过GET将用户登录信息传递到服务器端。( )一般来说在页面都通过GET将用户登录信息传递到服务器端。( )A.正确B.错误参考答案:B40. Python中通过Key来从字典object中读取对应的Value的方法有( )Python中通过Key来从字典object中读取对应的Value的方法有( )A.objectkeyB.object.get(key)C.object.pop(key)D.object.pop( )参考答案:AB41. Python并导入uiautomator来操作设备的语句

13、是from uiautomator import( )。A.DeviceB.DevicesC.JobsD.Job参考答案:A42. 在中间人攻击中,攻击者可以拦截通信双方的通话,并插入新的内容或者修改原有内容。( )在中间人攻击中,攻击者可以拦截通信双方的通话,并插入新的内容或者修改原有内容。( )A.正确B.错误参考答案:A43. PyMongo更新操作有( )。A.updateB.update_allC.update_oneD.update_many参考答案:CD44. Python正则表达式模块的findall方法提取内容包含多个,则返回结果的列表中会包含( )A.列表B.元组C.字典D

14、.集合参考答案:B45. Scrapy作为一个爬虫的框架,它在单机环境下运行时就可以获得最大性能优势。( )Scrapy作为一个爬虫的框架,它在单机环境下运行时就可以获得最大性能优势。( )A.正确B.错误参考答案:B46. 通用搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查询。( )T.对F.错参考答案:T47. Redis中的值可以支持( )Redis中的值可以支持( )A.列表B.哈希C.集合D.有序集合参考答案:ABCD48. Charles是一个收费软件,如果没有注册,安装以后的前30天可以正常使用。30天以后,虽然功能不会缩水,但每过30分钟Charles会自动关闭

15、一次。( )T.对F.错参考答案:T49. 使用Nginx反向代理到Scrapyd以后,Scrapyd本身只需要开通内网访问即可,不许经过输入密码。( )A.正确B.错误参考答案:A50. Scrapy_redis是Scrapy的“( )”,它已经封装了使用Scrapy操作Redis的各个方法。Scrapy_redis是Scrapy的“( )”,它已经封装了使用Scrapy操作Redis的各个方法。A.组件B.模块C.控件D.单元参考答案:A51. 要使用Python来操作UI Automator从而控制手机,需要安装一个第三方库( )A.uiautomatorB.automatorC.ui_

16、automatorD.pyautomator参考答案:A52. Python中定义函数关键字为( )。A.defB.defineC.funcD.function参考答案:A53. Python中写CSV文件的writerows方法参数为字典类型。( )T.对F.错参考答案:F54. cookies在http请求中是明文传输的。( )cookies在http请求中是明文传输的。( )A.正确B.错误参考答案:A55. Scrapy的工程名字不能使用scrapy,否则爬虫会无法运行。除此以外工程名不受限制。( )T.对F.错参考答案:F56. Python中条件语句在使用or连接的多个表达式中,只

17、要有一个表达式为真,那么后面的表达式就不会执行。( )T.对F.错参考答案:T57. 使用python定制mitmproxy,下面的语句请求的是( )。req.headersUser-Agent使用python定制mitmproxy,下面的语句请求的是( )。req.headersUser-AgentA.headersB.文本内容C.目标网站D.user-agent参考答案:D58. 虽然MongoDB相比于MySQL来说,速度快了很多,但是频繁读写MongoDB还是会严重拖慢程序的执行速度。( )A.正确B.错误参考答案:A59. 爬虫登录需要识别验证码可以先把程序关闭,肉眼识别以后再重新运行。( )A.正确B.错误参考答案:B60. Python中( )容器有推导式。Python中( )容器有推导式。A.列表B.元组C.字典D.集合参考答案:ACD

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!