南开大学21秋《网络爬虫与信息提取》平时作业1答案参考64

上传人:住在山****ck 文档编号:75263415 上传时间:2022-04-15 格式:DOCX 页数:11 大小:13KB
收藏 版权申诉 举报 下载
南开大学21秋《网络爬虫与信息提取》平时作业1答案参考64_第1页
第1页 / 共11页
南开大学21秋《网络爬虫与信息提取》平时作业1答案参考64_第2页
第2页 / 共11页
南开大学21秋《网络爬虫与信息提取》平时作业1答案参考64_第3页
第3页 / 共11页
资源描述:

《南开大学21秋《网络爬虫与信息提取》平时作业1答案参考64》由会员分享,可在线阅读,更多相关《南开大学21秋《网络爬虫与信息提取》平时作业1答案参考64(11页珍藏版)》请在装配图网上搜索。

1、南开大学21秋网络爬虫与信息提取平时作业1答案参考1. 在Scrapy的目录下,哪个文件负责存放爬虫的各种配置信息?( )A.spiders文件夹B.item.pyC.pipeline.pyD.settings.py参考答案:D2. Python中包含字典的列表页可以转换成JSON字符串。( )Python中包含字典的列表页可以转换成JSON字符串。( )A.正确B.错误参考答案:A3. 已经创建好的Scrapy爬虫*.py文件可以直接通过Python来运行。( )A.正确B.错误参考答案:B4. Charles能截获HTTP和HTTPS的数据包,如果网站使用websocket就可以截获。(

2、)A.正确B.错误参考答案:B5. 爬虫中间件的作用对象是请求request和返回response。( )爬虫中间件的作用对象是请求request和返回response。( )A.正确B.错误参考答案:B6. Scrapy的工程名字不能使用scrapy,否则爬虫会无法运行。除此以外工程名不受限制。( )T.对F.错参考答案:F7. Python中Object=&39;obj_1&39;:&39;1&39;,&39;obj_2&39;:&39;2&39;,则Objcet.get(&39;boj_1&39;,&39;3&39;)是( )Python中Object=obj_1:1,obj_2:2,则

3、Objcet.get(boj_1,3)是( )A.1B.2C.3D.无输出参考答案:A8. 在请求头中设置User-Agent即可正常请求网站。( )在请求头中设置User-Agent即可正常请求网站。( )A.正确B.错误参考答案:B9. 使用UI Automatorr根据坐标来滑动桌面的操作是得到相应控件后使用命令( )。A.swipeB.moveC.scrollD.fly参考答案:A10. 数据抓包就是中间人爬虫的一个简单应用。所以使用Charles也是一种中间人攻击。( )数据抓包就是中间人爬虫的一个简单应用。所以使用Charles也是一种中间人攻击。( )A.正确B.错误参考答案:A

4、11. 在Windows中下若要运行Redis可以运行redis-server/usr/local/etc/redis.conf。( )A.正确B.错误参考答案:B12. 下列关于mitmproxy的安装说法错误的是( )A.对于Mac OS系统,使用Homebrew安装mitmproxy,命令为:brew install mitmproxyB.在Ubuntu中,要安装mitmproxy,首先需要保证系统的Python为Python3.5或者更高版本C.在windows系统中无法使用linux的命令,只能通过下载安装包来安装D.UBUNTU中执行命令 sudo pip3 installmitm

5、proxy 进行安装参考答案:C13. Python中列表生成以后还可以往里面继续添加数据,也可以从里面删除数据。( )Python中列表生成以后还可以往里面继续添加数据,也可以从里面删除数据。( )A.正确B.错误参考答案:A14. charles配置中,安装完成证书以后,在设置中打开“关于本机”,找到最下面的“证书信任设置”,并在里面启动对Charles证书的完全信任。( )charles配置中,安装完成证书以后,在设置中打开“关于本机”,找到最下面的“证书信任设置”,并在里面启动对Charles证书的完全信任。( )A.正确B.错误参考答案:A15. 某些网站在发起Ajax请求时会携带(

6、 )字符串用于身份验证某些网站在发起Ajax请求时会携带( )字符串用于身份验证A.TokenB.CookieC.ReqTimeD.sum参考答案:A16. 以下HTTP状态码表示服务器没有正常返回结果的是( )。A.200B.301C.404D.500参考答案:BCD17. Charles和Chrome开发者工具相比,只是多了一个搜索功能。( )T.对F.错参考答案:F18. 在使用多线程处理问题时,线程池设置越大越好。( )A.正确B.错误参考答案:B19. Python正则表达式中“.*”是贪婪模式,获取最长的满足条件的字符串。( )A.正确B.错误参考答案:A20. process_s

7、pider_input(response,spider)是在爬虫运行yield item或者yield scrapy.Request( )的时候调用。( )A.正确B.错误参考答案:B21. 服务器端记录信息确定用户身份的数据是( )。A.sessionB.cookiesC.moonpiesD.localstorage参考答案:A22. 要使用tesseract来进行图像识别,需要安装两个第三方库( )要使用tesseract来进行图像识别,需要安装两个第三方库( )A.requestsB.beautifulsoupC.PillowD.pytesseract参考答案:CD23. 当爬虫创建好了

8、之后,可以使用scrapy( )命令运行爬虫。A.startupB.starwarC.drawlD.crawl参考答案:D24. cookies在http请求中是明文传输的。( )T.对F.错参考答案:T25. 需要登录的网站一般通过GET请求就可以实现登录。( )A.正确B.错误参考答案:B26. requests中get请求方法的使用为requests.get(网址, data=data)。( )T.对F.错参考答案:F27. 浏览器用来记录用户状态信息的数据叫( )浏览器用来记录用户状态信息的数据叫( )A.sessionB.cookiesC.moonpiesD.selenium参考答案

9、:B28. MongoDB在频繁读写方面优于Redis。( )MongoDB在频繁读写方面优于Redis。( )A.正确B.错误参考答案:B29. Python中一个函数可以有( )个return语句。Python中一个函数可以有( )个return语句。A.0B.1C.多个D.2参考答案:ABCD30. 使用Selennium获取网页中元素的方法有( )。A.find_element_by_nameB.find_element_by_idC.find_elements_by_nameD.find_elements_by_id参考答案:ABCD31. 为了保证数据插入效率,在内存允许的情况下,

10、应该一次性把数据读入内存,尽量减少对MongoDB的读取操作。( )T.对F.错参考答案:T32. 为了在安卓手机上安装证书,需要先发送证书到手机里面。在Charles中选择“Help”-“SSL Proxying”-“Save Charles Root Certificate”命令,可以将Charles的证书保存到计算机桌面。( )T.对F.错参考答案:T33. Python中条件语句在使用or连接的多个表达式中,只要有一个表达式为真,那么后面的表达式就不会执行。( )T.对F.错参考答案:T34. Cookies一般包含在请求头Headers中。( )A.正确B.错误参考答案:A35. R

11、edis中的值可以支持( )。A.列表B.哈希C.集合D.有序集合参考答案:ABCD36. 如果目标网站有反爬虫声明,那么对方在被爬虫爬取以后,可以根据( )来起诉使用爬虫的公司。A.服务器日志B.数据库日志记录C.程序日志记录D.服务器监控参考答案:ABCD37. Python中以下哪个容器里的元素不能重复( )A.列表B.元组C.字典D.集合参考答案:D38. BS4可以用来从( )中提取数据A.HTMLB.XMLC.数据库D.JSON参考答案:AB39. 如果通过爬虫抓取某公司网站的公开数据,分析以后发现这个公司业绩非常好,于是买入该公司股票并赚了一笔钱。这是合法的。( )如果通过爬虫抓

12、取某公司网站的公开数据,分析以后发现这个公司业绩非常好,于是买入该公司股票并赚了一笔钱。这是合法的。( )A.正确B.错误参考答案:A40. Python正则表达式模块的findall方法提取内容包含多个,则返回结果的列表中会包含( )Python正则表达式模块的findall方法提取内容包含多个,则返回结果的列表中会包含( )A.列表B.元组C.字典D.集合参考答案:B41. 查看网站请求一般在Chrome开发者模式下的( )选项卡中查看查看网站请求一般在Chrome开发者模式下的( )选项卡中查看A.ConsoleB.SourcesC.NetworkD.Perance参考答案:C42. 下

13、面关于Charles使用说法错误的是( )A.在数据包非常多的情况下,使用Charles的过滤功能来对数据包进行过滤从而减少干扰B.通过单击图中方框框住的各个选项卡,可以非常直观地观察到请求和返回的各种信息C.如果浏览器是Chrome,在没有安装第三方代理插件的情况下,Chrome的HTTP流量都会经过CharlesD.Charles无法支持计算机上除了浏览器之外的其他软件参考答案:D43. ( )是一个传递信息的通道。它负责将爬取博文列表页获取到的信息传递给负责爬取正文页的方法中。( )是一个传递信息的通道。它负责将爬取博文列表页获取到的信息传递给负责爬取正文页的方法中。A.metaB.he

14、adC.headerD.body参考答案:A44. PyMongo删除操作有( )PyMongo删除操作有( )A.deleteB.delete_allC.delete_oneD.delete_many参考答案:CD45. PyMongo中逻辑查询表示小于等于的符号是( )A.$gtB.$ltC.$gte$lte参考答案:C46. 在Scrapy的目录下,哪个文件负责定义需要爬取的数据?( )A.spiders文件夹B.item.pyC.pipeline.pyD.settings.py参考答案:B47. process_spider_output(response,result,output)是在下载器中间件处理完成后,马上要进入某个回调函数parse_xxx( )前调用。( )A.正确B.错误参考答案:B48. device.sleep( )方法是使用UI Automatorr关闭屏幕的命令。( )A.正确B.错误参考答案:A49. Python可以将列表或字典转换成Json字符串。( )T.对F.错参考答案:T50. 通用搜索引擎的目标是尽可能大的网络覆盖率,搜索引擎服务器资源与网络数据资源互相匹配。( )A.正确B.错误参考答案:B

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!