南开大学22春《网络爬虫与信息提取》离线作业一及答案参考59

上传人:住在****她 文档编号:88373903 上传时间:2022-05-10 格式:DOCX 页数:14 大小:14.10KB
收藏 版权申诉 举报 下载
南开大学22春《网络爬虫与信息提取》离线作业一及答案参考59_第1页
第1页 / 共14页
南开大学22春《网络爬虫与信息提取》离线作业一及答案参考59_第2页
第2页 / 共14页
南开大学22春《网络爬虫与信息提取》离线作业一及答案参考59_第3页
第3页 / 共14页
资源描述:

《南开大学22春《网络爬虫与信息提取》离线作业一及答案参考59》由会员分享,可在线阅读,更多相关《南开大学22春《网络爬虫与信息提取》离线作业一及答案参考59(14页珍藏版)》请在装配图网上搜索。

1、南开大学22春网络爬虫与信息提取离线作业一及答案参考1. 当需要把Python里面的数据发送给网页时,应先将其转换成( )当需要把Python里面的数据发送给网页时,应先将其转换成( )A.Json字符串B.GETC.POSTD.Request参考答案:A2. 通用搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查询。( )T.对F.错参考答案:T3. 通用搜索引擎的目标是尽可能大的网络覆盖率,搜索引擎服务器资源与网络数据资源互相匹配。( )A.正确B.错误参考答案:B4. 浏览器用来记录用户状态信息的数据叫( )浏览器用来记录用户状态信息的数据叫( )A.sessionB.coo

2、kiesC.moonpiesD.selenium参考答案:B5. 参数headers=( ),把请求头添加到Scrapy请求中,使爬虫的请求看起来像是从浏览器发起的。A.HEADERB.HEADERSC.HEADD.BODY参考答案:B6. BS4可以用来从( )中提取数据A.HTMLB.XMLC.数据库D.JSON参考答案:AB7. 在Linux的终端使用apt-get命令安装一系列依赖库时,其中如果存在有已经安装的库,会覆盖掉之前的库重新安装。( )在Linux的终端使用apt-get命令安装一系列依赖库时,其中如果存在有已经安装的库,会覆盖掉之前的库重新安装。( )A.正确B.错误参考答

3、案:B8. 对Charles设置代理时,Ip可以设置为127.0.0.1,端口为8888。( )T.对F.错参考答案:T9. 以下哪个命令是linux下解压缩命令?( )A.curlB.tar-zxvfC.mkdirD.cp参考答案:B10. 可以通过( )绕过网站登录。A.sessionB.cookiesC.moonpiesD.localstorage参考答案:B11. 使用UI Automatorr点亮屏幕的操作是得到相应控件后使用命令( )。A.wakeupB.lightC.brightD.sleep参考答案:A12. Redis中从集合中查看有多少个值,用关键字( )。A.scardB

4、.cardC.countD.distinct参考答案:A13. 如果很多爬虫同时对一个网站全速爬取,那么其实就是对网站进行了( )攻击。A.XSSB.DOSC.DDOSD.跨域参考答案:C14. 以下哪个HTML标签表示定义文档的主体( )以下哪个HTML标签表示定义文档的主体( )A.divB.bodyC.headD.footer参考答案:B15. 下列哪项不是HTTP的请求类型( )下列哪项不是HTTP的请求类型( )A.GETB.POSTC.PUTD.SET参考答案:D16. 自己能查看的数据,允许擅自拿给第三方查看。( )T.对F.错参考答案:F17. MongoDB 是一个基于分布式

5、文件存储的数据库,速度远快过Redis。( )A.对B.错参考答案:B18. Cookies一般包含在请求头Headers中。( )A.正确B.错误参考答案:A19. robots.txt是一种规范,在法律范畴内。( )robots.txt是一种规范,在法律范畴内。( )A.正确B.错误参考答案:B20. Redis插入数据都是插入到列表右侧,因此读取数据也是从右侧读取。( )T.对F.错参考答案:F21. 在MacOS下若要运行Redis可以运行解压以后的文件夹下面的src文件夹中的redis-server文件启动redis服务src/redis-server。( )T.对F.错参考答案:F

6、22. 如果目标网站本身就是提供公众查询服务的网站,那么使用爬虫是合法合规的。( )A.正确B.错误参考答案:A23. 已经创建好的Scrapy爬虫*.py文件可以直接通过Python来运行。( )A.正确B.错误参考答案:B24. 安装mitmdump之前,运行sudo apt-get install python3-dev python3-pip libffi-dev libssl-dev是为了安装必要的运行环境。( )T.对F.错参考答案:T25. Python中线程池map( )方法第二个参数是( )Python中线程池map( )方法第二个参数是( )A.列表B.元组C.字典D.集合

7、参考答案:A26. mitmproxy的强大之处在于它还自带一个mitmdump命令。这个命令可以用来运行符合一定规则的Python脚本。( )A.正确B.错误参考答案:A27. HTTP状态码中303状态码明确表示客户端应当采用POST方法获取资源。( )A.正确B.错误参考答案:B28. Python中Object=&39;obj_1&39;:&39;1&39;,&39;obj_2&39;:&39;2&39;,则Objcet.get(&39;boj_3&39;,&39;3&39;)是( )A.1B.2C.3D.无输出参考答案:C29. Python中定义函数关键字为( )。A.defB.d

8、efineC.funcD.function参考答案:A30. Redis是一个开源的使用( )语言编写A.ANSI CB.C+C.JAVAD.Python参考答案:A31. 下列关于在IOS上配置charles的说法正确的是( )下列关于在IOS上配置charles的说法正确的是( )A.不同ios设备之间会有比较大的差别,所以配置的时候需要找到对应的安装证书的入口B.手机和电脑需要在同一个局域网下C.HTTP代理可以使用“自动”选项D.安装好证书以后,打开iOS设备上的任何一个App,可以看到Charles中有数据包在流动参考答案:BD32. 需要登录的网站一般通过GET请求就可以实现登录。

9、( )A.正确B.错误参考答案:B33. Redis是遵守BSD协议、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库。( )T.对F.错参考答案:T34. Python中( )与元组由类似的数据读取方式。A.字符串B.列表C.字典D.集合参考答案:AB35. Python中Object=obj_1:1,obj_2:2,则Objcet.get(boj_3,3)是( )。A.1B.2C.3D.无输出参考答案:C36. Python正则表达式模块的findall方法如果没有匹配到结果,则返回结果为( )Python正则表达式模块的findall方法如果没有匹配到结果,则返回结果为(

10、 )A.空B.空列表C.空元组D.不返回参考答案:B37. ( )是一个传递信息的通道。它负责将爬取博文列表页获取到的信息传递给负责爬取正文页的方法中。( )是一个传递信息的通道。它负责将爬取博文列表页获取到的信息传递给负责爬取正文页的方法中。A.metaB.headC.headerD.body参考答案:A38. 某些网站在发起Ajax请求时会携带( )字符串用于身份验证某些网站在发起Ajax请求时会携带( )字符串用于身份验证A.TokenB.CookieC.ReqTimeD.sum参考答案:A39. Robo 3T与RoboMongo是完全不一样的软件。( )Robo 3T与RoboMon

11、go是完全不一样的软件。( )A.正确B.错误参考答案:B40. 一般来说在页面都通过GET将用户登录信息传递到服务器端。( )A.正确B.错误参考答案:B41. 插入数据时,MongoDB会自动添加一列“_id”,也就是自增ID,每次自动加1。( )T.对F.错参考答案:F42. cookies在http请求中是明文传输的。( )T.对F.错参考答案:T43. Scrapy_redis是Scrapy的“( )”,它已经封装了使用Scrapy操作Redis的各个方法。Scrapy_redis是Scrapy的“( )”,它已经封装了使用Scrapy操作Redis的各个方法。A.组件B.模块C.控

12、件D.单元参考答案:A44. 设置了这个中间件以后,仍然需要输入账号密码可以成功得到登录以后才能看到的HTML。( )A.正确B.错误参考答案:B45. Python中写CSV文件的writerows方法参数为字典类型。( )T.对F.错参考答案:F46. 下面Python代码输出为:( )def default_para_without_trap(para=,value=0):if not para:par下面Python代码输出为:( )def default_para_without_trap(para=,value=0):if not para:para=para.append(val

13、ue)return para print(第一步:.format(default_para_trap(value=100) print(第二步:.format(default_para_trap(value=50)A.第一步:100第二步:100,50B.第一步:100第二步:50C.第一步:100第二步:D.第一步:100第二步:100参考答案:B47. process_spider_input(response, spider)是在爬虫运行yield item或者yield scrapy.Request( )的时候调用。( )T.对F.错参考答案:F48. 为了保证数据插入效率,在内存允许

14、的情况下,应该一次性把数据读入内存,尽量减少对MongoDB的读取操作。( )T.对F.错参考答案:T49. requests中post请求方法的使用为requests.post(网址, data=data)中的data为( )。A.列表B.元组C.字典D.集合参考答案:C50. 通用网络爬虫通常采用串行工作方式。( )A.正确B.错误参考答案:B51. PyMongo中逻辑查询表示小于等于的符号是( )A.$gtB.$ltC.$gte$lte参考答案:C52. 要使用tesseract来进行图像识别,需要安装两个第三方库( )要使用tesseract来进行图像识别,需要安装两个第三方库( )

15、A.requestsB.beautifulsoupC.PillowD.pytesseract参考答案:CD53. 在配置ios使用Charles的操作中,正确的有( )A.对于苹果设备,首先要保证计算机和苹果设备联在同一个Wi-Fi上B.选择“HTTP代理”下面的“手动”选项卡,在“服务器”处输入计算机的IP地址,在“端口”处输入8888C.输入完成代理以后按下苹果设备的Home键,设置就会自动保存D.安装完成证书以后,在设置中打开“关于本机”,找到最下面的“证书信任设置”,并在里面启动对Charles证书的完全信任参考答案:ABCD54. 当使用Scarpy创建爬虫时,当爬取网易云音乐首页信

16、息时,scrapy genspider的第二个参数直接输入就可以了。( )当使用Scarpy创建爬虫时,当爬取网易云音乐首页信息时,scrapy genspider的第二个参数直接输入就可以了。( )A.正确B.错误参考答案:B55. 使用UI Automatorr操作实体键的命令为device.press.实体按键名称。( )使用UI Automatorr操作实体键的命令为device.press.实体按键名称。( )A.正确B.错误参考答案:A56. 要实现Charles对Android抓包,其过程比iOS稍微复杂一点。这是因为不同的Andorid设备,安装证书的入口可能不一样。( )要实

17、现Charles对Android抓包,其过程比iOS稍微复杂一点。这是因为不同的Andorid设备,安装证书的入口可能不一样。( )A.正确B.错误参考答案:A57. Redis的列表是一个单向队列。( )T.对F.错参考答案:F58. 如果爬虫爬取的是商业网站,并且目标网站使用了反爬虫机制,那么强行突破反爬虫机制可能构成( )。A.非法侵入计算机系统罪B.非法获取计算机信息系统数据罪C.非法获取计算机数据罪D.非法获取系统罪参考答案:AB59. Redis中往集合中添加数据,使用关键字( )Redis中往集合中添加数据,使用关键字( )A.saddB.addC.appendD.sappend参考答案:A60. Python中哪种容器一旦生成就不能修改?( )A.列表B.元组C.字典D.集合参考答案:B

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!