招聘信息网信息爬取及数据分析

上传人:文*** 文档编号:48789848 上传时间:2022-01-14 格式:DOCX 页数:35 大小:941KB
收藏 版权申诉 举报 下载
招聘信息网信息爬取及数据分析_第1页
第1页 / 共35页
招聘信息网信息爬取及数据分析_第2页
第2页 / 共35页
招聘信息网信息爬取及数据分析_第3页
第3页 / 共35页
资源描述:

《招聘信息网信息爬取及数据分析》由会员分享,可在线阅读,更多相关《招聘信息网信息爬取及数据分析(35页珍藏版)》请在装配图网上搜索。

1、 招聘信息网信息爬取及数据分析 Information crawling and data analysis of Recruitment Information Network 目录摘 要1第一章 绪论31.1课题背景31.2目的和意义41.3论文结构安排5第二章 关键技术介绍72.1开发工具简介72.2 B/S体系结构72.3 MVC模式的项目结构82.4 Python技术8第三章 可行性分析与需求分析103.1 系统的可行性分析103.1.1经济可行性103.1.2技术可行性103.1.3操作可行性113.2 用例图设计113.3系统需求分析123.4系统研究步骤12第四章 系统总体设计

2、144.1系统功能描述144.2 数据库实体设计154.3 招聘信息网信息爬取及数据分析数据库16第五章 系统界面实现描述185.1系统登录主界面185.2 管理员后台管理总界面185.2.1数据可视化信息管理模块195.2.2数据查询管理模块205.2.3 区域分布管理225.2.4词云管理模块22第六章 系统测试246.1 程序调试246.2 程序的测试246.3 测试分析25结 论27参考文献28致 谢29摘 要现在每年毕业生超过千万,每年招聘网站上拥有几百万条招聘信息,以及求职信息都是百万千万级别的数量,如何在这么多繁琐的信息中搜索和提取到自己的需求的信息将变的非常的重要。爬虫是根据一

3、定的规则,通过网络爬虫规则爬取招聘网站的信息,把爬取下来的信息放到数据库中进行保存,通过对爬取招聘的信息进行分析分析汇总,然后可以根据需求采用可视化的图表形式进行分析结果显示。通过恰当正确的数据可视化展示方式,能够直观的显示出分析结果,能够很好的进行帮助招聘分析信息。本项目采用Python编程语言进行编写,开发工具采用Pycharm工具,页面采用Django框架进行项目开发实现。数据库存储在Mysql数据库中。通过网络爬虫抓取拉钩招聘网的招聘信息,采用Echartjs生成可视化图像。关键词:招聘信息爬取 数据分析 Python B/S结构第 2 页Abstract Now there are

4、more than ten million graduates every year, millions of recruitment information on the recruitment website every year, as well as millions of job information. How to search and extract the information of their own needs from so many tedious information will become very important. Crawler crawls the

5、information of recruitment website through certain rules, puts the crawling recruitment information into database for saving, analyzes and summarizes the crawling recruitment information, and displays the analysis results in the form of visual chart. Through data visualization, it can display the an

6、alysis results intuitively and help the recruitment analysis information well.The project is written in Python programming language, the development tool is pycham tool, and the page is implemented in Django framework. The database is stored in the MySQL database. The recruitment information of the

7、hook recruitment network is grabbed by the web crawler, and the visualized image is generated by echart JS.Keywords: Recruitment Information crawling data analysis pythonB / S structure 第 3 页广东东软学院本科毕业设计(论文)第一章 绪论1.1课题背景计算机是在20世纪90年代传入国内,也是这个时候才在中国被大多数人使用,并且在国内探索前进的过程中迅猛发展了20多年。在95年之后,国内的计算机信息技术在各行各

8、业都逐渐得到了萌芽发展,随着Web2.0的技术改进和高速发展,国内每个行业对计算机的普及程度更是一步步加速,从此,计算机在各行业都得到了深入的发展和应用。任何行业,在传统方式,都是通过纸质方式来进行信息的记录和管理,拥有专门的会计人员、档案管理人员等各种职业来专门负责管理这些文档内容,并且有相关的专业人员进行保存这些文档资料,各行各业都是采用这种方式进行管理和维护。然而,随着计算机信息技术在每个行业的普及以及信息的迅猛增加,传统的管理方式带来的弊端越来越多,越来越明显。早期阶段,企业对人才招聘信息都是采用纸质方式进行登记,记录完成后会把信息资料放在文件夹上,设备修好后管理人员找出各种文件进行翻

9、找。这种方式效率比较底下,尤其在各用人单位对人才的需求量越来越多,要求也越来越复杂多样化的今天,这种方式不仅效率差。而且传统方式都是采用纸质方式进行书写保存,这种方式,查询起来非常的消耗时间和精力,如果对某个应聘人员进行查询简历时,有可能会在一大沓简历里进行一遍遍的查找,最后花大量时间才能找到,这样将使得查找效率大幅度地降低。其次,纸质版文档不易保存和和容易破损,时间越长,纸质的保存越难,纸张随着长时间的翻阅,查找,非常容易损坏,造成大量数据的丢失,信息的完整性不足,内容更新也非常的不便。最后,纸质方式管理的效率非常低,需要大量的人工来维护,维护非常第 5 页的不便,人力资源严重的浪费,效率低

10、下。而且,管理起来非常的不方便,不利于信息的保存和查询等操作。现在随着大数据在各个企业被大家重视,学生人才招聘也不能够动态的管理自己的人才招聘信息,管理者管理人才招聘信息及人才招聘情况提交信息时,难免需要花费大量的时间和精力来进行管理,这样工作效率极低,非常的不方便。招聘网站上数据众多,如何能够采用工具。1.2目的和意义随着计算机科技的快速发展,计算机技术已经在人们生活中的方方面面得到广泛应用。社会上各行业都开始引进功能强大的计算机信息技术来进行管理和维护各自行业的海量信息内容。通过计算机技术来管理,能够大大的节约人力资源成本,通过计算机信息技术来管理,效率提升很高,能够方便快捷的进行招聘信息

11、管理的工作,通过计算机能够把传统的数据信息管理的非常高效,通过计算机开发web的管理系统,能够方便各企业招聘者在线进行人才招聘搜索和匹配等操作,这种方式,不仅可以在很大程度上降低管理人员的工作强度,同时,能够很好地提高工作效率。用户只需要在网络覆盖的范围内,通过网络就可以连接上服务器,就可以进行在线人才招聘工作,在线提交人才招聘结果等信息。企业不需要每次都到管理处去人才招聘。这样大大的提高学生人才招聘的便利程度,同时,也能够很好的进行管理招聘信息的问题。现在企业每年新生正在逐年增加,每年的新生数量正在迎来一个又一个新高。每年开学季,学生的人才招聘审核工作复杂,工作量巨大。每年学院都要有众多管理

12、员参与企业学生招聘信息工作,工作量相对繁重。如何通过计算机技术来帮助企业管理学生招聘信息将变成非常重要的问题。计算机能够快速高效的来处理企业招聘信息问题,这样能够大大缩短审核人才信息的时间,帮助减少了企业招聘信息审核人员的工作量,从而大大地提高工作效率。企业通过招聘信息网信息爬取及数据分析,能够提高快速审核工作,方便学生在线查看人才招聘信息情况,方便快捷,不仅给学生提供人才招聘的便利,也给管理人员提供了方便快捷的审核操作,通过该系统能够实现招聘信息网信息爬取及数据分析自动化工作,无纸化办公,给工作带来了巨大的便利。1.3论文结构安排本论文通过六个章节来分别进行详细的分析和系统的描述,主要由绪论

13、、关键技术介绍、可行性分析和需求分析、总体设计、系统描述与系统测试六大章节内容组成。下面分别对每个组成部分进行简单的描述。首先,通过在图书馆和电子阅览室查阅和整理基于Python的招聘信息网信息爬取及数据分析相关的图书和参考文献,对本项目进行从项目背景,发展现状,以及研究的目的与意义方面进行详细的阐述题目的背景与意义。 其次,对系统设计与实现过程中使用的关键技术以及计算机开发工具进行概括和详细的描述,包含整个设计与开发过程中采用的编程语言,数据库,使用的程序开发框架,以及软件的设计模式等信息进行详细描述。 再次,根据项目的预期,分别对项目进行功能需求的分析操作,采用UML对项目整理出详细的需求

14、分析报告,采用用例图对项目做用例分析,采用功能结构图对项目整体功能进行描述,采用流程图对系统重要流程进行流程设计等。 再次,根据需求分析文档,分别对系统的详细功能模块依次进行设计实现,对项目底层数据库进行ER图描述,最后根据er图,生成系统数据库逻辑表结构。 再次,对系统每个功能模块进行图文并茂的形式进行实现描述。 最后,对系统进行软件测试和集成测试,通过测试用例的验证,来功能性验证每个功能。对系统整篇文章进行总结和展望。第二章 关键技术介绍2.1开发工具简介项目开发工具采用由JetBrains打造的Pycharm进行开发制作。数据库采用Mysql8开发,数据库管理工具采用Navical fo

15、rm mysql进行管理mysql数据库。Python采用3.7版本,项目开发完成后,在360浏览器测试运营。项目开发采用MVC模式,页面采用Django渲染。服务器端控制采用Django控制。因此,本项目采用传统的Pycharm进行开发项目。2.2 B/S体系结构目前市场上主流的开发方式主要分为两种,C/S和B/S结构。简单的说,C/S是客户端服务器结构,B/S是浏览器服务结构。早期开发的项目都是采用C/S结构,客户端和服务 器之间通过TCP协议进行数据传输协议通信。早期程序通常不需要连网,是单机程序,有时只需要一个窗体程序,直接 操作关系 数据库。这种程序架构相对简单,但是程序比较局限。仅

16、限于单机程序,这种程序只能一个人使用,数据不能共享,缺点非常明显,随着人们对软件需求的进一步提升,项目采用服务端和客户端,通过TCP通信来实现多个客户端连接到一个服务器端,这种方式能够很好的实现数据一致性,但是这种方式用户想使用该软件必须要安装客户端,操作很麻烦。随着网络带宽的不断增加,Internet的网络传输速度得到了稳定的提升,B/S结构的程序得到了快速的发展,B/S结构程序简单理解为通过浏览器输入网页地址,点击回车就可以访问该软件,这种方式大大提高了用户使用该软件的便利。B/S程序不需要安装客户端,只需要电脑上有浏览器就可以访问了。大大提高了用户的使用便利性。其次,当服务端更新内容,用

17、户在浏览器端只需要刷新页面,就可以看到更新的内容,不需要对软件进行自行更新。再次,B/S程序能够同时满足很多人同时操作,效率更高,性能更优秀。综上所述,B/S结构程序比C/S结构程序拥有更好的便利性,给用户的操作体验更好。本项目采用B/S结构进行开发,用户可以通过浏览器直接操作访问,方便快捷。比传统纸质方式,不管是性能、效率、操作体验都得到了巨大的进步。2.3 MVC模式的项目结构MVC模式是一个软件开发模式,是实现数据和页面分离的一种软件开发方式。MVC模式的核心思想是通过编程逻辑和数据显示实现页面分离,通过分离能够大大提高代码的可读性。MVC由3个组成部分。Model是业务模型,Model

18、在程序中处理数据业务,在数据库中存取数据,view是视图,是展现给用户看的界面,视图是按照设计好的数据模型编写实现的,在程序中用来展示数据,Controller是控制器,处理服务器与用户进行交互的部分,简单的说,就是控制内容,即Controller从视图获取数据,控制用户的输入,并将其传递到模型。在Python编程中,可以简单理解Servlet Action类,通过Controller来实现页面的跳转,页面数据的收集。在前端页面 View层中,可以通过EL表达式来实现数据的输出操作。2.4 Python技术Python诞生于20世纪90年代初。它是一种功能强大的脚本语言,综合了解释性、编译性、

19、互动性和面向对象。它最初被人们定义为一种Shell脚本并运行在Linux系统中。Python和Java编程语言一样,是一种一直很流行的可以跨平台的计算机语言。Python不仅可以运行在Windows上,还可以在Linux和MAC操作系统上运作。随着Python3被广泛了解和学习,Python不仅仅用来开发小型的应用,不仅仅作为脚本形式开发。Python用来开发大型项目。从2004年开始,Python的活跃用户直线上升,用户的直线上升,随着人工智能的火爆,Python的发展得到了空前绝后的发展。Python语法简洁,操作方便,Python入门简单易学,并且维护很方便,现在被各大院校作为一种常用的

20、编程语言来学习。Python在人工智能领域拥有非常优秀的特长,Python的爬虫设计也是非常的优秀。Django是Python开发Web的一个主流开发框架。Django是一个大型的开发框架,它采用的设计开发模式是MVC模式,通过框架能过快速的完成web的开发实现。本文页面采用Django进行开发实现。第三章 可行性分析与需求分析3.1 系统的可行性分析在设计和实现一个完整系统的过程中,我们通常从多个方面进行详细的可行性分析,本项目主要是从经济适用性、技术和操作3个方面进行可行性分析。从这3个角度详细的分析和介绍,下面重点从经济、技术和操作3个方面进行可行性详细分析。3.1.1经济可行性开发招聘

21、信息网信息爬取及数据分析在经济方面是需要考虑很多问题。从项目开发的角度来说,本项目的经济成本主要是包括软件和硬件两方面的成本。软件成本主要是包括操作系统,数据库,开发工具,系统实现采用Python语言进行设计开发,数据库采用一直流行的开源的 Mysql关系型数据库,采用由JetBrains打造的Pycharm开发工具进行项目开发,这些软件基本上都是免费的,没有使用费用。硬件上主要是拥有一台普通的PC机器,PC机器采用I7处理器,2T的硬盘,独立显卡,硬件成本在5000元以内就可以获得。项目开发实现招聘信息网信息爬取及数据分析的时候,项目周期中主要包括需求分析、详细设计、项目界面设计、项目数据库

22、设计以及整个系统的编码实现过程。实现费用很低,项目开发是本人开发,拥有大量的时间,经济成本比较低,因此,设计与实现本系统,从经济方面切入考虑是可行的。3.1.2技术可行性技术可行性主要在程序设计制作的过程中,从制作程序的技术方面考虑是否可行。本项目的编程语言是采用Python语言进行设计开发,项目的开发采用由JetBrains打造的Pycharm开发工具,项目的数据库采用目前世界上最流行的开源免费的Mysql关系型数据库作为数据的存储。我们开发的项目是BS结构的项目,项目的技术会采用Django技术,Django技术就是Python web开发技术,是Python编程语言专门对Web开发进行设

23、计实现的Web开发框架。Django是目前市场上最受欢迎的PythonWeb开发框架。目前,项目开发过程中使用的Python编程语言,数据库,以及集成开发环境Pycharm都在大学期间得到了熟练的掌握,尤其是编程语言的掌握尤其突出,因此,从本项目的技术上分析,技术是可行的。3.1.3操作可行性操作可行性主要是项目运行过程中,项目的操作体验问题。本项目是采用Web形式展示在用户面前,用户可以通过鼠标和键盘方便快捷的进行操作体验。用户界面设计满足友好的交互设计原则,项目的操作体验很好,不存在违背日常使用习惯的问题。通过招聘信息网信息爬取及数据分析可以进行对各经验段岗位、各地区进行爬虫统计给出条形图

24、,并从各经验职位数量、各城市职位数量得出占比图。对这一块等信息的操作,从操作角度来看,本系统是可行的。结合上面经济、技术还有操作这三个方面的分析,本系统的设计与开发是完全可行的。3.2 用例图设计下面对管理员用户角色采用用例图进行管理功能描述。1)管理员用例图在系统中拥有最高权限的角色我们称之为管理员,它具有操作和管理系统的权利。管理员用例图如图3.1所示。 图 3.1管理员用例图3.3系统需求分析现在用人单位对人才的招聘需求越来越大,传统的人才招聘都是采用纸质的方式来管理,这种管理方式效率非常低,查询过程都是要人工进行每一页进行查找,查询速度非常慢,这种方式不能够很好的对人才招聘信息进行统计

25、操作,管理和人才招聘效率非常的低。通过计算机信息爬虫技术及数据分析来管理企业招聘信息能够使得相关信息管理的效率提升多倍。企业招聘信息的存储变的非常便利,存储安全性得到了大大的提高,尤其是对用户信息查询能够做到迅速快捷,并且数据管理安全不容易丢失,通过数据可视化,大大提高了招聘信息网信息爬取及数据分析的效率。3.4 系统研究步骤本系统最开始采用文献查找的方法,在图书馆收集相关书籍,在电子阅览室中阅读知网、万方以及维普中的参考文献,再结合本文系统要求来实现初步制定系统的开发步骤与设计方法。第一,阅读招聘信息网信息爬取及数据分析相关参考文献,提出本文要解决招聘信息网信息爬取及数据分析的问题

26、,通过解决这个问题,能够给企业带来哪些工作便利,能够给招聘信息网信息爬取及数据分析管理相关人员工作效率带来哪些提升等问题。第二,根据阅读参考文献的分析结果,对分析结果内容进行整理,使用Visio工具,绘制UML图,通过UML统一建模语言,对系统的功能进行明确,对每个功能模块进行编程设计和实现。 第三,根据UML中定义的系统功能需求,对系统进行功能分析,然后使用Mysql建模工具,设计和实现相应的数据模型,并且把数据模型转换为数据库脚本文件,创建数据库,数据库设计满足3NF,数据库设计尽量做到高内聚,低耦合,降低数据的冗余度。 第四,采用Python编程语言,采用Python连接MySQL的函数

27、进行连接mysql操作,能够实现对mysql数据库增删改查操作,根据项目的需求分析,对系统进行相应的模块化设计与实现,用Python和mysql技术注意实现每个功能模块。 第五,对实现功能的系统,进行测试,采用压力测试,集成测试来提高系统的稳定性。第四章 系统总体设计4.1系统功能描述在开发本系统时,主要管理功能如下:(1)管理员要想对系统后台进行相应的功能操作。则必须在文本框中输入符合系统规则的用户名和密码后才能登录系统,然后才能操作系统。否则输入错误的信息,系统会提示错误。(2)数据可视化信息管理模块:主要根据各经验段岗位、各地区进行爬虫统计给出条形图,并从各经验职位数量、各城市职位数量得

28、出占比图。(3)数据查询管理模块:管理员成功登录本系统后,点击数据管理连接,页面即展示数据管理信息列表,管理员可以在该模块中进行相关常规操作。管理员可以根据关键词查询岗位信息。(4)区域分布管理:该功能主要是大数据开发的职位分布热力图,圆点大小与该城市职位数量需求成正相关,在地图上选中一片区域,选框区域内的城市和职位数量需求将会以柱状图展示在热力图的右侧。(5)词云管理模块:管理员在成功登录系统后,点击词云管理链接,右侧则出现词云预览界面。通过大数据开发的职位技能得出画像图。该系统的主要功能模块如图3.3所示。 图3-3功能模块图4.2 数据库实体设计项目的底层数据支持由数据库提供,它是用来存

29、储数据的逻辑关系模型,本项目拥有多个实体,主要包括以下实体,即管理员实体、地图、数据管理实体。下面对系统的实体进行详细的介绍。1、 管理员ER图设计如图4-1所示 图4-1 管理员ER图2、 地图ER图设计如图4-2所示图4-2 地图ER图3、 数据管理ER图设计如图4-3所示 图4-3 数据管理ER图4.2 招聘信息网信息爬取及数据分析数据库爬虫本质是就是人工通过模拟Http协议,主要通过程序进行模拟发送http请求到服务器上。在模拟http请求的过程中,对http的地址进行设置,并且设置小request的协议头,"user-Agent","X-Requeste

30、d-With"等等众多的http消息头,在消息上能够避免服务器的拦截器进行拦截,能够真实的模拟出人工请求服务器的消息。通过request对象发送请求,在请求得到响应后,获得返回的数据,进行解析成自己需要的数据,并存储在Mysql数据库中。通过采用JDBC操作数据库,运行Sql语句对数据进行查询统计分析,得出结果,通过Echartjs可视化工具,显示成图表形式。本文爬虫工具伪代码设计如下所示数据库的分析与设计是一个系统开发的重要的环节。在设计数据库的过程 中要满足数据库设计的3N范式,尽量避免数据的重复,增加数据关联,通过关联能降低数据的重复性。使得数据库的表更加合理。本系统中有的数据

31、库表的结构如下:1、表名:user序号字段名称字段描述字段类型长度允许空缺省值1idIDint(int(11)NOnull2password密码varchar(varchar(200)NOnull3username名字varchar(varchar(200)NOnull4sex姓别varchar(varchar(30)NOnull5zh账号varcharvarchar(254)NOnull2、 表名:lg(爬虫数据表)序号字段名称字段描述字段类型长度允许空缺省值1idIDint(int(11)NOnull2gw岗位varchar(varchar(200)YESnull3cs城市varchar(

32、varchar(200)YESnull4xc薪酬varchar(varchar(200)YESnull5xl学历要求varchar(varchar(200)YESnull6jy经验要求varchar(varchar(200)YESnull7ms岗位描述/职责longtext(longtext)YESnull第五章 系统界面实现描述5.1系统登录主界面管理员要想操作系统后台功能,就必须在文本框中输入符合系统规则的用户名和密码后才能对整个系统进行管理。输入错误的用户和密码,系统会提示错误。管理员登陆界面如图5-1所示。图5-1管理员登录页面5.2 管理员后台管理总界面管理员操作界面是一个树形结构的

33、页面设计。项目基本实现预期的数据可视化、数据管理、数据地图、词云管理等功能。程序运行效果图如图5-2所示。图5-2管理员主页面5.2.1数据可视化信息管理模块数据可视化,主要根据各经验段岗位、各地区进行爬虫统计给出条形图,并从各经验职位数量、各城市职位数量得出占比图。程序运行结果如下图5-3-1 , 5-3-2 ,5-3-3,所示:图5-3-1 地区统计图以上一共爬取了816条数据,我们可以看到在这5个城市中,北京为281条,并不是因为在北京只有281个大数据相关岗位,而是因为在该网站上爬虫只显示这么多信息,爬到281条时就停止了,该招聘网站上,深圳和上海的岗位数量非常接近,相差不大,其次是南

34、京较少,广州最少,与相关岗位的信息只有76条。图5-3-2 经验要求统计图 图5-3-3 各经验段岗位数量占比 从要求的工作经验来看,大部分企业的需求仍然是有工作经验的人才,招聘一年以下工作经验(含应届毕业生)的仅占5.02%,企业都想招进来就能直接上手的,而学校开设大数据相关专业也只是近两年的事,很少应届生能够直接满足企业的需求;招聘1-5年工作经验占比64%以上,到10年以上工作经验仅有0.25%,这也是因为大数据近几年才发展起来的职业,能有十年以上大数据相关工作经验的职业人员本身就很少。5.2.2数据查询管理模块管理员成功登录本系统后,点击数据管理连接,页面即出现数据管理信息列表,管理员

35、可以在该列表模块中进行相关操作。比如对岗位进行关键词筛选。程序运行结果如图5-4所示:图5-4 数据管理信息页面管理员可以根据关键词查询岗位信息,如在关键词文本框中输入“Java大数据开发工程师”,点击筛选,即筛选出相关信息。运行如图5-5所示:图5-5 岗位信息查询页面5.2.3 区域分布管理管理员成功登入系统后,点击左侧菜单栏地图管理链接,右侧显示区域分布图。该功能主要是大数据开发的职位分布热力图,圆点大小与该城市职位数量需求成正相关,在地图上选中一片区域,选框区域内的城市和职位数量需求将会以柱状图展示在热力图的右侧。运行如图5-6所示:图5-6 区域分布管理界面5.2.4词云管理模块管理

36、员成功进入系统后,点击词云管理链接,右侧则出现词云预览界面。通过大数据开发的职位技能得出画像图。运行结果如下图5-7所示:图5-7 词云管理页面 从词云图中可以明显看到“工程师”,“数据”,“开发”,“研发”,“高级”等字眼,可以看出:与大数据相关的工作对数据开发技能要求比较高,而高级工程师这写字眼也说明了大数据对技能和经验要求比较高,所以企业招聘也比较愿意招3-5年工作经验的人才,对工作容易上手,而应届生比较缺乏经验。第六章 系统测试6.1 程序调试根据现代发展,软件包含测试从现在检验中来看,在系统出现预期目标可能出现的问题时,那么就要及时作出相应的改正,如果在初期不作出测试错误,那么在之后

37、的设计当中就会出现更多的问题,从而使得完成系统非常困难。 通过一系列的测试,找出其中的错误。并且将测试作为软件开发的重要部分,在有了程序编程以后,测试就成为了系统中必不可少的一部分。通过统计分析,系统的软件测试在整个系统设计与实现中的工作量占比为45%,从软件开发的成本中,测试成本已经包含了很多的测试工作。在测试中,每个程序都有可能出现错误。在该程序开发的过程中当中,利用人工方式去查找错误是比较繁琐和困难的,所以有必要找一些测试工具进行测试和分析。在系统整个程序的设计当中,出现一些错误的信息是时常发生的。对于这些指令当中语法是错误的,同时程序执行过程当中会提示,这样使得错误容易被发现并得到修正

38、。但是另一种出现的错误是由计算出来的,但是这些错误也是隐藏的,有时候它是不会发生的,所以解决这些错误是十分费时的。6.2 程序的测试(1)测试的重要性基于Python招聘信息网信息爬取及数据分析设计是为了方便用户使用,所以从用户的角度去测试时,原则希望能尽早尽快的发现系统存在的问题,测试用例的编写也很重要,要将之前规划好的功能点都罗列出,在测试的时候,能够有效快捷的进行操作;作为系统的开发者,原则希望基于Python招聘信息网信息爬取及数据分析在测试中表明他是一个完善的系统,并符合之前规划的各种功能。(2)测试的步骤对于这个系统的开发过程来说它必须要经过几个过程分布执行,每个逻辑上都是要进行延

39、续的,而且每个软件的应用程序都是由不同的子程序模块来组成的。因此大部分的网站测试由以下3个步骤来组成的:(1)模块测试是在设计和编码上设计的错误。(2)基于Python招聘信息网信息爬取及数据分析测试在该测试中主要是在软件上发生错误的,也可能发现需求上的错误。(3)验收测试在这个测试步骤它是为了发现这个网站需求的说明书中的错误。6.3 测试分析经过以上的测试与分析基于Python招聘信息网信息爬取及数据分析系统主要是从以下几个内容来进行:用例名称:用户登录测试基本描述:通过登录拥有系统的管理权限测试方案:分别多次使用不同的登录方法进行登录,从而检查系统是否有相应的错误和成功提示。由于文章篇幅有

40、限,所以只选取了几个代表模块进行测试,并得到了测试结果,测试用例如下:用户登录包括普通用户登录,管理员登录两种测试用例如表所示。表7.1 系统测试用例模块测试用例描述操作过程及数据预期结果用例类别管理员管理员登录输入正确的用户名密码进行登录操作在用户名文框中输入正确的用户名,密码框中输入对应用户名的密码,点击登录按钮用户正常登录登录输入异常的用户名密码进行登录操作在用户名文框中输入不存在的用户名,密码框中任意输入一组数字作为密码,点击登录按钮提示用户名或者密码错误登录不输入任何用户信息直接点击登录操作直接点击登录按钮系统提示用户名和密码不能为空,请重新输入登录网站爬虫爬取拉勾网招聘信息采用py

41、thon自动爬取拉勾网数据爬取成功网站爬虫区域分布结果对爬虫数据分析,采用Echartjs进行生成图像分析成功数据分析结 论本项目开发是采用Python语言进行项目开发和实现,在开发的过程中遇到了很多问题,通过互联网搜索引擎和图书馆的参考文献都得到了完美的解决。本项目开发技术是采用Django框架技术,数据库采用Mysql数据库,数据库设计满足3NF,数据库设计更加合理,避免数据的冗余性,同时,降低查询的难度,对数据进行插入、删除和修改等动作都非常高效。项目基本上实现了预期的功能设计。项目的功能实现主要是通过采取爬虫的方式对岗位招聘信息进行获取,并对区域、经验段岗位的一个数据分析,并形成条形图

42、和占比图等功能模块的实现。 本系统也在设计中存在不足,现在的招聘信息网信息爬取及数据分析存在很多不便的问题,比如,没有打印功能,不可以手机浏览操作,系统的界面设计还有待改善等问题。本系统功能设计还是相对不够完善,通过这次设计,比过去传统纸质的申请有很大的改善。使用计算机来管理招聘信息网信息爬取及数据分析更便捷、安全。参考文献1孙雅菲. 大数据、云计算技术在审计中的应用r基于Python语言的大数据审计研究J. 全国商情·理论研究, 2017, 000(032):88-90.2涂辉, 王锋, 商庆伟. Python3编程实现网络图片爬虫J. 电脑编程技巧与维护, 2017(23):23

43、-24.3聂晶. Python在大数据挖掘和分析中的应用优势J. 广西民族大学学报:自然科学版, 2018, 24(1): 76-79.4AndrewCollette, 科莱特, 胡世杰. Python和HDF5大数据应用M. 人民邮电出版社, 2016.5肖乐, 丛天伟, 严卫. Web Big Data Scraping and Analysis Based on Python%基于python的Web大数据采集和数据分析J. 电脑知识与技术, 2018, 014(022):9-11.6严婷, 文欣秀, 赵嘉豪, et al. 基于Python的可视化数据分析平台设计与实现J. 计算机时代

44、, 2017(12):58-60.7刘志凯, 张太红. Django框架在web开发中的应用J. 农业网络信息, 2015(2):51-52.8龚莎, 朱应钦, 梁艳华. 基于Python的可配置自动化爬虫系统的设计与实现J. 电脑迷, 2018, 109(10):211.9钱程, 阳小兰, 朱福喜. 基于Python的网络爬虫技术J. 科学技术创新, 2016(36):273-273.10刘寿臣. 网页爬虫技术的关键技术研究探索J. 电脑知识与技术, 2016, 12(17):16-17.11王碧瑶. 基于Python的网络爬虫技术研究J. 数字技术与应用, 2017(5):76-76.12王素华. 基于网络爬虫技术的学生信息收集方法J. 电脑迷, 2016(3).苏雷, 杜彦璞, 刘斌. 网络爬虫技术研究与分析J. 城市地理, 2016(12).13刘小云. 网络爬虫技术在云平台上的研究与实现D. 电子科技大学, 2016.第 31 页

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!