小白爬虫 一个Python小白5个小时爬虫经历

上传人:豆*** 文档编号:141166528 上传时间:2022-08-23 格式:DOCX 页数:3 大小:16.04KB
收藏 版权申诉 举报 下载
小白爬虫 一个Python小白5个小时爬虫经历_第1页
第1页 / 共3页
小白爬虫 一个Python小白5个小时爬虫经历_第2页
第2页 / 共3页
小白爬虫 一个Python小白5个小时爬虫经历_第3页
第3页 / 共3页
资源描述:

《小白爬虫 一个Python小白5个小时爬虫经历》由会员分享,可在线阅读,更多相关《小白爬虫 一个Python小白5个小时爬虫经历(3页珍藏版)》请在装配图网上搜索。

1、小白爬虫 一个Python小白5个小时爬虫经历 序言最近业余在做一个基于.NET Core的搜索项目,奈何基层代码写好了,没有看起来很华丽的数据供测试。很巧的也是博客搜索,于是乎想到了博客园。C#也能做做页面数据抓取的,不过在博客园看到的大部分全部是python实现,因此就暂时想了一下看看python到底是什么东东,不看基础语法,不看语言功效,直接上代码,哪里不会搜哪里。代码完成总共用时大约4个小时,其中搭建环境加安装BeautifulSoup大约1个小时。解析HTML用时间最多了,边看demo边解析,大约2个小时,剩下的时间就是调试加保留数据了。环境搭建既然用python,那么自然少不了语言

2、环境。于是乎到官网下载了版本的。安装完以后,随机选择了一个xx器叫PyCharm,话说pythonxx器还真挺多的。因为本人是小白,因此安装事项不在过多赘述。建好项目,打开xx器,直接开工。原来之前用C#写的时候,大致思绪就是获取网页内容,然后正则匹配。以后发觉网上的帖子也很多。不过在搜索过程中发觉,不提议用正则来匹配HTML。有恰好我的正则不太好,因此我就搜了一下HTML解析工具,果不其然,人家全部做好了,直接拿来用吧。没错就是这个东东:BeautifulSoup 。安装也很简单,不过中间出了个小插曲,就是bs4没有。继续搜,然后需要用pip安装一下就好了。思绪分析博客吗,我当然就对准了博客

3、园,于是乎,进入博客园首页,查看请求。发送请求当然我不知道python是怎么进行网络请求的,其中还有什么和的不一样,中间曲曲折折了不少,最终还是写出了最简单的一段请求代码。其实博客园这个请求还是挺标准的,哈哈恰好适合抓取。因为她返回的就是一段html。数据解析上文已经提到了,用到的是BeautifulSoup,好处就是不用自己写正则,只要依据她的语法来写就好了,在数次的测试以后最终完成了数据的解析。先上一段HTML。然后在对应下面的代码,可能看起来更轻松部分。经过上文的HTML代码能够看到几点。首先每一条数据全部在 div下。然后 div下有用户信息,标题,链接,介绍等信息。逐一依据样式解析即

4、可。代码以下:上边一堆代码下来,着实花费了我不少时间,边写边调试,边baidu不过还好最终还是出来了。等数据全部整理好以后,然后我把它保留到了txt文件里面,以供其它语言来处理。原来想写个put直接put到ElasticSearch中,奈何没成功。后边在试吧,毕竟我的关键只是导数据,不在抓取这里。上边呢,我取了一百页的数据,也就是大约2021条做测试。结果验收废了好大劲最终写完那些代码以后呢,就能够享受胜利的果实了,即使是初学者,代码写的很渣,这参考一下,那参考一下,不过还是有些收获的。运行效果以下:生成的文件:文件内容:总结一个简单的抓取程序就写完了,python还真是TM的好用。以后有空再研究研究吧。代码行数算上空行和注释总共100 行。凑个整数好看点现在认识字我感觉就能够上手写程序了。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!