Python网络爬虫实习资料报告材料-python实习资料报告材料
《Python网络爬虫实习资料报告材料-python实习资料报告材料》由会员分享,可在线阅读,更多相关《Python网络爬虫实习资料报告材料-python实习资料报告材料(13页珍藏版)》请在装配图网上搜索。
1、wordPython网络爬虫实习报告- 12 - / 13目录一、选题背景- 2 -二、爬虫原理- 2 -三、爬虫历史和分类- 2 -四、常用爬虫框架比拟- 5 -五、数据爬取实战豆瓣网爬取电影数据- 6 -1分析网页- 6 -2爬取数据- 7 -3数据整理、转换- 10 -4数据保存、展示- 12 -5技术难点关键点- 12 -六、总结- 14 -一、 选题背景二、 爬虫原理三、 爬虫历史和分类四、 常用爬虫框架比拟Scrapy框架:Scrapy框架是一套比拟成熟的Python爬虫框架,是使用Python开发的快速、高层次的信息爬取框架,可以高效的爬取web页面并提取出结构化数据。Scrap
2、y应用围很广,爬虫开发、数据挖掘、数据监测、自动化测试等。Crawley框架:Crawley也是Python开发出的爬虫框架,该框架致力于改变人们从互联网中提取数据的方式。Portia框架:Portia框架是一款允许没有任何编程根底的用户可视化地爬取网页的爬虫框架。newspaper框架:newspaper框架是一个用来提取新闻、文章以与容分析的Python爬虫框架。Python-goose框架:Python-goose框架可提取的信息包括:文章主体容;文章主要图片;文章中嵌入的任heYoutube/Vimeo视频;元描述;元标签五、数据爬取实战豆瓣网爬取电影数据1分析网页# 获取html源代
3、码def _getHtml(): data = pageNum = 1 pageSize = 0 try: while (pageSize = 125): # headers = User-Agent:Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11, # Referer:None #注意如果依然不能抓取的话,这里可以设置抓取的host # # opener = urllib.request.build_opener() # opener.a
4、ddheaders = headers url = s:/movie.douban./top250?start= + str(pageSize) + &filter= + str(pageNum) # datahtml%s % i =urllib.request.urlopen(url).read().decode(utf-8) data.append(urllib.request.urlopen(url).read().decode(utf-8) pageSize += 25 pageNum += 1 print(pageSize, pageNum) except Exception as
5、e: raise e return data2爬取数据def _getData(html): title = # 电影标题 #rating_num = # 评分 range_num = # 排名 #rating_people_num = # 评价人数 movie_author = # 导演 data = # bs4解析html soup = BeautifulSoup(html, html.parser) for li in soup.find(ol, attrs=class: grid_view).find_all(li): title.append(li.find(span, class_
6、=title).text) #rating_num.append(li.find(div, class_=star).find(span, class_=rating_num).text) range_num.append(li.find(div, class_=pic).find(em).text) #spans = li.find(div, class_=star).find_all(span) #for x in range(len(spans): # if x = 2: # pass # else: # rating_people_num.append(spansx.string-le
7、n(spansx.string):-3) str = li.find(div, class_=bd).find(p, class_=).text.lstrip() index = str.find(主) if (index = -1): index = str.find(.) print(li.find(div, class_=pic).find(em).text) if (li.find(div, class_=pic).find(em).text = 210): index = 60 # print(aaa) # print(str4:index) movie_author.append(
8、str4:index) datatitle = title #datarating_num = rating_num datarange_num = range_num #datarating_people_num = rating_people_num datamovie_author = movie_author return data3数据整理、转换def _getMovies(data): f = open(F:/douban_movie.html, w,encoding=utf-8) f.write() f.write(Insert title here) f.write() f.w
9、rite(爬取豆瓣电影) f.write( 文斌) f.write( 时间: + nowtime + ) f.write() f.write()f.write() f.write() f.write(电影) #f.write(评分) f.write(排名) #f.write(评价人数) f.write(导演) f.write() f.write()f.write() for data in datas: for i in range(0, 25): f.write() f.write(%s % datatitlei) # f.write(%s % datarating_numi) f.writ
10、e(%s % datarange_numi) # f.write(%s % datarating_people_numi) f.write(%s % datamovie_authori) f.write() f.write()f.write() f.write() f.write() f.write() f.close()if _name_ = _main_: datas = htmls = _getHtml() for i in range(len(htmls): data = _getData(htmlsi) datas.append(data) _getMovies(datas)4数据保
11、存、展示结果如后图所示:5技术难点关键点数据爬取实战搜房网爬取房屋数据from bs4 import BeautifulSoupimport requestsrep = requests.get(newhouse.fang./top/)rep.encoding = gb2312 # 设置编码方式html = rep.textsoup = BeautifulSoup(html, html.parser)f = open(F:/fang.html, w,encoding=utf-8)f.write()f.write(Insert title here)f.write()f.write(新房成交TO
12、P3)f.write()f.write(房址)f.write(成交量)f.write(均价)for li in soup.find(ul,class_=ul02).find_all(li): name=li.find(div,class_=pbtext).find(p).text chengjiaoliang=li.find(span,class_=red-f3).text try: junjia=li.find(div,class_=ohter).find(p,class_=gray-9)#.text.replace(O, 平方米) except Exception as e: junjia=li.find(div,class_=gray-9)#.text.replace(O, 平方米) f.write(%s % name) f.write(%s % chengjiaoliang) f.write(%s % junjia) print(name)f.write()f.write()六、总结教师评语:成绩: 指导教师:
- 温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。