基于机器学习方法的共享单车需求分析

上传人:卢****6 文档编号:32441793 上传时间:2021-10-14 格式:DOCX 页数:4 大小:14.79KB
收藏 版权申诉 举报 下载
基于机器学习方法的共享单车需求分析_第1页
第1页 / 共4页
基于机器学习方法的共享单车需求分析_第2页
第2页 / 共4页
基于机器学习方法的共享单车需求分析_第3页
第3页 / 共4页
资源描述:

《基于机器学习方法的共享单车需求分析》由会员分享,可在线阅读,更多相关《基于机器学习方法的共享单车需求分析(4页珍藏版)》请在装配图网上搜索。

1、基于机器学习方法的共享单车需求分析 摘要:共享单车是当前一种流行的出行方式,不同地区和不同时段对共享单车的需求不同。更好的共享单车需求分析能够优化共享单车配置,降低闲置率,提高利用率。本文依据Kaggle华盛顿共享单车使用的历史数据,对未来几天的共享单车需求进行预测,要求利用每月前19天的历史数据预测20天之后的共享单车租赁情况。这一问题属于机器学习中的回归问题,在Kaggle提供的数据集上分别采用了线性模型RidgeRegression,基于回归树的集成学习模型RandomForest以及深度学习模型NeuralNetwork。以预测结果和真实值的RMSERootMeanSquaredLog

2、arithmicError作为模型表现的评价指标。对不同的模型特点以及在共享单车数据集上的表现进行了比照分析,对结果进行了总结。关键词:共享单车需求分析;岭回归;随机森林20210引言共享单车是一种十分便捷环保的出行方式,人们可以从任意提供共享单车的位置通过 APP租借,在到达目的地之后直接在APP上选择归还将共享单车落锁即可。回归问题的研究在机器学习领域具有重要意义,不同的回归分析方法由于各自的思想以及采用的优化方式不同因而在不同的训练数据上表现会出现差异。基于对数据本身的分析和理解,从机器学习回归方法中挑选几个模型进行训练,并在此根底上进行优化。本文依据共享单车预测这一具体问题,构建了一些

3、回归学习模型,将历史数据与未来的天气信息相结合,更加准确地预测华盛顿特区的共享单车租赁需求。1数据集描述Kaggle比赛给出的数据集划分为训练集和测试集,其中训练集包含10886个训练样本,测试集包含6493个测试样本。数据包含12列特征,包括datetime日期,精确到整点时刻,season季节,1=春,2=夏,3=秋,4=冬,holiday是否假日,workingday是否工作日,weather天气等级:1=晴天或多云,2=有雾,3=小雪或小雨,4=暴雨或大雪,冰雹等恶劣天气,temp温度,摄氏度,atemp体感温度,humidity相对湿度,windspeed风速,casual非会员租赁

4、数量,registered會员租赁数量,count总租赁数量,会员+非会员。数据中只有日期特征为字符串类型,其他特征都是数值类型,数据中不存在缺失情况。经过数据探查,发现数据中不存在缺失值和重复值,因此对数据进行异常值分析。对字符串类型的日期数据进行转换,从中提取出年,月,日,小时,单独作为特征。对于训练数据,分别计算每日对应的共享单车租赁总数和当月共享单车租赁的中位数,画出2021年1月到2021年12月的折线图。可以直观地看到,2021年和2021年的数据,年内波动曲线类似,但2021年每月租赁数据同比2021年均有增长。通过对月份和共享单车租赁情况画图分析,年内随着月份变化租赁总量会有规

5、律地变化,此外,每个月的数据中存在不同程度的离群点。数据呈现出比较明显的季度趋势,通过分析发现,租赁总数的峰值出现在秋季,低谷出现在春季,此外,春季具有较多的离群值。通过对数据取中位数分析,相比工作日,周末会有较多的非会员用户租赁共享单车,工作日那么有较多的会员用户使用共享单车。统计共享单车的日内使用总数,工作日共享单车有更多的用户。1.2.5工作日、节假日和共享单车租赁总数整体而言,共享单车的租赁在节假日呈下滑趋势,而在工作日呈上升趋势。同时,在节假日会有更多的非会员用户使用共享单车效劳,而在工作日,使用共享单车的非会员用户较少。可能节假日的非会员用户来源为游客,较多的会员用户会在工作日使用

6、共享单车来通勤。对整点时间的分析划分成节假日和工作日两局部。在节假日期间,非会员用户与会员用户的共享单车使用趋势比较接近,峰值出现时间不同,非会员用户峰值出现在下午2点左右,会员用户的峰值那么出现在下午5点。在工作日期间,会员用户的共享单车使用呈现出两个峰值,分别为早上8点和下午5点。这两个时段为上下班顶峰期,符合会员用户通勤需要的推测。非会员用户那么不存在双顶峰的情况,在一天之中呈现出先上升后下降的趋势,顶峰出现在中午。在工作日以及非工作日,共享单车的租赁数量会明显受到天气的影响,当天气越糟糕,共享单车的使用量越低。如果非工作日遇到最恶劣的天气暴雨/大雪那么不会产生共享单车的租赁。2构建回归

7、模型2.1构建岭回归RidgeRegression模型线性回归实际上是假设训练数据X和预测目标Y之间满足线性关系,假设一组线性方程,利用预测值和真实值的误差构建损失函数来描述线性方程的拟合效果,用训练数据对模型进行训练,通过梯度下降算法来减小误差即降低损失,从而修正线性方程。损失函数是一种评判标准。通过求得损失函数的最小值来确定最能拟合数据的线性方程。梯度下降算法是一种用来计算损失函数最小值的方法。对于一组线性方程Y=wx+b构造一个损失函数,预测值和真实值之间的平方误差,使用梯度下降的方法求得损失函数的最小值,能够使组线性方程最好地拟合数据集,求出此时的w,b即确定了线性方程的参数,得到训练

8、好的模型。岭回归那么是在线性回归的根底上增加正那么化参数,能够有效地防止模型过拟合。训练过程中,通过交叉验证来挑选最优的alpha参数,最终选定的alpha参数为805。采用最优的参数训练模型,分别计算模型在训练集和测试集上的RMSE均方根误差,预测值与真实值偏差的平方与观测次数n比值的平方根以及模型的拟合优度R2R22.2构建随机森林RandomForest模型以cart回归树作为根底学习器,采用最小均方差来决定划分特征以及特征值。遍历所有特征以及特征值,选定任意特征值作为划分依据将数据划分成两局部,S1和S2,筛选出能够令S1和S2集合内均方差最小的划分特征以及特征值。随机森林,森林的概念

9、是指由多棵树组成。每棵树用Bootstrapping有放回抽样的方式构造训练集,在构建每棵树的时候按照设定好的比例随机抽取一些训练特征参与树的构建。最后将每棵树集成在一起作为最终的预测模型。当有一个新的测试样本输入时,让森林中的每一课决策树对它进行判断,输出一个类别分类算法或一个平均值回归算法,防止了一棵树的决策失误。共享单车数据中除了局部数值类型的特征之外,存在较多类别类型的特征,从特征情况来看比较适合使用随机森林来建模。在RandomForest模型中采用了1000个估计器,用MSE均方误差作为评价指标,每棵树的深度采用默认值。模型在训练集上的准确率到达:0.94338,在测试集上的准确率

10、到达0.92173。DNN模型即人工神经网络NeuralNetwork,以神经元作为根本运算单元。每个神经元按照线性变换和非线性变换相结合的运算逻辑,对输入数据进行运算,将结果顺着网络连接输送给下一层神经元。每个神经元数据变换的线性函数形式为:W*X+b,其中X为输入数据,W为权重参数,b为偏置参数,参数是随机初始化的,需要网络在训练过程中进行修改。非线性函数通常使用ReLu以及leakyReLu等非线性函数,起到了过滤信号的作用。DNN结构包括输入层,隐藏层和输出层,其中隐藏层可能是一层或多层神经元结构。每层设定好神经元的个数,相邻两层神经元之间是全连接的每两个神经元之间都有連线,而连接表示

11、上一个神经元的输出要作为下一个神经元的输入。对于神经网络的调整可以从改变隐藏层数目以及修改每层神经元个数入手,为了防止过拟合情况,还可以在Dense层后面增加Dropout层,不仅能简化模型,还能够增强网络的鲁棒性。理论上来说,在没有过拟合的前提下,增加神经元个数以及层数能够增强模型的预测能力。构建了一个三层128个神经元的神经网络,采用adam作为优化器。在原始模型的根底上尝试增加或减少hiddenlayer,在训练过程中为了防止过拟合采用了earlystop。参加了weightdacay。在原始模型根底上增加了Dropout,修改了模型学习率。最终模型在训练集上的RMSE:0.4213,模

12、型准确率:0.9526,模型在测试集上的RMSE:0.4437,模型拟合优度评分:0.9506。3结语通过对各个模型的特点以及结果比照分析,集成学习和深度学习均表现出比较明显的优势。比照三层DNN以及线性模型岭回归在共享单车需求预测上的效果差异,深度学习相对于其他机器学习方法而言,对特征的自动提取是其最大的特点,在没有充分的人工特征的前提下,深度学习能够发挥出较大的作用。深度学习比照传统方法来说,最大的优势是自动特征的提取。比照集成学习以及线性模型岭回归在共享单车需求预测上的效果差异,集成学习得益于对于单个预测模型的综合。如果对特征进行进一步扩展和筛选,可能在此根底上能够得到更好的模型效果。参考文献【1】Kaggle共享单车案例随机森预测EB/OL. 【2】Python数据分析Kaggle共享单车工程实战EB/OL. sohu /a/284341148_120215139.【3】实践Kaggle比赛:房价预测EB/OL.

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!