基于GRNN网络的风电功率预测研究毕业设计论文

上传人:1666****666 文档编号:36371902 上传时间:2021-10-30 格式:DOC 页数:38 大小:1.74MB
收藏 版权申诉 举报 下载
基于GRNN网络的风电功率预测研究毕业设计论文_第1页
第1页 / 共38页
基于GRNN网络的风电功率预测研究毕业设计论文_第2页
第2页 / 共38页
基于GRNN网络的风电功率预测研究毕业设计论文_第3页
第3页 / 共38页
资源描述:

《基于GRNN网络的风电功率预测研究毕业设计论文》由会员分享,可在线阅读,更多相关《基于GRNN网络的风电功率预测研究毕业设计论文(38页珍藏版)》请在装配图网上搜索。

1、 I 基于 GRNN 网络的风电功率预测研究 摘要 大规模风电并网对电力系统造成很多不利影响,风电功率预测是减轻这些影响的一个重要手段,故对风功率预测方法的研究具有十分重要的意义。 本文采用 GRNN 神经网络法对风电功率预测进行研究。首先,对风电场历史风功率数据进行分析,截断处理,建立时间序列预测的 GRNN 网络模型;利用该模型对历史数据进行超前一步预测,目的是为了找到最优的 SPREAD 值。SPREAD 值是 GRNN 神经网络的重要参数,该参数的选择对模型的推广能力具有重要的意义。论文从理论上研究神经网络的泛化能力及 GRNN 网络的设计要点,重点讨论 SPREAD 参数的物理本质,

2、给出训练过程中选择该参数的几种方法。其次,以某风电场的风功率历史数据为样本,讨论样本设计及网络训练,运用 MATLABR2008a 平台编程实现对 GRNN 神经网络系统的建模设计。最后,通过对模拟仿真的手段设定获取最小泛化误差的目标函数,进而选出最优的 SPREAD 参数,检验预测效果。 关键词:风电功率预测;泛化能力;GRNN神经网络;扩展系数 II Study on wind power forecasting in wind farms based on GRNN neural networks Abstract Large scale wind power grid for powe

3、r system caused a lot of adverse effect, wind power forecasting is the important method to reduce the influence, so the research of wind power forecasting method has very vital significance. In this paper, we adopt the method of neural networks to GRNN to research wind power forecasting. First, we s

4、tudy the history wind power data of one wind farm and analysis them, then truncate the wind power data and build the GRNN neural networks model with time series; based on the model for forecasting ahead one step with the historical data, the purpose is to find the optimal value of the SPREAD. The va

5、lue of the SPREAD is an important parameter to the GRNN neural networks, and the choice of this parameter has very vital significance to the generalization of this model. From theory, this paper will research the generalization ability of the neural networks and the main points of designing GRNN neu

6、ral networks. This paper focuses on the physical nature of SPREAD and gives several methods of the parameter selection in the training process. Second, we take the historical wind power data of one wind farm as sample, and discuss the sample designing and network training. We use MATLABR2008a platfo

7、rm for programming to design the GRNN neural networks model of the system. Finally, we use the method of simulation to set the objective function with the minimal generalization error, and then choose the best SPREAD to inspect the prediction effect. Keywords: wind power foresting; generalization ab

8、ility; generalize regression neural networks (GRNN); expansion coefficient 目 录 摘要 . I Abstract . II 1 绪论 . 1 1.1 引言 . 1 1.1.1 课题研究背景 . 1 1.1.2 课题研究意义 . 2 1.2 风电场功率预测的国内外研究现状 . 3 1.2.1 国外研究现状 . 3 1.2.2 国内研究现状 . 3 1.3 风电场功率的预测方法 . 4 1.3.1 物理方法 . 4 1.3.2 统计方法 . 4 1.3.3 学习方法 . 5 1.3.4 三种方法的比较 . 5 1.4 本文

9、的主要工作 . 5 1.5 本章小结 . 6 2 径向基神经网络的基本理论 . 7 2.1 径向基函数(RBF)神经网络. 7 2.1.1 RBF神经网络概述. 7 2.1.2 RBF神经网络结构模型. 7 2.2 广义回归(GRNN)神经网络 . 8 2.2.1 GRNN神经网络概述 . 8 2.2.2 GRNN神经网络结构 . 9 2.2.3 GRNN神经网络的理论基础 . 10 3 预测数据及结构参数的预处理 . 12 3.1 历史数据的预处理 . 12 3.2 预测误差分析 . 12 3.3 神经网络的泛化能力 . 13 3.3.1 偏差-方差分解 . 13 3.3.2 “欠拟合”与“

10、过拟合” . 14 3.3.3 神经网络模型的评估 . 15 3.4 GRNN网络设计要点 . 16 3.4.1 SPREAD 参数的物理本质 . 16 3.4.2 选择 SPREAD 的方法 . 16 4 基于 GRNN神经网络的风功率预测建模方法 . 20 4.1 问题描述 . 20 4.2 数据预处理 . 20 4.3 网络设计与训练 . 21 4.3.1 网络模型的评估方法 . 21 4.3.2 网络训练 . 21 4.3.3 训练参数的选择 . 22 5 基于 GRNN神经网络的风功率预测仿真应用 . 24 5.1 仿真背景 . 24 5.2 仿真实验 . 26 5.2.1 讨论 S

11、PREAD 值对 GRNN神经网络的影响 . 26 5.2.2 对提前 1 步预测与多步预测的比较 . 26 5.3 网络测试结果 . 29 6 结论与展望 . 31 参考文献 . 32 致谢 . 34 1 1 绪论 1.1 引言 1.1.1 课题研究背景 随着全球气温变暖和化石燃料一次性能源的逐渐枯竭,以及日益严峻的能源困局,风能、太阳能等可再生能源的利用在世界范围内受到普遍的重视。风力发电作为一种重要的可再生能源,近年来得到较快发展1。根据国际能源机构(IET)预测,2020 年世界电力的 12%将来自风电,到 2040 年风力发电将占世界发电总量的 23%2。风能的合理开发和利用可以有效

12、缓解目前能源匮乏及燃料资源给环境带来的污染问题,在远期有可能成为世界上重要的替代能源。 中国风力发电装机容量自 2005 年开始连续 5 年实现翻番增长。2005 年底,中国风力发电累计总装机容量仅为 1266MW,而到 2010 年底,全国累计装机容量为 41827MW。2009年,中国的总累计装机容量已超过德国,成为世界第二,与排名第一的美国仍有近 1000万千瓦的差距。截至 2010 年底,中国全年风力发电新增装机达 1600 万千瓦,累计装机容量达到 4182.7 万千瓦,总装机比上年增长约 62%,首次超过美国,跃居世界第一。图1-1 和图 1-2 分别为中国和全球近年风力发电装机容

13、量的统计,可见风力发电进入一个快速发展的阶段3 图 1-1 2005 年2010年中国风电累计装机容量统计柱状图 2 图 1-2 2001 年2010年全球风能累计装机容量统计柱状图 风能具有波动性、间歇性、低能量密度等特点,使得风电场输出功率也具有波动性和间歇性。风电场建设规模的不断扩大、风电场数量的不断增加以及风电装机容量在电力系统中所占比例的不断提高给电力系统安全与经济运行带来了新的挑战。迎合此类问题,有关学者对风电场输出功率的预测进行了大量研究。 1.1.2 课题研究意义 对我国风电场输出功率进行预测,具有重要的现实意义和学术价值,具体表现在: (1)优化电网调度,减少旋转备用容量,保

14、证电网经济运行。 对风电场功率进行提前预测,使得电力调度部门可根据风电功率预测得到的出力曲线及时调整调度计划,优化常规机组出力,从而减少系统的备用容量,降低电力系统的运行成本,减轻风电对电网的不利影响。同时,在保证电能质量和电网安全、稳定运行的前提下,尽可能利用风力发电,提高系统中风电装机比例。 (2)满足电力市场交易需求,为风力发电竞价上网提供优势。 在电力市场中,一旦风力发电参与竞价上网,与其它可控的发电方式相比,风力发电的波动性将大大削弱风电的竞争力,而且还会由于供电的不可靠性带来经济惩罚。提前对风电功率预测,将有效提高风力发电的市场竞争力,是风能得到充分合理利用。 (3)便于安排机组维

15、护和检修,提高风电场容量系数。 风电场可以根据预测结果,选择风电场出力较小的时间,对设备进行维护和检修,从而提高发电量及风电场设备的有效利用率。 (4)我国对风电场功率预测技术具有很大需求 丹麦、德国、西班牙等风电技术较发达国家,已经普遍应用风电场功率预测技术,为风电占电力总量比重的不断增长提供了必要保证。与欧洲分布式风力发电方式不同,我国大部分风电场是集中在一个区域内的大容量风电场,风能的间歇性对于接入电网的影响更加突出。 3 1.2 风电场功率预测的国内外研究现状 1.2.1 国外研究现状 国外从事风电场输出功率预测的研究工作起步比较早,现在丹麦、德国、西班牙等风电发展较为成熟的国家,已经

16、研发出了用于风电场输出功率预测的成品系统,并在投入风电场运行使用4。 早在 20 世纪 80年代就开始了风电功率预测技术研究,丹麦是最早进行风电功率预测系统开发的国家之一,在 1990 年 Landberg 采用类似欧洲风图集的推理方法开发了第一套风电功率预测系统。随后,丹麦里索国家实验室(Ris )开发了 Prediktor 系统,该系统使用的是物理模型预测方法。大范围的空气流动数据是由数值天气预报系统高精度有限区域模型(high resolution limited area model HIRLAM)提供的。丹麦科技大学的信息与数学建模学院开发的风电功率预测工具(wind power p

17、rediction tool WPPT),1994 年,WPPT 在丹麦东部投入实际运行,1999 年在丹麦西部电力系统投入运行。 Zephry 是 Ris和丹麦科技大学的信息与数学建模学院(informatics and mathematical modeling,IMM)联合开发的新一代短期风功率预测程序。德国奥尔登堡大学开发的风电功率预测系统 Previento,可以对较大区域的功率进行提前 2 天的预测,其方法与Prediktor类似。 WPMS(wind power management system WPMS)是德国太阳能研究所(Institute fur Solar Engerg

18、ienersorgungstechnik ISET)开发的风电功率管理系统。eWind 是美国 AWS Truewind公司开发的风功率预测系统5,其主要组成包括一组高精度的三维大气物理数学模型、适应性统计模型、风电场输出模型和预测分发系统。 另外还有爱尔兰、西班和法国等国家都开发了风电功率预测系统。西班牙马德里卡洛斯三世大学开发的 sipreolico 工具6。在 Madeira 岛和 Crete 岛运行的 More-Care 系统7和爱尔兰开发的 Honeymoon 系统等。 1.2.2 国内研究现状 目前我国风电功率预测系统尚处于初步探索和理论研究阶段,并未开发出一定精度的风电功率预测系

19、统8。因为我国目前还没有专门用于风电场发电量短期预报的 NWP,所以已有的研究集中在用卡尔曼滤波法9、时间序列法10、人工神经网络等方法进行提前预报。 文献24采用了基于时间序列的神经网络法对风速进行预测。用时间序列法进行建模,将时间序列法的研究结果运用到神经网络法,为了提高预测精度和保持预测精度的稳定性,提出了滚动式权值调整手段 ,提高了预测的精度。文献11 文章提出了一种时间序列分析和卡尔曼滤波相结合的混合算法。其利用时间序列分析理论,对风电场风速 4 信号进行非平稳建模,并根据卡尔曼预测递推方程进行预测12。这种混合算法不仅有效提高预测精度而且较好地改善了预测延时问题。 1.3 风电场功

20、率的预测方法 按照预测模型的不同,可以分为物理方法、统计方法和学习方法13-15。 1.3.1 物理方法 物理方法的目标是尽可能准确估算出风电机组轮毂高度处的气象信息。其首先利用数值天气预报(NWP)系统的预测结果得到风速、风向、气压、气温等天气数据,然后根据风机周围的物理信息得到风力发电机组轮毂高度的风速、风向等信息,最后利用风机的功率曲线计算得出风机的实际输出功率。 图 1-3 物理方法预测流程图 在物理模型方法中,需要对风电场所在地进行物理建模,包括风场的地形、地表植被及粗糙度、周围障碍物等等;还要对风机本身轮毂高度、功率曲线、机械传功等进行建模。该方法的输入参数为数字气象预报模型。预测

21、流程如图 1-3所示。 1.3.2 统计方法 统计方法的实质是在系统的输入(NWP、历史数据、实测数据)和风电功率之间建立一个映射关系,通常为线性关系。这个关系可以用函数的形式表示出来,例如回归分析法、指数平滑法、时间序列法、卡尔曼滤波法等,都是基于线性模型的。这些模型通过捕捉数据中与时间和空间相关的信息来进行预测。 5 1.3.3 学习方法 学习方法的实质是用人工智能的方法提取输入和输出间的关系,而不是以解析的形式来描述,这种方式所建模型通常为非线性模型,比如神经网络法、小波分析法、支持向量机法等,都不能用某个数学表达式直接表示。这些模型采用某种学习算法,通过大量数据的学习和训练来建立输入输

22、出间的关系。在进行短期和中期的风速或风功率预测时,模型的输入变量与统计方法的类似。 由于人工智能的发展,目前国内外的风力发电功率预测研究主要集中在学习方法上,出现了一些人工智能的模型。目前,主要采用 BP 神经网络、局部反馈神经网络等,进行风电场输出功率的短期预测。虽然其结果与实测值在总体趋势上较吻合,但数值误差仍较大。由于 BP 网络用于函数逼近16时,权值的调节采用的是负梯度下降法,这种调节权值的方法存在一定的局限性,即收敛速度慢和局部极小等缺点,因此不能满足风电场功率预测的快速准确的需求。研究表明:径向基(RBF, Radial Basis Function)神经网络的逼近精度明显高于

23、BP 神经网络且不存在局部最小问题,不需要事先确定隐含层的单元个数,并在逼近能力、分析能力和学习速度等方面均明显优于 BP 神经网络。文献15中利用径向基神经网络对风电场进行短期风功率预测,运用模型进行了 1h 后的风电输出功率预测,预测误差在 12%附近。通过对预测结果与实际功率值进行比较,可知该方法的预测精度较高且比较稳定。 1.3.4 三种方法的比较 在上述三种方法中,物理方法不需要长期大量的观测数据,但需要获得有效的数字气象预报(NWP)数据,而风电场周围的物理信息对预测的准确度有很大的影响,要准确预测每个风机的轮毂高度及风电场所处的海拔高度、气温气压等情况是十分复杂的工作。统计方法比

24、较简单,所用数据单一,对突变信息处理不好。国外采用最简单的 persistence统计模型,其计算简单,在短期预测中性能很好,但随着预测时间的增加,准确定快速下降,故常用来作为基准模型评价其他高级模型的精确度。学习方法可以根据风电场的位置,随之修改预测模型,其准确度比较高,但需要大量的历史数据。 1.4 本文的主要工作 本文首先介绍国内外风电场输出功率预测方法的研究现状,对风电场功率预测的研究背景及意义进行论述,并分析各种预测方法的优缺点及适用情况。本文采用广义回归(GRNN)神经网络法对风电场输出功率实时超短期预测进行研究,深入学习神经网络的泛化能力和参数 SPREAD 的物理意义,选择最佳

25、参数值进而得到最优网络设计。主要包括以下方面的内容: 6 第 1 章研究了风力发电在国内外的发展情况和风电场输出功率预测的研究背景和意义,论述了国内外风电场功率预测的研究现状,并介绍几种国内常见的风电场功率预测方法。 第 2 章介绍径向基神经网络及广义回归神经网络的基本理论、网络模型结构和理论基础,为后文的预测工作奠定了理论基础。 第 3 章研究预测数据集结构参数的预处理,分别从历史数据的预处理、预测误差公式及神经网络泛化能力三方面开展。重点讨论 GRNN 网络的设计要点,即讨论选择最优SPREAD 参数的几种方法。 第 4 章介绍基于 GRNN 神经网络对风电场风功率进行预测的建模方法,对网

26、络设计过程中所遇到的问题逐一提出解决方案。 第 5 章研究基于 GRNN 神经网络对风电场风功率进行预测的仿真应用,利用 Matlab7的神经网络工具箱作为编程平台,编程实现 GRNN 网络设计与训练。对预测模型进行仿真实验,得到实验结果,最终得出实验结论。 第 6章对本文工作进行总结,并对本文研究课题的后期研究提出合理展望。 1.5 本章小结 本章首先表明了本课题的研究背景和意义。本章详细介绍了国内外风力发电的发展状况,指明了风力发电的发展前景良好,提出了非常输出功率预测的重要性。对国内外风电功率预测的研究现状作了简要介绍,分析可知国内的预测精度应通过先进的预测技术加以提高。本章最后概括了论

27、文的结构安排。 7 2 径向基神经网络的基本理论 2.1 径向基函数(RBF)神经网络 径向基函数(RBF)神经网络可看做是一个高维空间中的曲线拟合(逼近)问题,学习等价于在多维空间中寻找一个能够最佳拟合训练数据的曲面,泛化等价于利用这个多维曲面对测试数据进行插值17。 2.1.1 RBF 神经网络概述 径向基函数(Radial Basis Function, RBF)是多维空间插值的传统技术,由 Powell 于1985 年提出。在神经网络的背景下,隐藏单元提供一个“函数”集,该函数集在输入模式向量扩展至隐层空间时为其构建了一个任意的“基”,这个函数集中的函数就被称为径向基函数。1988 年

28、,Broom head 和 Lowe 根据生物神经元具有局部响应这一特点,将RBF 引入神经网络设计中,产生了 RBF 神经网络。1989 年,Jackson 论证了 RBF 神经网络对非线性连续函数的一致逼近性能。 RBF 神经网络的基本思想是:用 RBF 作为隐单元的“基”构成隐藏层空间,隐含层对输入矢量进行变换,将低维的模式输入数据变换到高维空间中,使得在低维空间内的线性不可分问题在高维空间内线性可分18。 RBF 神经网络属于前向神经网络类型,网络的结构于多层前向网络类似,是一种三层的前向网络。第一层为输入层,有信号源结点组成;第二层为隐藏层,隐藏层节点数视所描述问题的需要而定,隐藏层

29、中神经元的变换函数即径向基函数是对中心点径向对称且衰减的非负非线性函数,该函数是局部响应函数,而以前的前向网络变换函数都是全局响应的函数;第三层为输出层,它对输入模式做出响应。 2.1.2 RBF 神经网络结构模型 图 2-1 所示为有 R 个输入的径向基神经元模型19。 图 2-1 径向基神经元模型 8 由图可见,RBF 网络传递函数 radbas 是以权值向量和阈值向量之间的距离作为自变量的,其中,是通过输入向量和加权矩阵的行向量的乘积得到的。 径向基网络传递函数的原型函数为:,其中为径向基函数,一般为高斯函数。 径向基神经网络是一种两层前向神经网络,包含一个具有径向基函数神经元的隐层和一

30、个具有线性神经元的输出层。其中隐层有个神经元,节点函数为高斯函数,输出层有个神经元,节点函数通常是简单的线性函数。其结构如图 2-2所示。 图 2-2 径向基函数网络结构图 模块计算输入向量 p 和输入权值的行向量之间的距离,产生维向量,然后与阈值相乘,在经过径向基传递函数从而得到第一层输出。第一层输出可由下式表示:。 2.2 广义回归(GRNN)神经网络 2.2.1 GRNN 神经网络概述 1991 年,Specht 提出了广义回归神经网络(generalized regression neural network, GRNN)。广义回归神经网络是径向基网络的一种,它是利用径向基神经元和线性

31、神经元建立起来的。GRNN 不需事先确定方程式,它以概率密度函数代替固有的方程形式。GRNN 通过执行 Parzen 非参数估计,从观测样本里求得自变量和因变量之间的连接概率密度函数之后,直接计算出因变量对自变量的回归值。GRNN 不需设定模型的形式,但其隐回归单元的核函数中有扩展系数(光滑因子),它的取值对网络有很大的影响,需优化取值。Specht 提出的 GRNN,对所有隐层单元的核函数采用同一扩展系数,网络的训练过程实质是一个一维寻优过程,训练极为方便快捷,且便于硬件实现20。 GRNN 网络模型具有很强的非线性映射能力和柔性网络结构,以及高度的容错性和鲁棒性,通常用来实现函数逼近。GR

32、NN 在逼近能力和学习速度上较 RBF 网络有更强的优势,网络最后收敛于样本量积聚较多的优化回归面,并且在样本数据较少时,预测效果也较好。 9 2.2.2 GRNN 神经网络结构 GRNN 网络在结构上与 RBF 网络较为相似20。它由四层构成,如图 2-3 所示,分别为输入层(input layer)、模式层(pattern layer)、求和层(summation layer)、输出层(output layer)。对应网络输入,其输出为。 图 2-3 广义回归网络结构图 (1)输入层 输入层神经元的数目等于学习样本中输入向量的维数,各神经元是简单的分布单元,直接将输入变量传递给模式层。 (

33、2)模式层 模式层神经元数目等于学习样本的数目 n,各神经元对应不同的样本,模式层神经元传递函数为 神经元 i 的输出为输入变量与其对应的样本 X 之间的 Euclid 距离平方的指数平方的指数形式。式中,X 为网络输入变量;我第 i 个神经元对应的学习样本。 (3)求和层 求和层中使用两种类型神经元进行求和。 一类的计算公式为 ,它对所有模式层神经元的输出进行算 数求和,其模式与各神经元的连接权值为 1,传递函数为 另一类计算公式为 ,它对所有模式层的神经元进行加权 10 求和,模式层中第 i 个神经元与求和层中第 j 个分子求和神经元之间的连接权值为第 i 个输出样本 中第 j 个元素,传

34、递函数为 4)输出层 输出层中神经元数目等于学习样本中输出向量的维数 k,各神经元将求和层的输出相除,神经元 j 的输出对应估计结果的第 j 个元素,即 下图所示为 GRNN神经网络的运算流程图。 2.2.3 GRNN 神经网络的理论基础 广义回归神经网络的理论基础是非线性回归分析,非独立变量 Y 相对于独立变量 x的回归分析实际上是极端具有最大概率值的 y。设随机变量 x 和随机变量 y 的联合概率密度函数为(x, y),已知 x 的观测值为 X,则 y相对于 X的回归,也即条件均值为 (2-1) 即为输入为 X的条件下,Y的预测输出。 应用 Parzen 非参数估计,可由样本数据集,估算密

35、度函数 。 式中, 为随机变量 x 和 y的样本观测值;n 为样本容量;p 为随机变量 x 的维数值;为高斯函数的宽度系数,在此称为光滑因子,又称为扩展系数。 用 代替 代入式(2-1),并交换积分和加和的顺序: 由于,对两个积分进行计算后可得网络的输出为 估计值为所有样本观测值 的加权平均,每个观测值 的权重因子为相应的样本与 之间 Euclid 距离平方的指数。当光滑因子 非常大的时候,近似于所有样本因变量的均值。相反,当光滑因子 趋向于 0 的时候,和训练样本非常接近,当需预测的点被包含在训练样本集中时,公式求出的因变量的预测值会和样本中对应的因变量非常接近,而一旦碰到样本中未能包含进去

36、的点,有可能预测效果会非常差,这种现象说明 11 网络的泛化能力差。当 取值适中,求预测值时,所有训练样本的因变量都被考虑了进去,与测试点距离近的样本点对应的因变量被加大了更大的权。 12 3 预测数据及结构参数的预处理 3.1 历史数据的预处理 对于 GRNN 神经网络的训练,大量的样本数据可以提高神经网络的拟合能力及其预报能力。然而,对于在线预测而言,庞大的历史数据会给数据存储带来很大的困难,所以在进行网络训练时要选择适合的数据进行训练。首先,要检验数据的合理性,例如,风功率的值应该均为正值,且最大不能超过总机组安装容量。挑选出不合理的风功率数据并对其进行适当修补,使得设计所用数据均具合理

37、性。 之后,对数据进行标准化处理,数据标准化处理包括两方面,一方面:数据同趋化处理,用于解决不同性质数据不能直接进行数值运算的问题;另一方面:数据无量纲化处理,用于解决数据的可比性。常见的数据标准化方法有三种:“最小-最大标准化”、“小数定标标准化”和“z-score 标准化”。经过上述标准化处理,原始数据均转换为无量纲化指标测评值,即各指标值都处于同一个数量级别上,可以进行综合测评分析。本文采用的是“最小-最大标准化”,即对原始数据进行线性变换。用标准化计算公式对校正风功率数据集合进行归一化,用以消除数据中的冗余成分。由于数据在远离 0的数据区域内学习时,学习速度较慢,甚至不利收敛,所以对数

38、据的归一化处理可以加快神经网络的训练速度。 3.2 预测误差分析 由于风电场风功率预测是一种对未来机组功率值的估算,无法避免地,它与客观实际之间存在一定的数值差距,这就是预测误差。研究功率预测误差产生的原因,计算并分析误差的大小具有重要意义。这样不仅可以认识预测结果的准确程度,而且在利用预测结果进行备用容量决策时具有重要的参考价值。 常用的计算和分析预测误差的方法和指标有很多,计算预测误差的主要方法如下: (1)绝对误差 AE: (2)相对误差 RE: (3)平均绝对误差 MAE: 由于预测误差有正有负,为了避免正负抵消,故取误差的绝对值进行综合并计算其平均值,这是误差分析的综合指标之一。 (

39、4)均方根误差 RMSE: 13 由于对误差进行了平方,优点是加强了数值大的误差在指标中的作用,从而提高了这个指标的灵敏性。这也是误差分析的综合指标之一。 (5)标准误差 S: 为第 k 个实际功率值;为第 k 个预测功率值; 为历史功率数据个数。 3.3 神经网络的泛化能力 神经网络模型设计常常需要满足多种不同的要求,比如,具有较好的泛化(推广)能力、易于硬件实现、训练速度快等,其中泛化能力最为重要,它是衡量神经网络性能优劣的一个重要方面,这是因为建立神经网络模型的一个重要目标是通过对已知环境信息的学习,掌握其中的规律,从而对新的环境信息作出正确的预测21。 泛化能力的定义如下:它是指经过训

40、练(学习)后的预测模型对围在训练集中出现(但具有统一规律性)的样本作出正确反应的能力,学习不是简单地记忆已经学过的输入,而是通过对有限个训练样本的学习,学到隐含在样本中的有关环境本身的内在规律性。 神经网络的泛化能力涉及其在独立的检验数据上的测试能力。在实践中,性能的评估非常重要,它指导了学习算法和模型的选择,并为最终选定模型提供质的度量。神经网络的泛化能力也就是指学习后的神经网络对测试样本或工作样本作出正确反应的能力,所以说没有泛化能力的神经网络没有任何实用价值。 3.3.1 偏差-方差分解 一般来说,神经网络模型的泛化能力取决于 3个主要因素,即问题本身的复杂程度、参数的范围和样本量的大小

41、。误差损失函数的“偏差-方差分解”是解释许多方法能力提高或降低神经网络泛化能力的重要依据21。 以回归和曲线拟合为例,给出预测误差函数表达式的偏差-方差分解。假定,即期望输出中有噪声,满足均值,方差,使用均方误差损失函数,可以导出在任意输入点 X上,神经网络进行拟合的输出 的误差: (3-1) 第一项是神经网络目标输出在真正值 附近的方差,这是噪声所引起的,除非,否则无论神经网络对估计得多好都无法完全避免;第二项是“偏差”平方 14 项,代表的是神经网络估计值与真实值之间的差异,一个小的偏差意味着可以从数据集 D中较准确地估计出;第三项是方差项,代表的是神经网络估计值在其本身期望均值附近的平方

42、差,其反映了一个模型对数据的敏感度,即一个小的“方差”意味着神经网络的估计值不随训练集的波动而发生较大的波动。 式(3-1)表明均方误差可以用偏差想和方差项的和的形式表示。“偏差”项度量的是模型与真实系统之间匹配的“准确性”和“质量”:一个高的偏差意味着坏的匹配;而“方差”项度量的是模型与真实系统之间匹配的“精确性”和“特定性”:一个高的方差意味着弱匹配。偏差和方差两难是一个普遍的现象:一个模型学习算法如果逐渐提高对训练数据的适应性,那么它将巨响与更小的偏差,但可能导致更大的方差。反之,如果一个模型的参数较少,那么数据拟合的性能就不会太好,但拟合的程度不会随数据集的变化而变化太大。换言之,随着

43、模型复杂度的增加,方差趋于增加,偏差趋于减小;随着模型复杂度的降低,则情况相反。 3.3.2 “欠拟合”与“过拟合” 神经网络在训练中很容易陷入两种状态:“欠拟合”与“过拟合”。如果一个神经网络不够复杂,则令它完全探测到复杂数据集中的信号就非常困难,这就会导致“欠拟合”。一个神经网络若过于复杂则可能会将信号连同噪声一起进行拟合,这就会导致“过拟合”21。可以从偏差和方差的角度分析神经网络的这两种状态:“欠拟合”会使输出产生较大的偏差,而“过拟合”则产生较大的方差。神经网络陷入这两种状态均会是其泛化能力下降。如图 3-1 所示这种状态与偏差-方差的关系。在训练网络过程中,通过对偏差与方差之间的互

44、相权衡,使泛化误差(均方误差)最小,从而得到更为有效的训练网络。本文采用标准误差衡量泛化误差的大小。 图 3-1 “欠拟合”、“过拟合”与偏差-方差的关系 对于 GRNN 网络而言,扩展系数的选择对于网络的创建有很大的影响。前文提到,网络的训练过程实质是一个一维寻优过程,寻的就是扩展系数的最优值。如果扩展系数选择不当,会造成网络中神经元响应区域不能覆盖整个输入范围,或者交叠区域过大导致重复响应,因而造成网络的“欠拟合”或者“过拟合”。 15 3.3.3 神经网络模型的评估 神经网络模型的评估是指:已经选定最终的模型,估计它在心数据上的预测误差(泛化误差)21。常用的估计泛化误差的方法有以下三种

45、: (1)样本划分 如果给定的数据量很大,估计泛化误差最好的方法是保留出部分数据作为“检验集”,即将数据集随机地分为 3 部分:训练集(Training Set)、验证集(Validation Set)和检验集(Test Set)。“检验集”必须具有代表性,且不能以任何方式用在训练中。训练集用于拟合模型,验证集用于估计模型选择的预测误差,检验集用于最终选定的模型泛化误差的评估。训练结束后,在检验集上再次运行网络,计算出网络在检验集上的误差,假定检验集是随机选取的,那么这一误差可以作为泛化误差的无偏估计。至于这 3部分该占多少比例,很难给出一般的规则,因为这依赖于数据的信噪比和训练样本的容量。对

46、于数据量不是很大的情况,一般只分为训练集和验证集即可。 (2)交叉验证(Cross-Validation) 交叉验证方法是样本划分方法的改进,该方法可以使用所有训练数据,其缺点是需要多次重复训练网络。又称为循环估计,是一种统计学上将数据样本切割成较小子集的实用方法。基本思想是在某种意义下将原始数据(data set)进行分组,一部分做为训练集(Training Set),另一部分做为验证集(Validation Set or Test Set),首先用训练集对网络进行训练,网络训练完成之后再利用验证集来测试训练得到的网络模型,以此来做为评价网络的性能指标。该方法是基于“重采样”技术。K-折交叉

47、验证的方法如下:将数据分成容量大致相等的 K 份,将网络训练 K 次,即建立 K 个模型,每一次留出一份作为验证集,其他 K-1 份作为训练集;最终将 K 此验证集上的误差进行平均得到神经网络预测误差的交叉验证估计。K 值一般大于等于 2,实际操作时一般从 3 开始去,最常见的交叉验证采用 5折或者 10 折验证居多。图 3-2所示为 5折交叉验证法。 交叉验证方法可以用于估计一个给定模型的泛化误差,也可以用于参数选择,即从众多可用参数中选出一个使泛化误差估计最小的最佳参数,进而得到优化模型。 (3)自助法(Bootstrapping) Bootstrapping 是交叉验证法的改进,可以更好

48、地估计泛化误差。该方法的基本思想是:从训练数据中有放回的随机抽取数据集,每个数据集的容量都与原数据集相同。这样操作 B 次,产生 B 个自助法数据集,然后对每个自助法数据集重新训练网络,并检验B次重复试验上的拟合效果。 由于自助训练集和原始训练集重叠过多,基于此得到的误差要远远低于真实误差,通过模仿交叉验证方法,可以获得一个较好的自助法估计。对每一个观测,仅计算不包 16 含该观测的自助法样本的预测。利用自助法不仅可以估计泛化误差,还可以估计网络输出的置信度区间。 3.4 GRNN 网络设计要点 RBF 网络的设计包括结构设计和参数设计。结构设计主要解决如何确定网络隐节点数的问题,参数设计一般

49、需考虑包括 3种参数:各基函数的数据中心位置、扩展系数和输出节点的权值。 由于 GRNN 的样本数据一旦确定,则相应的网络结构和各神经元之间的连接权值也随之确定,网络的训练实际上只是确定扩展系数的过程。与传统的误差反向传统算法不同,GRNN 的学习算法在训练过程中不调整神经元之间的连接权值,而只是改变扩展系数,从而调整模式层中各单元的传递函数,以获得最佳的回归估计结果。 3.4.1 SPREAD 参数的物理本质 SPREAD 是径向基函数的扩展系数,也就是径向基函数(高斯函数)的宽度系数,又称为光滑因子或者平滑系数 。合理选择 SPREAD 是很重要的,其值应该足够大,使径向基神经元能够对输入

50、向量所覆盖的区间都产生响应,但也不要求大到所有的径向基神经元都如此,只要部分径向基神经元能够对输入向量所覆盖的区间产生响应就足够了。 SPREAD 的值越小,网络对样本的逼近性就越强;SPREAD 的值越大,网络对样本数据的逼近过程就越光滑,但误差也相应增大。对径向基扩展系数的选择不当,会导致网络设计中神经元数目的过少或过多,从而在进行函数逼近中会造成网络陷入“欠拟合”或者“过拟合”状态17。所以在训练网络过程中,为了折中偏差-方差之间大小关系,合理选择扩展系数,得到最优 SPREAD 参数值使得泛化误差(均方误差)最小,从而网络处于有效合适状态。一般情况下,扩展系数的选取取决于输入向量之间的

51、距离,要求是大于最小距离,小于最大距离19。 3.4.2 选择 SPREAD 的方法 3.4.2.1 随机选取法 这是一种最易操作的方法,即在输入样本数据中随机选取若干样本作为网络的中心,且固定不变。这样隐单元输出是已知的,网络的连接权值可以通过求解线性方程组来确定。由于中心是随机选取,因此两个中心可能会非常接近,这样会导致解线性方程组时出现奇异矩阵,导致解的结果不可靠,这种情况随着样本数的增加而更加明显。因此,这种方法适用于那些给定样本数据具有代表性的问题。而对于输入样本数据具有一定冗余性的问题来说,这种方法就不太适用。为此,设计者可以考虑在样本密集的地方 17 中心点可以适当多些,样本稀疏

52、的地方中心点可以少些;进一步的方法是通过自组织的方法自动找到不同区域样本的代表向量。 在这种方法中,一旦中心点选定,就而已进一步确定基函数的扩展系数。例如高斯函数的宽度可以取 式中,是所选数据中心之间的最大距离, 是数据中心的数目。 3.4.2.2 自组织学习选取 RBF 中心及网络设计 RBF 中心通过自组织学习进行聚类,选取聚类中心作为 RBF 中心,而输出层的权值可以通过解线性方程组 ,也可以通过有监督的学习规则计算。自组织学习的目的是使RBF的中心位于样本空间的代表性区域21。 1989 年,Moody 和 Darken 提出一种由两个阶段组成的混合学习过程的思路。第一阶段为自组织学习

53、阶段,目的是为隐藏层径向基函数的中心估计一个合适的位置,可采用聚类算法确定合适的数据中心,并根据各中心之间的距离确定隐节点的扩展系数;第二阶段为监督学习阶段,用有监督学习算法,如梯度法训练网络得出输出层的权值。 虽然可以用批处理来执行上述两种学习阶段,但是用自适应(迭代)的方法更理想。对于自组织学习过程,我们需要一个聚类的算法将所给的数据点剖几个不同的部分,每一部分中的数据都尽量有相同性质。一种这样的算法为 K-均值聚类算法,他将径向基函数的中心放在输入空间中重要数据点所在的区域上。那么,数据中心的 K-均值聚类算法的步骤如下: (1)初始化。选择 M 个互不相同向量作为初始聚类中心,选择方法

54、可以是随机选取。 (2)计算各样本点与聚类中心点的距离。 (3)相似匹配。将全部样本划分为 M 个子集,每个子集构成一个以聚类中心为典型代表的聚类域。 (4)更新各类的聚类中心。对各聚类域中的样本取均值表示聚类中心。 (5)令 k=k+1,转到第 2)步,重复上述过程,对于 K-均值聚类法,直到 时停止训练。 各聚类中心确定后,可根据各中心之间的距离确定对应径向基函数的扩展系数。 ,则扩展系数取,为重叠系数。混合学习过程的第二步是用有监督学习算法得到输出层的权值,常采用 LMS 算法,下一节中有所说明。 3.4.2.3 有监督学习选取 RBF 中心及网络设计 关于数据中心的监督学习算法,最一般

55、的情况是对输出层各权向量赋小随机数并进行归一化处理隐节点 RBF 函数的中心,扩展系数和输出层权值均采用监督学习算法进行 18 训练,所有参数都经历一个误差修正学习过程。以单输出 RBF 网络为例,采用梯度下降算法21。定义目标函数为 式中,P 为训练样本数, 为输入第 i 个样本时的误差信号。 定义为 ,式中输出函数忽略了阈值。 为使目标函数最小化,各参数修正量应与其负梯度成正比,经推到得计算式为: 隐单元中心 c调整: 函数宽度(扩展系数)调整: 输出单元的权值 W 更新: 上述目标函数是所有训练样本引起的误差的总和,导出的参数修正公式是一种批处理式调整。 3.4.2.4 其他方法 (1)

56、试验法 令扩展参数以增量 在一定范围max,min内递增变化,在学习样本中,采用2/3 的数据作为训练样本数据,对网络进行训练。然后用训练出的网络对另外 1/3 为检验样本数据进行预测,最后得出预测值与样本之间的误差矩阵,用式(3-11)作为评价网络性能的指标,将能够令误差最小的扩展参数的值选出,并用在最后的网络预测中,而式(3-11)可以作为网络训练的终止准则。可以看出,扩展参数的确定过程体现了对网络性能的验证过程。 文中由于将预测的数据均标准化至-1,+1区间内,输入向量之间距离的最大及最小值分别为 0.35和 0.01,因此选择扩展参数由 0,010.35 并以步长为 0.01 进行变化

57、。 (2)采用进化优选算法选择 RBF中心 把 RBF 网络的结构设计问题归结为寻找最优选择路径问题,然后采用进化策略进行寻找,从而得到最优的数据中心及扩展系数。例如:基于免疫算法的 RBF 网络优化、基于遗传算法的 RBF网络优化18。下面以遗传算法为例介绍。 遗传算法(Genetic Algorithm,GA)是一类借鉴生物界的进化规则(适者生存,优胜劣汰遗传机制)演化而来的一种全局自适应优化概率搜索算法。遗传算法模拟自然选择和自然遗传过程中发生的繁殖、交叉和基因突变现象,在每次迭代中都保留一组候选解,并按照某些指标从解群中选取较优的个体,利用遗传算子(选择、交叉和变异)对这些个体进行组合

58、,产生新一代的候选解群,重复此过程,直到选出满足某些收敛指标为止22。 19 用遗传算法优化平滑参数的步骤为: 定义规模为 np的初始种群; 根据缺一交叉预测的方法,分别计算每个个体的适应度; 根据得到的适应度,保留若干个适应度大的优良个体; 执行选择、交换、变异操作,生成新一代种群; 判断是否满足终止条件,若是,求出最优解;若否,返回至步骤 2。终止条件可以设置成:连续进化几代后,最优值仍然保持不变,或已经达到最大进化代数。最终,经过遗传算法优化,得到最优值。 图 3-2 遗传算法的运算流程 20 4 基于 GRNN 神经网络的风功率预测建模方法 4.1 问题描述 我国的风电开发已具有相当规

59、模,为保证风电并网后电网安全可靠运行,电网企业作为风电的实际调度主体,熟悉大范围内风电运行特性,应充分发挥自身优势,参与风电功率预测系统的开发、建设工作,不断完善风电功率预测系统的功能,并且根据我国实际特点,电网企业能够有条件制定适应我国风电开发特点的风电功率预测执行规范。 风电场功率预测是指风电场经营企业根据气象条件、统计规律等技术和手段,提前对一定运行时间内风电场发电有功功率进行分析预报,向电网调度机构提交预报结果,提高风电场与电力系统协调运行的能力。 根据电力调度部门安排运行方式的不同需求,风电功率预测分为日前预测和实时预测。日前预测是预测明日 24 小时 96 个时点(每 15 分钟一

60、个时点)的风功率数值。实时预测是滚动地预测每个时点未来 4小时内的 16 个时点(每 15分钟一个时点)的风功率数值。按预测时间的不同又可分为:长期预测、中期预测、短期预测、超短期预测。其中超短期预测是提前几个小时或几十分钟预测。 本例预测是根据从某风电场获得的风电机组输出功率数据,运用 GRNN 神经网络对风功率进行超短期实时预测并检验预测结果。 4.2 数据预处理 (1)合理性检验:风电场输出功率值应均为正值,且不能大于总机组安装容量,故数值范围为0,49300,单位为 kW。在此数值要求情况下,对风电场输出功率数据进行适当修正。 (2)数据标准化:在保证数据信息损失小的前提下,为减少网络

61、的训练时间,利用“最大-最小标准化”为数据进行归一化,并对数值保留小数点后四位。归一化计算公式为: (4-1) 式中,和分别为校正风功率数据中的最大值和最小值,该公式将数据归一化到 -1,+1之间。 (3)转化矩阵形式:对时间序列数据进行截断处理,使得时间序列数据按照 3 输入1 输出的要求转换成网络训练所需的矩阵形式。利用函数 zeros( )来表示线性代数的 0 矩阵,再使用 ARMA 模型中 Time series 函数将风功率时间序列数据赋值于刚刚定义的zeros( ) 0 矩阵中,把数据转换过程定义在一个子程序中,这样主程序可对其直接调用,这样就便于对 GRNN神经网络进行训练。 2

62、1 (4)单元数据重新采样:为方便网络进行重复采样,将相邻的 4 个数据作为一个截断单元,用其前三个数据预测第四个数据,这样在重复采样时以 4个数据为一个单元的采样点进行重新采样。 4.3 网络设计与训练 4.3.1 网络模型的评估方法 本文研究可采用 5 次交叉验证和 Bootstrapping 可重复采样对网络模型进行评估。 5 次交叉验证:将数据分成容量大致相等的 5 份,将网络训练 5 次,即建立 5 个模型,每一次留出一份作为验证集,其他 5-1 份作为训练集;最终将 5 次验证集上的误差进行平均得到神经网络预测误差的交叉验证估计,选出已定模型的最小泛化误差。 Bootstrappi

63、ng 可重复采样:从训练样本中有放回的随机抽取时间序列数据集,每个数据集的容量都与原数据集相同,即为重新采样。在进行重复采样之前,使用截断处理,将数据按照 3 输入 1 输出的形式转换为以 4个数据为一组的截断单元,之后再进行重新采样。这样操作 1 次,产生 1个自助法数据集,即一组新的数据排列,然后用这个数据集重新训练网络,并检验其重复试验的拟合效果。实现对 GRNN 神经网络的性能评估及对预测精度的定量分析。 图 4-1 5折交叉验证法 4.3.2 网络训练 运行程序用 MATLAB 语言编写,在 MATLAB R2008a 软件环境下,调用人工神经网络工具箱中的 GRNN 神经网络来实现

64、对风电场输出功率的预测11。采用数据转换程序将时间序列按照输入数据的个数和输出数据的个数转换成训练要求的矩阵。 由于 GRNN 网络的建立和训练是同时进行的,所以无须对网络进行专门的训练,本网络建立时所需要的参数有训练样本输入数据和训练目标数据。本文设计的 GRNN 网络 22 中,输入层节点数为 3,训练样本输入数据对应功率数据 3 个时点变量;输出层节点数为1,训练目标数据对应功率数据 1个时点数值。 如图 4-2 所示,描述 GRNN神经网络对风电场输出功率进行预测的网络训练流程。 图 4-2 GRNN网络训练流程 4.3.3 训练参数的选择 误差公式的选择:在偏差和方差的权衡中,使得泛

65、化误差最小是网络设计的关键所在。选择最优 SPREAD 值时,需要设立一个优化目标函数作为选择标准,即为泛化误差的优化目标函数。不同的扩展系数会得出不同的标准误差,使得标准误差的最小的扩展系数,即使得泛化误差最小,则该值为寻得的最优扩展系数值。泛化误差的一个最简单的估计是训练误差,常用的分析预测误差的方法和指标有许多。文中采用了常见的考核指标:各个时刻的绝对误差和标准误差 Sr来进行误差的分析。 23 扩展系数的选择:对于 GRNN 神经网络而言,隐单元宽度系数又称扩展系数应取同一常数。本例中,扩展系数在 0.010.35 之间时对数据结果影响较大,通过试验法选取最优 SPREAD,以 0.0

66、1 为步长对扩展系数进行重复试验,检验其是否符合预测精度要求,若不符合,仅对 SPREAD 值赋值+0.01 循环;若符合,先将此次试验误差作为误差最大值,之后再将 SPREAD 值赋值+0.01 循环。最终得到是试验误差最小的 SPREAD 值。扩展系数的选择以获得最小泛化误差为标准,最终得到最佳 SPREAD 值19。 图 4-3 GRNN神经网络选择 SPREAD 值的训练流程 由图 4-3 所示的 GRNN 神经网络训练过程中,利用循环试验法可以方便快捷地找到合适的 SPREAD 值,通过实验可知,循环 35次所需训练时间很短,训练速度很快。 24 5 基于 GRNN 神经网络的风功率预测仿真应用 5.1 仿真背景 样本准备:某风电场全场 58 台风电机组的总输出功率数据,每台机组的额定输出功率为 850kW。利用 2006 年 5月 10日到 2006 年 6 月 6日共 28天的历史时点功率数值,该数据以每 15 分钟为一个时点,则共 2688 个时点数据作为样本。其中前 1792 个历史时点数据(总数据量的 2/3)作为网络的训练样本,后 896 个历史时点数据(总数据练

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!