计算机技术硕士论文数据挖掘技术在农产品市场中的应用研究

上传人:无*** 文档编号:146554510 上传时间:2022-08-31 格式:DOC 页数:77 大小:967KB
收藏 版权申诉 举报 下载
计算机技术硕士论文数据挖掘技术在农产品市场中的应用研究_第1页
第1页 / 共77页
计算机技术硕士论文数据挖掘技术在农产品市场中的应用研究_第2页
第2页 / 共77页
计算机技术硕士论文数据挖掘技术在农产品市场中的应用研究_第3页
第3页 / 共77页
资源描述:

《计算机技术硕士论文数据挖掘技术在农产品市场中的应用研究》由会员分享,可在线阅读,更多相关《计算机技术硕士论文数据挖掘技术在农产品市场中的应用研究(77页珍藏版)》请在装配图网上搜索。

1、数据挖掘技术在农产品市场中的应用研究Application Research of Data Mining Technologies in Agricultural Market Information Analysis(申请清华大学工程硕士专业学位论文)培 养 单 位:计算机科学与技术系工程领域:计算机技术申 请 人:指导教师:教 授联合指导教师:教授级高工 工二六年十二月关于学位论文使用授权的说明本人完全了解清华大学有关保留、使用学位论文的规定,即:清华大学拥有在著作权法规定范围内学位论文的使用权,其中包括:(1)已获学位的研究生必须按学校规定提交学位论文,学校可以采用影印、缩印或其他复制

2、手段保存研究生上交的学位论文;(2)为教学和科研目的,学校可以将公开的学位论文作为资料在图书馆、资料室等场所供校内师生阅读,或在校园网上供校内师生浏览部分内容。本人保证遵守上述规定。(保密的论文在解密后遵守此规定)作者签名: 导师签名: 日 期: 日 期: 摘 要摘 要我国是一个农业大国,三农问题一直是党中央和国务院各项工作的重中之重。随着市场经济的不断深化,三农问题与农产品市场关系越来越紧密。种什么,卖哪里,都必须分析市场。数据挖掘可以从大量的数据中抽取出未知的、有价值的知识。从大量的农业市场信息数据中,使用数据挖掘技术来找出最有价值的知识和规律,进而为农业市场提供指导分析,为各级领导决策、

3、广大农民和建设社会主义新农村提供服务,意义重大。本文从介绍农产品市场基本知识及我国农业信息化的基本现状出发,介绍分析了数据挖掘的基本理论和应用现状,关联规则及Apriori算法。利用WEKA数据挖掘平台,本文应用关联规则挖掘方法分析了农产品期货市场与现货市场之间的关联关系,分析了现货市场中同类农产品,以及非同类农产品之间的关联关系。并且在分析过程中发现传统的关联算法在市场分析方面的许多不足,会产生很多与实际情况不符的规则,并无法在整体上对数据间的关联作分析。针对农产品市场数据的特点和传统关联算法的不足,本文提出了关联关系的数据挖掘算法MPAB算法。该算法由数据离散化、正反关联度计算、关联度阈值

4、计算和结果输出四个步骤组成。算法能对数值型数据进行离散化操作,发现两个数据集之间的正反关联关系及关联的程度。使用MPAB算法分析各种农产品市场数据,并对挖掘的结果进行分析。发现MPAB算法挖掘效果很好,与事实相符,不产生多余规则,可以不需知识评估。将MPAB算法用于研究外汇市场数据,分析不同的货币对价格变化之间的关联关系,效果也十分令人满意。基于上述工作,本文提出了一个基于MPAB算法的关联挖掘软件的简单设计,该软件可用于各种市场及各种宏观经济数据关联分析。关键词:农业 市场 数据挖掘 关联分析 MPAB算法IAbstractAbstractChina is a large agricultu

5、ral country. Problems related to “San Nong”, i.e., “farmers, rural and agriculture”, have been paid much attention by the working emphasis of Central the Committee of Chinas Communism Party and National Council. With the rapid development deepening of market economies, the relationship between the p

6、roblems of “San Nong” and the market of agricultural produces is becoming more and more closer. For example, it is necessary to conduct market analysis before determining what crops are to be planted and where to sell the produces. This poses the requirement of large scale existing agricultural data

7、. Data mining can extract unknown and valuable knowledge from large amount of data. It has significant value to discovering valuable knowledge and rules from agricultural market data using data mining technologies. The discovered knowledge can direct the agricultural market analysis, help to make de

8、cisions for leaders at various levels, and provide services for farmers and constructing socialism new rural areas.This paper analyzesed the basic theory and application situation of data mining from introducing the fundamental conceptsbasic knowledge of agricultural product market and the basic cur

9、rent stateituation of agricultural informatization in China, and then studysied the association rules and Apriori algorithm. The associated relationship between the future market and physical market of agri-produces Assoiarion rules was analyzed is by employed toing find associated rules minings on

10、WEKA data mining platform in this paper. The associated relationships amoung the same kind agro-products and the not same kind of agro-products physical market are allalso analyzed. We discovered that many drawbacks of traditional associated algorithms in mining this kind of data, which may result i

11、n the inconsistent rules with the actual situation, and make it impossible to conduct analysis on association among data as a whole.An associated relationship data mining algorithm named MPAB was proposed based on the characteristics of agro-products market data in this paper. It is aimed at overcom

12、ing the drawbacks discovered in traditional associated algorithms. The algorithm consists of data discretization, computation of positive and negative association degree, computation of threshold association degree, and result outputting. The algorithm can discretize numerical data, discover the pos

13、itive and negative relationship between two data sets, and degree of association. Agri-products market data was analyzed by using MPAB, and the mining results were also analyzed. We found that the effect of MPAB was pretty good, complying with the fact with redundant rules, without knowledge assessm

14、ent. The effect was also satisfactory when the MPAB was used to study foreign exchange market data, analyzing associated degree among the changes in the prices of foreign currency. Based on the above effects, a simple design of MPAB associated mining software was proposed in this paper. The software

15、 can be used to conduct associated analysis of various market and macro-economic data. Keywords: agriculture market data mining association rule MPAB arithmetic III目 录目 录第1章引言11.1选题背景及来源11.1.1选题背景11.1.2选题来源21.2课题的国内外现状分析21.3课题研究的目的和意义31.4研究方法41.5主要研究内容和论文结构安排4第2章农产品市场概述及使用数据挖掘技术的可行性研究62.1农产品市场的基本知识6

16、2.1.1农产品期货市场62.1.2农产品现货市场62.1.3农产品期货市场与现货市场的比较72.1.4农产品期货市场对农业的作用72.2我国农产品市场及信息体系建设飞快发展82.2.1农业信息体系建设现状82.2.2农产品市场建设向现代化发展82.3农产品市场应用数据挖掘技术的可行性102.3.1数据源丰富102.3.2数据挖掘技术应用趋于成熟102.4数据挖掘在农产品市场分析应用中的相关技术112.5本章小结12第3章使用传统的关联规则挖掘算法分析农产品市场133.1关联规则的基本概念133.2Apriori算法综述133.2.1经典的频集算法133.2.2算法的基本思想143.2.3Ap

17、riori核心算法分析143.3WEKA简介153.4挖掘目标与任务163.5期货市场与现货市场之间的关联性研究163.5.1源数据介绍163.5.2数据预处理173.5.3使用Apriori进行分析193.5.3.1使用Apriori的默认设置193.5.3.2使用Apriori的调整设置193.5.4使用其它关联规则算法进行分析213.5.4.1使用PredictiveApriori进行挖掘213.5.4.2使用Tertuis进行挖掘223.5.5结论233.6同类农产品价格之间的关联性研究233.6.1源数据233.6.2数据预处理243.6.3使用Apriori进行分析263.6.4使

18、用其它关联规则算法进行分析273.6.4.1使用PredictiveApriori进行挖掘273.6.4.2使用Tertuis进行挖掘293.6.5结论303.7非同类农产品价格之间的关联性研究313.7.1源数据313.7.2数据预处理323.7.3使用Apriori进行分析333.7.4使用其它关联规则算法进行分析343.7.4.1使用PredictiveApriori进行挖掘343.7.4.2使用Tertuis进行挖掘353.7.5结论363.8结论363.9本章小结37第4章MPAB关联算法及其在农产品市场中的应用研究384.1MPAB算法的研究384.1.1MPAB算法的提出384.

19、1.2MPAB算法的具体说明384.1.2.1数据离散化分箱操作394.1.2.2计算正关联度和反关联度404.1.2.3关联度阈值的计算414.1.2.4结果的输出414.1.2.5有关离散分箱数n的设定问题434.2使用MPAB算法分析期货市场与现货市场的关系434.3使用MPAB算法分析同类农产品价格之间的关联关系444.3.1数据分箱444.3.2大白菜与西红柿之间的关系464.3.3大白菜与洋白菜之间的关系464.3.4西红柿与洋白菜之间的关系464.3.5综合分析结果464.3.6大白菜、西红柿和洋白菜的年周期性分析474.4使用MPAB算法分析非同类农产品价格之间的关联关系494

20、.4.1数据分箱494.4.2大白菜与猪肉之间的关系504.4.3大白菜与鸡蛋之间的关系514.4.4大白菜与鲤鱼之间的关系514.4.5猪肉与鸡蛋之间的关系514.4.6猪肉与鲤鱼之间的关系514.4.7鸡蛋与鲤鱼之间的关系514.4.8综合分析结果514.5使用MPAB算法分析外汇市场524.6相对分箱法544.7MPAB算法与Apriori算法比较564.8MPAB算法与图示法的比较564.9结论584.10本章小结58第5章基于MPAB算法的数据集间关联分析软件的设计605.1系统适用范围605.2系统功能605.3系统组成605.3.1用户参数输入模块605.3.2数据预处理模块61

21、5.3.3计算模块615.3.4结果输出模块615.4模块间关系615.5运行环境62第6章结论与展望636.1论文工作总结636.2进一步的研究工作64参考文献65致 谢67个人简历、在学期间发表的学术论文与研究成果68VII第1章 引言第1章 引言1.1 选题背景及来源1.1.1 选题背景我国是一个农业大国,农业人口众多,土地辽阔,作物种类复杂。农业不同于其它行业,农业数据量庞大而且复杂,农业生产影响的因素非常多,有自然因素,也有人文因素。如何有效地从这些浩瀚的农业数据中深入寻找各种有价值的规律和知识来,并用于服务三农,对于推动农业发展,提高农民生活水平,建设社会主义新农村等是十分必要的。

22、中国农村落后,农民文化水平较低,1家1户的非规模性农业生产经济效益不大,但市场经济下的广大现代农民对市场信息服务却有着巨大的需求,农民在农业生产方面不知道该种什么,农产品和农资市场状况怎么样等,这些政府部门都必须为农民作出回答。否则,农民从买种到种植到销售就存在很大的盲目性和随意性,农业生产的风险便大大增加,也影响到农村的社会稳定。目前农村普及的信息载体只有电视、广播、电话、黑板报、明白纸和口头传达,从信息服务的角度来看,这些信息载体是无法接收海量市场数据。退一步说,即使农民有电脑,他们也无法从事复杂的市场信息分析工作。因此,如何从大量的农业市场信息数据库中,找出最有价值的信息和规律,为农业市

23、场提供指导分析,进而为各级领导决策和广大农民提供有价值的服务,是信息技术工作人员和农业科技人员必须解决的一个课题。数据挖掘又称知识发现,是一个从大量的数据中抽取出未知的、有价值规律或知识的过程,它包括数据清洗、数据集成、数据转换、数据挖掘、模式评估和知识表示等部分组成5。数据挖掘涉及数据库技术、数据仓库技术、人工智能、机器学习、人工神经网络、统计学、模式识别等多个学科中的知识,它的挖掘对象可以是文件、数据库、数据仓库、Web数据库等。1就功能而言,数据挖掘主要是对所挖掘对象中的数据进行概念描述、关联规则的获取、分类与预测、聚类分析、孤立点的发现、模式评估等2。所以使用数据挖掘技术来分析农业数据

24、,可以有效地解决农业市场指导和农村信息服务等问题。1.1.2 选题来源福建省政府从2005年开始进行涉农部门信息资源整合,构建福建三农服务网信息平台,作为三农服务的信息总支撑。该项目由福建省农业厅牵头,福建省经济信息中心和福建省空间信息工程研究中心为技术支持,由福建建省农业厅、福建省林业厅、福建省海洋与渔业局、福建省粮食局等17个涉农部门共建,项目一期工程共有7大应用子系统。本论文研究的基础为该项目的一个子系统:农产品市场数据挖掘与专家决策分析系统。1.2 课题的国内外现状分析尽管数据挖掘已广泛应用于众多的行业,但在农业方面的应用还处于起步阶段。目前数据挖掘在农业方面的应用主要有:在农业生产方

25、面的应用。江苏大学机械工程学院夏志军等使用数据挖掘技术预测温室作物生长,结果发现运用数据挖掘的方法比传统的预测方法更准确7。使用数据挖掘技术从病虫害观测数据记录中,可挖掘出病虫害发生预测模型,指导病虫害的预防。使用数据挖掘技术从病虫害的防治实践数据中,挖掘出高效的防虫治病管理模式。使用数据挖掘技术从土壤养分的数据库中,挖掘出土壤肥力评价规则,从而指导大田生产的科学施肥6。在农业环境方面的应用。农业部环境监测总站郑向群等从农业环境监测数据源中建立数据仓库,在数据仓库上进行数据挖掘,从而提高了对监测数据的利用率,改善了监测评价水平,并挖掘出造成不同地区环境质量状况差异的原因9。在农业管理方面的应用

26、。通过对农田质量状况及耕作方法,可以挖掘出农产品的质量状况。使用数据挖掘系统还可完善传统的农业专家系统,解决传统专家系统的知识瓶颈问题14。1.3 课题研究的目的和意义农业部早在1995年便开始建设农业市场价格数据库,从全国数百个批发市场中收集200多个农产品品种的价格信息,如蔬菜、水果、畜产品和水产品的批发价格信息,最小的时间粒度是天。农业部还通过与相关部门如海关等配合,建成中国农产品进出口贸易数据仓库。同时,农业部还建立了“农村供求信息全国联播系统(一站通)”系统,注册用户已达50万个,每天的发布的供求数据都达2000条以上,信息量很丰富,是农产品市场的方向标。我国农产品期货市场近些年也得

27、到了发展,拥有大量的交易数据和交易品种。这些都是很好的数据源,对这些数据源采用数据挖掘的算法和规则,必然可以挖掘出一些有价值的知识来。比如可以使用关联分析,发现相关规则。如发现福州的水果价格涨与北京的水产品价格跌的关系,发现期货市场与现货市场的关联关系。使用统计技术,可以发现各种农产品的价格走势,如畜产品的价格走势与鲜鸡肉的价格走势。使用分类和预测,对将来的价格进行预测;使用聚类分析,对产品客观地分类,为市场分析人员决测提供科学依据。使用孤立点分析技术,可找出一些罕见的事件,如发现灾情、金融事件、进出口问题甚至是政治事件等。通过演变分析,可以建立一些产品价格变化的规律和趋势等。通过对多个数据源

28、进行混合挖掘,可能可以找出农产品进出口贸易与国内价格的关联关系,为农产品贸易决策提供参考。通过对一站通供求信息系统的挖掘,可以发现国内供求信息与国内市场行情的关系,也可能找到供求与农产品贸易之间存在的某种关系。利用先进的数据挖掘技术研究农产品市场,进而指导农民生产,为市场调控、引导和各种宏观经济决策作参考。对建设社会主义新农村有着很大的意义。1.4 研究方法本文首先分析农产品市场数据,再从大量的农产品数据中抽出部分典型数据来研究。用已有的数据挖掘关联规则算法对数据进行分析研究,分析研究表明了数据挖掘在农产品市场数据分析中的作用,同时发现了现有的关联规则算法的不足。之后,根据农产品市场数据的特点

29、和分析需求,提出新的关联规则算法,再用原有的数据进行验证算法。最后,再提高到其它领域,用其它领域的数据验证新算法。1.5 主要研究内容和论文结构安排本文的研究工作正是基于上述目的和意义展开的,从农产品市场数据的分析和挖掘出发,探讨在农产品市场分析中有效使用数据挖掘技术的方法。主要进行以下几个方面的工作:介绍了农产品期货市场、现货市场及我国农业信息化的现状,并对数据挖掘的基本理论和应用现状进行了综述;利用Weka数据挖掘平台对农产品市场数据进行了分析研究。分析了农产品期货市场与现货市场之间的关联关系,分析了同类农产品现货市场中如大白菜、西红柿和洋白菜价格之间的关联关系,同时分析了不同类现货市场中

30、如大白菜、猪肉、鸡蛋和鲤鱼价格之间的关联关系。在分析过程中发现传统的关联算法在市场研究方面的许多不足,传统的关联算法不支持数值型数据,会产生很多与实际情况不符的垃圾规则,并无法在整体上对数据进行关联分析。针对传统关联算法的不足和农产品市场数据的特点,本文提出了数据挖掘算法MPAB算法。该算法由数据离散化、正反关联度计算、关联度阈值计算和结果输出四个步骤组成。能对数值型数据进行离散化操作,能发现两个数据集之间的正反关联关系及关联的程度。使用MPAB算法分析各种农产品市场数据,并对挖掘的结果进行分析,发现MPAB算法挖掘效果很好,与事实相符,不产生多余规则,可以不需要知识评估。将MPAB算法推广应

31、用到外汇市场,结果也十分令人满意。基于上述研究,本文提出了一个基于MPAB算法的关联挖掘软件的设计,该软件可用于各种市场及各种宏观经济数据的关联分析。本文的组织结构为:第一章介绍本文的选题背景,数据挖掘在农业方面的应用现状,以及课题的研究目的和意义。第二章介绍农产品期货市场和现货市场的基本知识和基本情况,还简要说明我国农业信息化应用的基本现状和数据挖掘的基本知识。第三章介绍应用关联规则方法,使用Weka数据挖掘平台分析农产品期货市场与现货市场的关系,分析现货市场同一类农产品下,不同品种的价格间的关联关系,分析现货市场不同类农产品价格间的关联关系,并对分析结果进行评估。第四章提出针对传统关联算法

32、无法很好地对农产品市场进行关联分析的实际情况,提出数据挖掘关联算法MPAB算法,说明了MPAB算法的思想及步骤,使用MPAB算法分析各种农产品市场数据,并对挖掘结果进行评估。第五章提出了一个基于MPAB算法的宏观经济数据之间的关联分析挖掘软件的简要设计。第六章对本论文的研究工作进行一个简要总结,并提出了进一步的研究方向。5第2章 农产品市场概述及使用数据挖掘技术的可行性研究第2章 农产品市场概述及使用数据挖掘技术的可行性研究随着信息技术的迅速发展,农产品市场的电子化程度也越来越高,已积累了大量数据。近十几年,数据挖掘技术作为一门崭新的信息应用技术,也得到了长足发展,使用数据挖掘技术研究农产品市

33、场的条件越来越成熟了。2.1 农产品市场的基本知识总的来说,农产品市场可以分为农产品期货市场和农产品现货市场,农产品现货市场又可以分为农产品批发市场和农产品零售市场。2.1.1 农产品期货市场农产品期货市场其实就是一种期货交易。英国牛津法律大词典对期货的解释是:“买主在签订买卖合同之后制造或获得的货物,不同于签订合同时就已存在的现货。出售期货的合同即是出售这些货物的协议。该货物一经制出或获得,其所有权即转移给买主,卖主把它们支付给买主或者通过其他办法把它们划拨给买主,而买主则根据卖主的授权,取得该类货物的所有权。”由此可知,期货交易是将来商品的买卖。农产品期货市场由农产品期货交易所、农产品期货

34、交易结算所、农产品期货经纪行(期货公司)和农产品期货交易者组成,是农产品商品生产和农产品商品交换发展到一定阶段的产物。2.1.2 农产品现货市场农产品现货市场可分为农产品批发市场和零售市场,批发市场从事大宗交易,交易者多为零售商,交易量大且价格相对稳定。农产品零售市场面对的是大量的消费者,农产品超市和小集贸市场就是零售市场。零售市场的价格波动比较大,如刚上架的水果价格比较高,经过顾客挑选一段后,价格就会下降。遇到快要损坏变质的农产品,往往要作变价处理。2.1.3 农产品期货市场与现货市场的比较与农产品现货市场相比,农产品期货市场有它的特性,具体有:1交易对象的特殊性。在农产品期货市场中买卖的是

35、一种特殊的商品,即农产品期货合约。这是一种标准化契约。在合约中,农产品的规格、品质、数量、交货时间和地点等都是既定的,唯一的变量是价格,期货价格在交易所内以公开竞价方式达成。2上市农产品的特殊性。农产品期货市场上所交易的农产品是一种代表性的商品,并不是任何农产品都可以上市交易。期货市场上市的农产品商品一般具有可贮藏、品质可评价、批量大、价格会波动等几个条件。3交易目的的特殊性。人们参与农产品期货交易的目的,不一定是为获得农产品的使用价值,有的是为利用期货市场规避风险或套期保值,有的是为了投机。4交易保障制度的特殊性。农产品期货保证金制度的一个显著特征是其杠杆作用,即用很少的钱就可做很大的生意。

36、保证金一般为合约价值的510,与现货交易相比,投资者在农产品期货市场上投资所需的资金要少得多。2.1.4 农产品期货市场对农业的作用1分散风险。农产品的价格由于受多种因素的影响容易发生波动。这种波动可以给交易中的一方带来好处,同时给另一方造成损失。即农产品生产、经营者可以通过在农产品期货市场上进行套期保值和投机业务来规避农产品价格波动的风险。2发现农产品价格。农产品价格发现功能是农产品交易所集中交易的一种内在功能。农产品期货市场所表现出来的是现在农产品市场对未来农产品价格的预期。它集中了即期的与未来的供求情况,通常,农产品现货价格与农产品期货价格之间总是存在一个差额,这个差额被称为基差,交割期

37、越临近,基差越小。2.2 我国农产品市场及信息体系建设飞快发展2.2.1 农业信息体系建设现状通过多年的努力,农业部门在信息化建设方面已取得了显著成效。主要有:1农业信息化工作体系比较完善。全国各省级农业部门,97%的地(市)和80%的县级农业部门都设有信息管理和服务机构,64的乡镇设立了信息服务站,有20多万人的农村信息员。建立了从中央到地方的农业信息工作体系。2农业网站初具规模。农业部门户网站中国农业信息网的功能日益强大,在世界农业网站排名位居第二;全国31个省、80%以上的地和60%以上的县级农业部门建立了农业信息网站。3信息技术开发应用不断加强。近几年,农业部利用信息技术开发应用了行政

38、审批综合办公、政务内网及办公自动化、卫星指挥调度系统、农情调度、动物防疫、农业遥感和渔政指挥等信息系统。各地农业部门,也纷纷根据管理和服务的需要,开发应用各种农业信息系统。4农业信息资源总量不断丰富,信息采集体系基本形成。农业部门在全国布设了8000多个信息采集点,在农业各行业和农业服务领域建立了近40条比较稳定的信息采集渠道,基本实现了信息资源的网络化处理。相继建立了生产、市场、进出口等50多个数据库,信息资源涵盖农业和农村经济的基本方面,能够客观反映农村经济运行情况,为信息服务提供了资源保障。2.2.2 农产品市场建设向现代化发展与农产品期货市场相比,农产品市场指的是现货市场。农产品现货市

39、场主要包括收购市场和销售市场。随着农产品流通体制的改革,国有商业和农村供销合作社市场份额不断下降,农产品加工企业在收购市场的份额呈上升起势、农民运销组织的收购和生产者直接向消费者出售的份额也在上升。这说明市场主体正走向规范、成熟,这将对农产品期货市场交易主体的培育起到促进作用。集贸市场至今依然是我国农产品销售的主要市场,全国城乡集贸市场,1985年为61337个,1997年发展到87105个,增长了42%;集市贸易成交额1985年为632.2亿元,1997年为17424亿元,增长了26.6倍。大型综合商场、超市、连锁店等的市场份额在逐步上升。这是交易场所的规范过程,将引向标准化交易的期货市场。

40、批发市场。改革以来,农副产品批发市场数量不断增多,1997年全国各类农副产品批发市场已发展到4000多家。其中一些批发市场已经发挥着比较大的作用,其商品集散、价格形成、信息传递、调节供求等功能不断增强。这些大型批发市场在整个经济生活中的影响力不断扩大,一旦形成全国性农产品大市场,一来对交易的标准化如计量单位、质量标准、交易场所和信用等提出了更高的要求,全国性的农产品现货批发市场的建立与完善将为期货市场的进一步发展和完善打下了良好的基础。从1995 年开始,农业部启动了农产品批发市场的定点工作,到目前为止,共确定了11 批、503 家定点市场,它们覆盖了全国主要大中城市和农产品主产区,每天都按农

41、业部统一要求,报送本市场的各种农产品最新价格数据,并在中国农业信息网上发布。为产地和销地的农产品流通发挥了重要作用。随着我国农产品市场的不断发展,我国农产品市场体系建设从原来的数量快速扩张阶段转变到了现在的稳定数量、提升功能、创新方式的新阶段。目前全国农产品集贸市场已发展到2.8万多个,批发市场有4500多个,而且网上市场、网上交易会、网上订货之类的农产品电子商务,正在为越来越多的农产品搭起通向国外市场的桥梁。农业部近期将改造一批农产品批发市场,包括中央扶持的30个农产品产地批发市场,完善市场基础设施和质量监测设施。同时,建立现代物流配送中心,发展连锁经营和电子商务,推进大宗农产品期货交易和新

42、型流通方式,并加强农产品公共营销促销服务系统的基础设施和组织建设,开展国内外农产品营销促销服务。以农业信息采集传输、储存开发、发布服务为重点,完善农业信息网络,升级改造农产品批发市场,开辟农产品新型流通方式,是当前农产品市场的发展方向。2.3 农产品市场应用数据挖掘技术的可行性2.3.1 数据源丰富农业部1995年建立了全国农产品批发市场价格信息网,目前网络中心每天可收集412家批发市场、419种农产品的价格信息。这些与农业部实现信息联网的农产品批发市场遍布全国,交易的农产品主要有粮油、蔬菜、水果、畜产品、水产品、茶叶、花卉、食用菌等,并已建成数据集市。在“金农工程”建设中,农业系统还将建设农

43、产品和生产资料监管信息数据库,农村市场供求信息数据库,农产品批发市场价格数据库和粮食购销调存数据库等。在我国期货市场中,农产品期货一直占据着重要地位。1997年至2005年,农产品期货成交量占总成交量的比重均在80以上。大豆期货交易已成为世界第二大大豆期货市场和最大非转基因期货市场。期货市场是属于金融市场,信息化强,数据量大而且标准规范,非常适合数据挖掘处理。2.3.2 数据挖掘技术应用趋于成熟近十几年,数据挖掘技术得到充分发展,目前数据挖掘已广泛应用于众多的行业。即使在农业方面,也有不少的应用。如在农业生产方面上使用数据挖掘技术预测温室作物生长方面的研究,结果发现运用数据挖掘的方法比传统的预

44、测方法更准确7。在农业环境方面通过数据挖掘找到造成不同地区环境质量状况差异的原因等9。各种数据挖掘商用软件也很多,比如SAS公司Enterprise Miner、SPSS公司的Clementine、IBM公司的Intelligent Miner、SGI公司的MineSet等。还有很多免费挖掘工具,如新西兰怀大的Weka,就是一个基于Java开发的数据挖掘开源工作平台,具有非常强大的挖掘功能1。显然,数据挖掘技术在农产品市场中的应用条件已经具备,完全可行。2.4 数据挖掘在农产品市场分析应用中的相关技术数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取

45、隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程2。数据挖掘是一门很广义的交叉学科,它汇聚了不同领域的研究者,尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技术人员。数据挖掘技术从一开始就是面向应用的。它不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。主要有以下几种常用技术1:关联分析(Association Analysis)12。关联分析是指对两个或者更多变量之间可能存在的关联关系的分析。例如,“购买面包的顾客

46、90%也同时购买牛奶”就是一个简单的关联。关联规则的挖掘就是为了在数据库中发现关联关系,它是数据挖掘最先研究的问题,也是数据挖掘的一个主要研究方向。可以说,提到数据挖掘,人们首先就会想到关联规则。关联规则由Agrawal、Imielinski和Swami在1993年提出10,起初是研究超市的顾客交易数据库中购买商品之间的关联规则的挖掘问题,货篮数据的关联规则。到了1994年,Agrawal和Verkamo 提出了关联规则挖掘的经典算法Apriori11 ,这个算法已成为这个领域最基本的算法。迄今为止,关联规则挖掘的研究越来越多,论文已达到数千篇1,而它的应用也由最初的货篮数据扩展到其他数据格式

47、,规则的涵义也越来越多样化。如根据规则中的变量类型,可以分为布尔型和数值型12。根据规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。根据规则所涉及的数据维数,可分为单维关联规则和多维关联规则。本文所研究的也是关联分析。数据分类(Classification)。数据分类是一种有典型的有监督的机器学习方法,其目的是从一组已知类别的数据中发现分类模型,以预测新数据的未知类别。1 数据分类技术在市场定位、故障检测、图形处理、有效性分析等领域都有着非常广泛的应用,日常生活中也经常用到分类技术,常用的分类方法有决策树等。聚类分析(clustering)1。与分类相比,聚类可以说是一种无监督的分类

48、。聚类分析是将一组数据分组,使其具有最大的组内相似性和最小的组间相似性。最后的结果要达到不同聚类中的数据尽可能地不同,而同一聚类中的数据尽可能地相似。根据聚类的结果可以从不同的角度进行分类,如覆盖聚类与非覆盖聚类,层次聚类与非层次聚类,确定聚类与模糊聚类。常用的聚类算法有K-means及其扩展算法13。预测(predication)1。预测是数据挖掘中非常重要的任务之一。在很多情况下,预测是在分析以往数据的基础上预知未来可能发生的情况,在统计学中的预测一般是指根据时间序列建立相应的数学模型,然后使用模型进行预测。比如回归预测方法。时序模式(time-series pattern)1。时序模式分

49、析是对系统观测得到的时间序列数据建立数学模型的理论和方法,一般采用曲线拟合和参数估计方法进行。时间序列的应用领域很广,可广泛应用于市场分析。在国民经济宏观控制、市场预测、气象、农作物病虫害预报等都有着非常广泛的应用。1 2.5 本章小结本章主要介绍了农产品市场的基本知识及其关系,并介绍了我国农产品市场及信息体系建设情况。对数据挖掘技术在农产品市场中的应用研究的可行性作了简要介绍,最后介绍了几个常用的数据挖掘技术。12第3章 使用传统的关联规则挖掘算法分析农产品市场第3章 使用传统的关联规则挖掘算法分析农产品市场关联规则挖掘就是从大量的数据中挖掘出有价值描述数据项之间相互联系的有关知识。随着大量

50、数据不停地收集和存储,许多业界人士对于从他们的数据库中挖掘关联规则越来越感兴趣2。从大量商务事务记录中发现有趣的关联关系,可以帮助许多商务决策的制定,如分类设计、交叉购物和购物篮分析。3.1 关联规则的基本概念设I=i1 ,i2 ,im是所有数据项的集合,相当于商品的所有种类的集合。设任务相关的数据D是数据库所有事务的集合,其中每个事务T是数据项的集合,使得。每一个事务有一个标识符,称作TID。设A是一个项集,事务T包含A当且仅当。关联规则是形如的蕴涵式,其中,并且。规则在事务集D中成立,具有支持度s,其中s是D中事务包含(即A和B二者)的百分比。它是概率P()。规则在事务集D中具置信度c,如

51、果D中包含A的事务同时也包含B的百分比是c。这是条件概率P(B|A)。即是Support()=P()Confidence()=P(B|A)。同时满足最小支持度阈值(min_sup)和最小置信度阈值(min_conf)的规则称作强关联规则。 3.2 Apriori算法综述3.2.1 经典的频集算法 Agrawal等于1994年提出了一个挖掘顾客交易数据库中项集间的关联规则的重要方法11,其核心是基于两个阶段频繁集思想的递推算法。所有支持度大于最小支持度的项集称为频繁项集,简称频集。 3.2.2 算法的基本思想 首先找出所有的频繁集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频繁集产

52、生强关联规则,这些规则必须满足最小支持度和最小可信度。 3.2.3 Apriori核心算法分析 为了生成所有频繁集,使用了递推的方法。其核心思想简要描述如下2: 输入:交易数据库D,最小支持阈值min_sup;输出:Li,D中的频繁项集;方法: (1) L1=find_frequent_1_itemset(D); /发现1-项集(2) for(k=2;Lk-1 ;k+)(3) Ck=apriori_gen(Lk-1,min_sup); /根据频繁(k-1)-项集产生候选k-项集(4) For each tD /扫描数据库,确定每个候选集的支持频度(5) Ct=subset(Ck,t); /获得

53、t所包含的候选项集(6) For each cCt c.count+;(7) (8) Lk= cCt | c.count min_sup;(9) Return L=UkLk;Procedure apriori_gen(Lk-1,min_sup)(1) for each l1 Lk-1(2) for each l2Lk-1 (3) if(l11=l21)(l1k-2=l2k-2)(l1k-1=l2k-1) (4) c=l1 join l2; /将两个项集连接到一起(5) if has_infrequent_itemset(c, Lk-1)(6) delete c; /除去不可能产生频繁项集的候选

54、(7) else Ck=Ckc;(8) (9) Return Ck;procedure has_infrequent_subset(c,Lk-1)(1) for each(k-1)-subset s of c(2) if sLk-1 return TRUE; else return FALSE;Apriori算法的第(1)步就是发现频繁1-项集L1;在第(2)至第(8)步,利用Lk-1产生Ck以便获得Lk。apriori_gen过程产生相应的候选项集;然后利用Apriori性质删除那些子集为非频繁项集的候选项集(第(3)步)。一但产生所有候选,就要扫描数据库(第(4)步),对于数据库中的每个交

55、易利用subset函数来帮助发现该交易记录的所有(已成为候选项集)的子集(第(5)步),由此累计每个候选项集的支持频度(第(6)步)。最终满足最小支持频度的候选项集组成了频繁项集L。这样可以利用一个过程来帮助从所获得频繁项集中生成所有的关联规则。Apriori过程完成两种操作,那就是连接和消减操作。在连接过程中, Lk-1与Lk-1相连接以产生潜在候选项集(Apriori算法中的第(1)步至第(4)步);消减过程中(Apriori算法中的第(5)步至第(6)步)利用Apriori性质消除候选项集中那些子集为非频繁项集的项集。可能产生大量的候选集,以及可能需要重复扫描数据库,是Apriori算法

56、的两大缺点。 3.3 WEKA简介WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),它的源代码可通过http:/www.cs.waikato.ac.nz/ml/weka得到。WEKA的主要开发者来自新西兰。WEKA是一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括数据预处理,分类,回归、聚类、关联规则以及可视化等。2005年8月,在第11届ACM SIGKDD国际会议上,怀卡托大学的Weka小组荣获了数据挖掘和知识探索领域的最高服务奖,Weka系统得到了广泛的认可,被誉为数据挖掘和机器学习历史

57、上的里程碑,是现今最完备的数据挖掘工具之一,已有11年的发展历史。Weka的每月下载次数已超过万次。3.4 挖掘目标与任务农产品市场可以分为农产品期货市场和农产品现货市场,农产品现货市场可以分为农产品批发市场和农产品零售市场。农产品零售市场的价格影响因素比较多,波动比较大,不适合作宏观分析。农产品批发市场价格比较稳定,能反映出农产品的实际供求情况。农产品期货市场买卖的是将来的农产品现货,农产品期货市场与农产品现货市场存在密切的关系。为了研究经典的数据挖掘算法能否很好地对市场数据进行关联分析,笔者从工作的实践中提出了三个挖掘目标,第一是挖掘出农产品期货市场与农产品现货市场是否存在某种关联关系,第

58、二是挖掘出农产品现货市场中同类农产品的价格之间的是否存在某种关联关系,第三是挖掘出农产品现货市场中不同类农产品价格之间的是否存在某种关联关系。为了避免大量数据造成干扰,笔者特意从大量的市场数据中进行手工筛选,并整理出三组具有代表性的数据。3.5 期货市场与现货市场之间的关联性研究3.5.1 源数据介绍表3.1数据是2004年1月到2006年8月的小麦期货市场和现货市场的价格,其中期货市场价格来自郑州商品交易所,选硬冬白小麦(WT609),价格为每月的收盘价,现货市场的价格来自国家粮油信息中心,为中等普通小麦市场批发价格,价格数值为每个月的下旬平均价。单位均转换为元/吨。表3.1 中等普通小麦月

59、价表 单位:元/吨时间期货市场现货市场时间期货市场现货市场2004011480140120050515171511200402160014602005061385145020040316751642200507138814772004041549158620050814671462200405149815632005091420145220040614891498200510144714642004071432154520051114191448200408165415692005121376145020040917001614200601135214272004101552160520060

60、2138514332004111558158820060313851433200412154316022006041370141820050116151592200605137014202005021550158220060612661422200503153915742006071313141920050414701558200608145914093.5.2 数据预处理准备采用关联规则挖掘技术对数据进行分析,以了解期货市场价格与现货市场价格是否存在某种关联关系。拟处理的数据是数值型的,WEKA数据挖掘平台上的关联规则挖掘算法有三种,分别是Apriori、PredictiveApriori和

61、Terius,这三个算法均不支持数值型数据。事实上,绝大部分的关联规则算法均不支持数值型。所以必须将数据进行处理,将数据按区段进行划分,进行离散化分箱处理。期货市场的最高价是2004年9月,价格为1700元/吨,最低价是2006年6月,价格为1266元/吨。根据实际情况和业务需求,将价格按高低分为5个部分,分别为高、中高、中、中低和低。其划分方法是:1. 将最高价减去最低价再除以5,得价差。即(1700-1266)/5=86.8。2. 将最高价减去价差,得第一区间最低值,即1700-86.8=1613.2。3. 将第一区间最低值减去价差,得第二区间最低值,即1613.2-86.8=1526.4

62、。4. 依步骤3,得第三区间最低值1439.6和第四区间最低值1352.8。5. 每个区间的最低值为下一区间的最高值。6. 这样就可以分为1700,1613.2),1613.2,1526.4),1526.4,1439.6),1439.6,1352.8),1352.8,1266。分别用HF,HMF,MF,MLF,LF表示,其中H为high,代表高,M为medium代表中,L为low,代表低。F为future,代表期货市场。现货市场的最高价是2004年3月,价格为1642元/吨,最低价是2004年的1月份,价格为1401元/吨。与期货市场采用相同的方法进行离散化分箱操作,价差为(1642-1401)/5=48.2,分区间可得:1642,1593.8)用HC表示;1593.8,1

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!