聚类分析在证券市场分析中的应用毕业论文

上传人:痛*** 文档编号:80533190 上传时间:2022-04-25 格式:DOC 页数:40 大小:1.03MB
收藏 版权申诉 举报 下载
聚类分析在证券市场分析中的应用毕业论文_第1页
第1页 / 共40页
聚类分析在证券市场分析中的应用毕业论文_第2页
第2页 / 共40页
聚类分析在证券市场分析中的应用毕业论文_第3页
第3页 / 共40页
资源描述:

《聚类分析在证券市场分析中的应用毕业论文》由会员分享,可在线阅读,更多相关《聚类分析在证券市场分析中的应用毕业论文(40页珍藏版)》请在装配图网上搜索。

1、山东交通学院毕业论文山东交通学院毕业生毕业论文(设计)题目:聚类分析在证券市场分析中的应用摘 要本文随机选取了40家在沪深上市的山东省的公司企业,选择每股收益、每股净资产、主营收入增长率、主营利润增长率和净资产收益率5项指标评价体系。通过系统聚类分析方法对这40家公司企业的股票进行聚类分析,以此对股票的收益性、成长性等方面进行分析,帮助投资者准确地把握股票的总体特性以及预测股票的成长能力,使投资者及时做出最佳的投资决策,进而获得可观的投资回报。最后在聚类分析的基础上,对聚类分析结果采用方法进行检验,以此来进一步验证分析结果的可靠性和可信性。此研究表明聚类分析方法在证券市场投资分析中具有有效性和

2、实用性。关键词:聚类分析,证券市场投资,方法,投资回报AbstractIn this paper, we randomly selected 40 companies in Shandong province which were listed in Shanghai and Shenzhen stock market, and we choice the five indicators evaluation system that are the earnings of per share, the net assets of per share, the growth rate of th

3、e main business revenue, the growth rate of the main business profit and the yield of the net assets. In order to help investors to accurately grasp the overall features of the stock and the growth ability of the stock, we effectively use the method of the system clustering analysis to analyze the s

4、tocks profitability, growth, etc, which were mentioned above the stocks of the 40 companies. Above all, this can help investors to make the best investment decisions, and get considerable returns in a timely manner. Finally, in order to further verify the reliability and credibility of analysis resu

5、lts, we use means methods to test the results of cluster analysis. The study shows that the method of clustering analysis has validity and practicability in the securities market investment analysis.Key words: Clustering analysis, Stock market investment, Means method, Return on investment 目 录1绪论11.

6、1论文研究的背景及意义11.2 聚类分析在证券市场分析中的应用价值21.3 聚类分析在证券市场分析中应用的优点21.4 聚类分析在证券市场分析中应用的当前状况21.5本文的研究内容及内容结构31.5.1 研究内容31.5.2 内容结构32聚类分析42.1聚类分析的基本思想42.2聚类分析的方法42.3系统聚类法的基本思想和基本步骤52.3.1样本间距离的度量62.3.2类间距离的度量82.4 系统聚类分析方法的比较92.5系统聚类法中类个数的确定问题103聚类分析在证券市场分析中的应用123.1 聚类分析在证券市场分析中应用时的指标评价体系的选择123.1.1盈利能力指标123.1.2成长能力

7、指标123.1.3扩张能力指标133.2实证研究143.2.1原始样本数据标准化153.2.2用软件对样本公司股票进行聚类分析173.2.3分类个数的确定223.2.4聚类结果243.2.5对聚类结果进行检验253.2.6结果分析264总结和展望29总结30351绪论1.1论文研究的背景及意义改革开放以来,随着我国市场经济的迅速、健康发展,国民的金融意识和投资意愿日益增强,而作为市场经济的重要组成部分证券市场,正渐渐地走向成熟,越来越多的投资者把目光投向了股票,历史已经证明,股票不仅在过去是一种已经给投资者提供了可观的长期收益,并且在将来也会是提供良好机遇的投资媒介。一直在宾夕法尼亚大学沃顿商

8、学院担任金融学教授的杰里米西格尔,他在其名著长期股票投资中就曾经说到:“尽管未来回报率可能比过去低,但是仍然存在强有力的证据让我们相信,对于所有追求经济平稳和长期收益的投资者而言,股票还是最好的投资方式。”然而,正如日常生活中那样,股市变幻莫测、股价涨跌无常,投资者要想在股市投资中赢取可观的投资回报,就需要认真研究上市公司的业绩和发展前景,找出真正具有投资价值的股票,从而作出投资决策,进而进行投资。俗话说:“物以类聚,人以群分”,在自然科学和社会科学中,存在着形形色色的分类问题。所谓的类,通俗地讲,就是指由相似元素组成的集合。聚类分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析

9、起源于分类学,在古老的分类学中,人们主要依靠经验和专业知识来实现分类,很少利用数学工具进行定量的分类。随着人类科学技术的发展,对分类的要求也越来越高,以致有时仅凭经验和专业知识难以确切地进行分类,于是人们逐渐地把数学工具引用到了分类学中,形成了数值分类学,之后又将多元分析的技术引入到数值分类学中形成了聚类分析。聚类分析的比较典型应用是在商务上,聚类能帮助市场分析人员从客户基本库中发现不同的客户群体,并且用相应适当的模式来刻画不同客户群的特征。比如,在经济学中,为了了解不同地区城镇居民的收入及消费情况,往往需要划分为不同的类型;在生物学中,聚类分析能用于推导植物和动物的分类,对基因进行分类,从而

10、获得对种群中固有结构的认识;在产品质量管理中,聚类分析可以根据各产品的某些重要指标而将其分为一等品、二等品等。又如,在Web上的文档中,聚类分析也能用于对Web上的文档进行分类,从而发现信息。聚类分析即是研究分类问题的数据分析方法。1.2 聚类分析在证券市场分析中的应用价值聚类分析建立在基础分析之上,立足于对股票的基本层面进行量化分析。鉴于基础分析对影响股票价格的诸多因素这一定性分析的不足,聚类分析则很好地弥补了这一缺陷。作为进行长期投资的理性投资者的参考依据,其目的在于从股票基本层面决定的内在价值中发现股票的真正投资价值。另外,在聚类分析模型的建立过程中,我们进一步考虑了公司的成长能力,它对

11、股票的投资价值有着重要影响。成长能力是一个不断变化的趋势,因此我们选取了较能反映公司成长能力的客观指标,如主营收入增长率、主营利润增长率,以便更好地探究股票的成长能力,进而使投资者能够更好地、正确地预测股票的发展前景和发展潜力。1.3 聚类分析在证券市场分析中应用的优点与现代投资组合理论相比,聚类分析方法显得更加直观、实用,并且在应用时所受的局限性小、操作性强,具有一定的优越性,适合于广大投资者采用。聚类分析建立的是一种长期投资理念,因此,在全球金融一体化、自由化浪潮下,并且在我国的证券市场逐步走向成熟的过程中,提倡运用这种理性的投资分析方法,理性的作出投资决策,这样不但可以降低投资风险、规范

12、投资行为,而且有利于促进上市公司更好地参与市场竞争,促进我国证券市场的稳定、健康发展,从而建立一个良好的国内金融市场秩序。另外,单纯从聚类分析这一方法来讲,聚类分析通过对样品或指标(变量)之间存在的相似程度进行度量,将“相似”的归并成类。体现出以下三大显著的优点:(1)能综合利用多个变量对样本进行分类;(2)分类结果更加直观,具体体现是聚类谱系图,从聚类谱系图中,我们可以很清楚地观察其分类结果;(3)聚类分析所得到的结果比传统分类方法更细致、全面、合理。这些优点足以更加有利于我们将聚类分析方法应用在证券市场分析中。1.4 聚类分析在证券市场分析中应用的当前状况聚类分析是一种行之有效的指导证券投

13、资的方法。聚类分析首先对各类股票的公司因素、收益性、成长性、扩张性等基本层面进行考察,然后再利用综合指标评价体系来衡量样本股票的“相似程度”。利用聚类分析模型能够帮助投资者准确地了解和把握股票的总体特性,以便及时地作出投资决策,进行投资。在证券投资方面,聚类分析还有很大的发掘空间和研究价值。目前,国内颇具有代表性的研究大多仅仅局限于板块分析,选用的指标也仅仅反映了上市公司的盈利水平,尚不能全面反映股票的总体特性。在现有的研究基础上,本文深入探讨了聚类分析在证券投资中的应用价值,丰富和完善了在证券市场分析中应用聚类分析时的指标体系。1.5本文的研究内容及内容结构1.5.1 研究内容本文阐述了聚类

14、分析的理论背景,主要研究了用系统聚类分析方法对样本数据进行分组,但是,我们并不知道样本数据的分组是否合理,因此再利用方法对其进行检验,从而使得聚类精度有所提高,进而增加分析结果的可靠性和可信性。1.5.2 内容结构本论文共分四章,具体的内容结构如下:第一章是绪论,介绍了论文研究的背景及意义。第二章详细介绍了聚类分析的基础理论,系统聚类法的基本思想、基本步骤、距离度量和类个数的确定问题。第三章给出了聚类分析方法在证券投资市场中的具体应用,并采用方法对分析结果进行检验,证明其有效性。第四章是对聚类分析方法在证券投资市场中的应用进行总结和展望。2聚类分析聚类分析是把数据集分解或划分成多个类或组,使同

15、一组中的数据比较相似,不同组的数据差别较大。通过聚类,可以识别数据之间的相似程度,从而发现数据集的分布模式和数据的属性之间的相互关系。2.1聚类分析的基本思想聚类分析的基本思想是认为研究的数据集中的数据之间存在不同程度的相似性,根据数据的几个属性,找到能够度量它们之间相似程度的量,把一些相似程度较大量的归为一类,另一些相似程度较大的量归为另一类,即同一组内的数据对象之间具有较高的相似程度,而不同组中的数据对象之间是不相似的。而对这种数据对象之间的相似或不相似程度的描述又是由数据属性的取值来确定的,通常就是利用各数据对象之间的距离来表示的。2.2聚类分析的方法聚类分析的内容非常丰富,从其聚类的方

16、法来看,可分为以下几类:(1) 谱系聚类法:谱系聚类法又称系统聚类法,它是在给出样品间的距离和类与类间的距离定义的基础上,先将每个样品各自当作一类,计算出各类(即各样品)之间的距离,再将最近的两类合并聚为小类,将已聚合的小类按其相似程度(用类间距度量)再聚合,依此类推,每次减少一类,随着相似程度的减弱,直到最后将全部样品合成一类,并类的全部过程可以用聚类谱系图来描述。(2) 快速聚类法:快速聚类法又称动态聚类法,它的基本思想是,先确定若干个中心,然后将样本逐个输入,看看样品能否归属哪类,如果可以归属已有的某个类,则归之,且对该中心稍作调整;否则可以建立新类,并调整原有的归属及重新计算新的各类的

17、中心;如此继续下去,直到每个样品皆有归属为止。这种方法可以大大地提高计算速度,但由于初始中心的个数及位置的选取、样品输入的顺序都可能对最后结果产生某些影响,所以在实际运用时要慎重。(3) 最优分割法:最优分割法又称有序样品聚类法,它是先将全部样品当成一类,然后根据某种最优准则适当地将其分割为两类,再分为三类,直到最后将样品分割为所需的类为止。(4) 模糊聚类法:模糊聚类法是利用模糊集理论来处理分类问题,它对经济领域中具有模糊特征的两态数据或多态数据具有明显的分类效果。(5) 图论聚类法:图论聚类法是利用图论中最小支撑树的概念来处理分类问题,由此也创造了颇具风格的一种方法。(6) 聚类预报法:聚

18、类预报法是利用聚类方法来处理预报问题。我们知道,在多元统计分析中,如回归分析和判别分析都可以用来作为预报的方法,但是对于那些存在异常数据,例如在灾害性气候的气象预报中,此时若还利用回归分析或判别分析的方法来处理,其效果都不好,而聚类预报弥补了这一不足缺陷。另外,聚类分析根据分类对象的不同,分为型和型两大类:型聚类分析是对变量(或指标)进行分类处理,其作用在于:可以了解变量间及变量组合间的亲疏关系;可以根据变量的聚类结果及它们之间的关系,选择主要变量进行回归分析或Q型聚类分析等。型聚类分析是对样本进行分类处理,其作用在于:能利用多个变量对样本进行分类;分类结果直观,聚类谱系图能明确、清楚地表达其

19、分类结果;所得的结果比传统的分类方法更细致、全面、合理。 当使用不同的分类方法时,往往会得到不同的分类结果,更何况对于任何观测数据都不会存在唯一“正确”的分类方法。在实际工作中,仍以系统聚类法使用的最多,系统聚类法是目前在实际应用中使用最多的一类方法。因此,在本论文中就使用系统聚类法,即谱系聚类法,并且是进行型的聚类分析。2.3系统聚类法的基本思想和基本步骤设有个样本,并且每个样本都有个变量(或指标)。系统聚类法的基本思想是:首先定义样品间的距离和类与类之间的距离,开始时先将每个样品各自当作一类,此时样本间距离与类间距离是等价的,再将最近的两类合并聚为小类,将已聚合的小类按其相似程度(用类间距

20、度量)再聚合,依此类推,每次减少一类,随着相似程度的减弱,直到最后将全部样品合成一类,并类的全部过程可以用聚类谱系图形象地表达出来。由上述系统聚类法的基本思想,可以得出利用系统聚类法进行聚类分析的基本步骤:数据标准化:我们所考察的样本数据有不同变量(或指标)时,这些变量(或指标)一般都有不同的量纲、不同的数量级单位、不同的取值范围。为了使不同量纲、不同取值范围的数据能够放在一起进行比较,通常需要对数据进行归一化或标准化处理。并且,还要选择样本之间和类之间距离度量的方法;计算个样本两两之间的距离,得到样本间的距离矩阵;刚开始第一步时,将个样本各自看成一类,此时类的个数,样本间的距离就是类间的距离

21、,然后对步骤执行聚类的步骤和;每次合并类间距离最小的两类为一新类,即此时类的总数减少了1,此时类的总数为;继续计算新类与其它类之间的距离,得到新的距离矩阵。如果合并后类的个数仍然大于1,则重复步骤和,直到类的总个数是1时为止;画出聚类谱系图;决定分类的个数以及各类的成员。2.3.1样本间距离的度量聚类问题中有个数据,每个数据有个变量(即属性),表示数据的第个属性,则数据集的所有变量可用如下矩阵表示: (2.1)由于变量的多样性,其取值可能是连续值的区间变量、二元变量、序数变量、名义变量等,它们的处理方法是不同的,如工资水平、股票价格、利率、汇率等可以用连续值表示的称为连续变量,由于使用的变量单

22、位不同等诸多因素,它们的值可能相差比较悬殊,为使各变量在聚类分析中地位相同,就需要对数据进行归一化即标准化处理。两个数据的接近程度用距离表示,样品之间的距离,一般要求它满足下列条件:(1)且当且仅当; (2);(3)。在聚类分析中,有些“距离”不满足(3),我们在广义的角度上仍称它为“距离”。常用的距离有:欧式距离、明科夫斯基距离、马氏距离等。下面就简要介绍几种聚类分析中的常用距离:设是我们所关心的个指标,对此指标进行次观测,从而得到组观测值:,称这组观测数据为个样品。这时,每个样品可看成维空间的一个点,个样品组成维空间的个点,我们自然就可以用各个样本点之间的距离来衡量各样品之间的相似程度。(

23、1)欧氏距离 (2.2)(2)Minkowski距离(明科夫斯基距离) (2.3)其中。Minkowski距离又称距离,距离即欧氏距离。(3)马氏距离 (2.4)其中是由样品算得的样本协方差矩阵:,其中马氏距离适用于作为随机变量的样本点,并且马氏距离用于已知类别的模式情况,而我们所选定的家公司股票的类别是未知的,因此该距离不能用;明科夫斯基距离是一种范式,也就是说欧氏距离是明科夫斯基距离的一种特殊形式,即在式中时,此时的明科夫斯基距离即欧氏距离。因此,在此处我们选择欧氏距离来度量样本间的距离,欧氏距离是聚类分析中用得最广泛的距离。但是,鉴于本论文中选取的5项指标:每股收益、每股净资产、主营收入

24、增长率、主营利润增长率和净资产收益率,正如在本节“2.3.1样本间距离的度量”中提到的,它们皆为连续变量,而欧氏距离平方最适合对连续变量进行数据处理,因此,在本论文中,对于样本间距离的选择问题,我们选择欧氏距离平方,软件中对应选择,由式很容易得到欧氏距离平方: (2.5)2.3.2类间距离的度量距离作为对样品之间的相似程度的度量是聚类分析的基础。为了研究问题的方便,分别以表示样品,简记是样品之间的距离, 设和为两个类,含样品数和。类的重心。类与类之间的距离记为类间距离的常用定义方法如下:最短距离,即两类中样品之间距离最短者作为类间距离;最短距离法的特点是样品有链接聚合的趋势,这是其缺点,不适合

25、一般数据的分类处理,除去特殊数据外,不提倡用这种方法。最长距离,即两类中样品之间距离最长者作为类间距离;重心距离,即两类的重心之间的距离作为类间距离;该距离随聚类地进行不断缩小。该重心距离法的谱系聚类图很难跟踪,且符号改变频繁,计算较烦。类平均距离,即两类中所有两两样品之间的平方距离的平均作为类间距离;类平均距离法是一种使用比较广泛、聚类结果较好的方法,而类平均距离法又有两种形式:组间联结法和组内联结法。这两种方法相对而言,组间联结法更能充分的使用样本数据材料,因此,本论文中采用类平均距离法中的组间联结法来度量类间距离。离差平方和在实际应用中,离差平方和方法应用比较广泛,分类效果较好,但它要求

26、样本间距离的度量必须采用欧氏距离。2.4 系统聚类分析方法的比较系统聚类法的聚类原则决定于样本间的距离和类间距离的定义,类间距离定义的不同就会产生不同的聚类分析方法,系统聚类法具有以下简单的性质:单调性:在利用系统聚类法进行并类过程中,并类距离具有单调性符合系统聚类法的基本思想,可知,最短距离法、最长距离法、类平均距离法和离差平方和法都具有单调性,但重心距离法不具有单调性;空间的浓缩与扩张以最短距离法和最长距离法的并类过程为例,对于其相应的距离,每一步都有以下性质:,对于一切的,这种性质称为最长距离法比最短距离法扩张,或称最短距离法比最长距离法浓缩;由以上可对系统聚类法有以下结论:类平均距离法

27、比最短距离法扩张,且比最长距离法浓缩;类平均距离法比重心距离法扩张,且比离差平方和方法浓缩。而我们知道,太扩张的方法当样本数量较大时容易失真,太浓缩的方法又不够灵敏。类平均距离法相对比较适中,相对其它方法既不太扩张也不太浓缩,而且具有单调性,因而类平均距离法是一种应用广泛、聚类结果较好地方法。根据这一节和上一小节“2.3.2类间距离的度量”的分析和比较,可以更加让我们相信,选择类平均距离法中的组间联结法来度量类间距离是比较合理的。2.5系统聚类法中类个数的确定问题在聚类分析方法中,样本到底该分为几类,究竟哪些样品将归于一类,分析前是不知道的。在进行聚类分析时,如何确定类的个数是个较难的问题,虽

28、然有一些统计方法试图给出判断准则,但是人们至今仍未找到令人满意的方法,但在聚类分析中这又是一个无法回避的问题。那么,我们如何确定较为合理的分类个数呢?以下就简要得介绍几种确定类个数的常用方法:根据数据点的散布图直观地确定分类个数如果考察的指标只有个即,则可通过数据点的散点分布图来直观地确定类的个数。如果有个变量,可以绘制三维空间的散点分布图,并且通过旋转三维坐标轴由数据点的分布来确定应该分为几类。当然,如果考察的指标多于个时,可以先通过降维的方法把这些指标进行综合,综合出个或个指标,从而转化为个变量或个变量情况,再绘制二维或三维的数据点的散布图来确定合适的分类个数。但是,该方法从其降维过程来看

29、,比较繁琐。根据聚类谱系图确定分类个数经过系统聚类法处理后,会得到相应的聚类谱系图,那么,如何根据聚类谱系图确定分类个数呢?提出了应根据研究的目的来确定适当的分类个数,并提出了一些根据谱系图来分类的准则,准则如下:A. 任何类都必须在临近各类中是突出的,即各类重心间距离必须要大;B. 确定的类中,各类所包含的元素都不要过分的多;C. 分类的数目必须符合实用目的;D. 若采用几种不同的聚类方法处理,则在各自的聚类图中应发现相同的类。根据聚类分析的“碎石图”确定分类个数在系统聚类过程中,首先把离得近的类进行合并,所以在并类过程中的聚合系数会呈现出增加趋势,聚合系数小表示合并的两类的相似程度较大,而

30、两个差异很大的类并在一起时,会使聚合系数很大。因此,如果以轴表示聚合系数,轴表示分类数,画出聚合系数随着分类数变化的曲线图(或散点图),这样就会得到类似于因子分析中的碎石图,从而,我们可以在曲线开始变得平缓时的点处,选择较为合适的分类数。可见,该方法较前两种方法而言,显得更加简洁、直观,因此,本论文中采用“碎石图”来确定比较合适的分类个数。3聚类分析在证券市场分析中的应用本文中,选取了每种股票的每股收益、每股净资产、主营收入增长率、主营利润增长率和净资产收益率5项指标评价体系,首先利用聚类分析方法对各类股票的基本层面进行考察,然后再利用综合指标评价体系,如收益性、成长性、扩张性等来衡量样本股票

31、的“相似程度”。以此能够更好地帮助投资者准确地了解和把握股票的总体特性,以便及时地作出投资决策、进行投资。鉴于聚类分析在证券投资方面还有很大的发掘空间和研究价值。本文在现有的研究基础上,深入探讨了聚类分析在证券投资中的应用价值,丰富和完善了在证券市场分析中应用聚类分析时的指标体系。3.1 聚类分析在证券市场分析中应用时的指标评价体系的选择3.1.1盈利能力指标每股收益越高,反映出公司或行业的投资收益就越高,每股的获利能力就越强;净资产收益率反映了股东权益的收益水平,用以衡量公司运用自有资本的效率。净资产收益率越高,说明投资带来的收益就越高。3.1.2成长能力指标主营收入增长率用来衡量和判断公司

32、发展所处的阶段,以使投资者较为准确地判断该公司或行业正处于成长期、稳定期或衰退期,进而作出较为合理的投资决策;经营业绩良好的上市公司会表现出较高的成长性,成长性好的上市公司的盈利也会相应增强。主营收入增长率和主营利润增长率都反映了公司扩大市场规模的能力,表明公司重点的发展方向。一般来说,主营利润稳定增长且占利润总额的比例呈增长趋势的公司正处在成长期。一些公司尽管年度内的利润总额有较大幅度的增加,但主营业务利润却未相应增加,甚至会出现大幅下降,这样的公司质量其实并不高,可能存在着资产管理的费用即成本居高不下的问题,也可能存在着着巨大的风险。因此投资者对于投资这样的公司,要提高警惕。 3.1.3扩

33、张能力指标每股净资产是每股所代表的股东权益额,它反映了每股最低限度的内在价值。以上建立的指标评价体系可用以下框图表示: 指标评价体系框图3.2实证研究利用本文随机选取的在沪深上市的40家山东省的公司企业,选择每股收益、每股净资产、主营收入增长率、主营利润增长率和净资产收益率5项指标评价体系,随机选取的样本指标数据来自证券之星数据中心的财务指标。本文利用的是软件,通过系统聚类分析方法对这40家公司企业的股票进行聚类分析,分别将它们归类,为之后投资者提供决策依据。详细样本数据见表3.1:表3.1 选取的40家上市公司企业的样本数据代码简称每股收益每股净资产主营收入增长率(%)主营利润增长率(%)净

34、资产收益率(%)000423东阿阿胶0.67733.6723.9737.1116.32000880潍柴重机0.652.5297.89158.0125.68300121阳谷华泰0.622.185.149.3428.32200726鲁泰B0.573.942.9216.614.55300208恒顺电气0.541.8538.0553.9337.19600547山东黄金0.534.0517.5520.5625.97002355兴民钢圈0.52.38.5849.4221.62300175朗源股份0.471.959.6649.5923.6002073软控股份0.424.1523.6442.4714.3730

35、0110华仁药业0.41.9639.0137.7519.36002526山东矿机0.37212.322436.6816.07002470金正大0.351.6714.442.8521.24300285国瓷材料0.324.435.743.1626.52600350山东高速0.3132.8220.09-1611.23000756新华制药0.223.5710.73273.466.26600017日照港0.192.7135.628.229.18600986科达股份0.171.8750.28659.39.24600756浪潮软件0.163.82-23.26-8.014.24600336澳柯玛0.151.4

36、52530.82907.7310.47600027华电国际0.1892.3214.71148.127.33000739普洛药业0.13283.019.3929.64.42000416民生投资0.12281.320.09830.219.27600467好当家0.122.0311.23-39.375.86000957中通客车0.092.25-15.07-22.053.77600789鲁抗医药0.062.6210.944.482.47600022山东钢铁0.02152.2716-41.16-88.490.95000682东方电子0.021.369.218.551.47300105龙源技术1.334.

37、3317.1316.5230.67300237美辰科技1.192.6792.28112.443.87002588史丹利1.085.3711.1318.9420.19600690青岛海尔1.0345.80646.9793.5517.78000951中国重汽1.026.816.08-814.98002458益生股份12.859.9716.5335.15600600青岛啤酒0.95036.2112.560.6614.9300233金城药业0.93.132.5858.2528.9600188兖州煤业0.78895.77-18.41-37.4613.68002581万昌科技0.722.2420.6267

38、.245.35600060海信电器0.6733.4937.29128.6610.15601678滨化股份0.631.2655.68183.9532.15600219南山铝业0.527.030.6611.46.3由表3.1可知,该实际问题中有家公司,即总共有个样本数据,每个样本数据又有个指标变量(即属性),则由第二章的样本数据矩阵可知,表3.1数据集中的所有数据可用如下矩阵表示: 3.2.1原始样本数据标准化由于选取不同的指标,并且不同的指标具有不同的量纲,为了使所有的样本指标数据能够放到一起加以比较,以便更好地进行聚类分析,就需要我们对原始样本数据进行标准化处理,以消除由于各指标变量的量纲不同

39、或数量级相差很大对分析带来的影响。常用的数据标准化方法主要有:极差正规化变换、极差标准化变换和标准化变换。为了便于后面的说明,在此作出如下设定:所有样本表示为:,均值表示为:,标准差表示为:,极差表示为:(1)极差正规化变换: (3.1)此方法变换后的数据最小为0,最大为1,其余在区间0,1内,极差为1,无量纲。(2)极差标准化变换: (3. 2)此方法变换后的数据均值为0,极差为1,且 ,消去了量纲的影响。 由以上两种方法可知,这两种方法都采用极值化法对数据进行无量纲化,都是通过利用变量取值的最大值和最小值将原始数据转换为界于某一特定范围的数据,从而消除量纲和数量级的影响。但是,由于极值化法

40、在对变量进行无量纲化过程中,仅仅与该变量的最大值和最小值这两个极端值有关,而与其它取值无关,这使得该方法在改变各变量权重时过分依赖两个极端的取值。如果两个变量取值相近,其分析权重近似相同,但在原始变量数据中存在明显的极大值时,会造成两个变量的分析权重不同。结合本论文中所选取的样本数据(样本数据详见表3.1)的特点,可知这两种方法都不适合对样本数据进行标准化处理。(3)标准化变换: (3. 3)此方法变换后的数据均值为0,标准差为1,消去了量纲的影响,并且当抽样样本改变时,它仍能保持相对稳定性。另外,此方法进行标准化的同时还消除了各变量在变异程度上的差异,从而使变换后的各变量在聚类分析中的重要性

41、程度是同等看待的。综合以上比较和分析,本论文中采用标准化变换的方法对样本数据进行标准化。在软件中,对应选择即可。3.2.2用软件对样本公司股票进行聚类分析利用软件对样本公司股票进行系统聚类分析,具体操作步骤如下:(1)打开软件,导入样本数据(此处的样本数据是事先经过编辑好的数据文件,此处即表3.1中的所有数据);(2)在软件中,依次选择分析、分类、系统聚类,弹出系统聚类分析对话框;(3)在弹出的系统聚类分析对话框中,把每股收益、每股净资产、主营收入增长率、主营利润增长率和净资产收益率这5项指标评价体系依次导入到变量这一栏中,此处为了更清晰地了解分类结果,我们还需要把样本股票的简称导入到标注个案

42、这一栏中。这里要特别需要注意的是,在软件中,数据文件中的一列数据称为一个变量,每个变量都应该有一个变量名,一行数据称为一条个案或观测量。此处,因为我们要对样本股票进行分类,属于个案,因此,我们需要在弹出的系统聚类分析对话框中的分群这一栏中选择个案;(4)点击统计量,选择合并进程表、相似性矩阵,在聚类成员一栏中选择,因为我们现在还不知道样本股票分为几类比较合适;(5)点击绘制,选择树状图、所有聚类、垂直;(6)点击方法,在聚类方法中选择组间联接,在度量标准一栏的区间选项中选择距离,在转换值一栏的标准化选项中选择;(7)最后点击确定运行。可得到如下的输出结果:图3.1显示的是用距离计算的近似矩阵表

43、(此处由于样本数据较多,故只截取表的一部分),其实质是一个不相似矩阵,其中的数值表示各个样本之间的相似系数,数值越大,表示两样本距离越大:图3. 1 近似矩阵表3.2显示的是聚类表,该表反映的是每一阶段的聚类结果,其中的第4列系数表示聚合系数,第2列和第3列表示的是聚合的类,此聚类表是为本论文在后面通过画“碎石图”来确定合适的分类个数做铺垫,并且由表3.2可知,聚类过程总共进行了39次:表3.2 聚类表阶群集组合系数首次出现阶群集下一阶群集 1群集 2群集 1群集 2178.08900422125.15200533234.35300134712.35710952123.417201061011

44、.463001573335.5170025819.6520011937.6990424102021.77805141114.807801912613.8870023133032.9180322142027.947100181510161.12260241624261.1670021175391.21400271814201.33801426191381.421110232019221.50600302118241.513016312230362.0061302923162.084191228243102.096915282528332.22607352614152.42318031275372

45、.5321703528132.8182324342930403.156220323017193.187020393114183.2152621343230314.22529037332294.8600038341145.213283136355285.56727253636159.5963435373713010.611363238381218.3383733393911720.52938300图3.2是冰柱图(此处设置为垂直输出),也是反映聚类状况的图,若按照事先假定的聚类数,在冰柱图中那类的行上从左到右可以找到各类所包含的样本:图3. 2 冰柱图图3.3是树状图即聚类谱系图,从中可直观地显

46、示聚类的过程,当知道分类个数时,可以从聚类谱系图中清楚的看出各种股票的归类。图3.3 聚类谱系图3.2.3分类个数的确定正如在“2.5 系统聚类法中类个数的确定问题”这一节中讨论的那样,我们使用聚类分析中的“碎石图”来确定比较合适的分类个数。利用“表3.2 聚类表”中的第列和第列数据,以第列数据的逆序即以分类数的逆序为横坐标,第列数据即以聚合系数为纵坐标,选取合适的坐标范围和刻度,在中画出“碎石图”,如图3.4。图3. 4 碎石图由以上“碎石图”可以形象地看出,当分类个数为时,曲线开始变得平缓,因此,选择分类数为是比较合适的。随后,在软件中,重复在“3.2.2 用软件对样本公司股票进行聚类分析

47、”进行系统聚类分析的操作,需要变化的操作有两个:一个是在第“(3)”步弹出的系统聚类分析对话框中,还要选择,并在弹出的对话框中输入分类数为,这一步的目的是为了后面对分类结果进行方差检验做准备;二是在第“(4)”步中的聚类成员一栏中输入分类个数为,可得到分类数为时的聚类表,见表3.3。表3.3显示的是群集成员,从该表中可以直接知道分为类的结果以及各自样本的归类: 表3.3 群集成员群集成员案例5 群集1:东阿阿胶12:潍柴重机23:阳谷华泰14:鲁泰B15:恒顺电气36:山东黄金17:兴民钢圈18:朗源股份19:软控股份110:华仁药业111:山东矿机112:金正大113:国瓷材料114:山东高

48、速115:新华制药116:日照港117:科达股份418:浪潮软件119:澳柯玛420:华电国际121:普洛药业122:民生投资423:好当家124:中通客车125:鲁抗医药126:山东钢铁127:东方电子128:龙源技术329:美辰科技230:史丹利531:青岛海尔532:中国重汽533:益生股份334:青岛啤酒535:金城药业336:兖州煤业537:万昌科技338:海信电器139:滨化股份340:南山铝业53.2.4聚类结果由以上软件运行的表3.3结果可得到以下聚类分析结果:表3.4 第1类第1类(23个)代码简称000423东阿阿胶300121阳谷华泰200726鲁泰B600547山东黄金

49、002355兴民钢圈300175朗源股份002073软控股份300110华仁药业002526山东矿机002470金正大300285国瓷材料600350山东高速000756新华制药600017日照港600756浪潮软件600027华电国际000739普洛药业600467好当家000957中通客车600789鲁抗医药600022山东钢铁000682东方电子600060海信电器表3.5 第2类第2类(2个)代码简称000880潍柴重机300237美辰科技表3.6 第3类第3类(6个)代码简称300208恒顺电气300105龙源技术002458益生股份300233金城药业002581万昌科技60167

50、8滨化股份表3.7 第4类第4类(3个)代码简称600986科达股份600336澳柯玛000416民生投资表3.8 第5类第5类(6个)代码简称002588史丹利600690青岛海尔000951中国重汽600600青岛啤酒600188兖州煤业600219南山铝业3.2.5对聚类结果进行检验以上通过系统聚类分析方法对样本数据进行了分类,那么,上述的聚类分析得到的分类结果是否有效呢?为了验证上述聚类分组的效果,我们通软件,利用方法对上述的分类结果进行检验。利用方法,检验各个类别在所有变量上的差异,如果差异显著,我们就可以认为分类结果是可靠的。关于利用方法对分类结果进行检验的方法和步骤,详见附录。以

51、下图3.5是最后输出的检验结果:图3.5 方法检验图3.5中的方法检验表就是对平均值差异性的检验了,由显著性这一列可知,都达到了显著的水平,这说明分类结果是比较有效的。3.2.6结果分析表3.9 相应指标均值类别均值汇总类别每股收益每股净资产主营收入增长率(%)主营利润增长率(%)净资产收益率(%)第1类0.3232.8211.4936.63912.838第2类0.922.59595.085135.20534.775第3类0.8532.6124.00566.0634.902第4类0.14761.547527.063799.089.66第5类0.89896.1669.82223.18214.63

52、8为了更加直观地进行综合分析,我们按照“3.1 聚类分析在证券市场分析中应用时的指标评价体系的选择”这一节把相应的指标汇总成表3.10:表3.10 指标汇总分析盈利能力指标成长能力指标扩张能力指标类别每股收益净资产收益率(%)主营收入增长率(%)主营利润增长率(%)每股净资产第1类0.32312.83811.4936.6392.82第2类0.9234.77595.085135.2052.595第3类0.85334.90224.00566.062.61第4类0.14769.6627.063799.081.5475第5类0.898914.6389.82223.1826.166根据表3.10中的指标

53、汇总信息,分析如下:第类:该类股票的盈利低、成长性慢,即使该类公司具有相对较强的扩张能力,但由于该类公司经营不善或前景不好等原因,表现出业绩较差,交投不活跃,严重时会导致公司亏损。投资者在进行此类股票的投资时,要具有风险意识,不要盲目追风作出投资决策、进行投机活动。第类:属于高盈利、高成长性的绩优股,甚至会成长为比绩优股更优的蓝筹股。并且,该类公司的扩张能力也比较好,这类公司不管在资金、市场,还是在信誉等其他方面都占有明显优势,具有较强的综合竞争力和核心竞争力,并且对市场的各种波动具有较强的应变能力,该类股票是投资者进行投资的最佳选择。第类:具有与第类同样较高的盈利能力和扩张能力,即便如此,但

54、是与第类相比,第类的成长能力明显不如第类,充其量只能成为绩优股,而不是蓝筹股,广大的投资者可以对第类股票作出投资决策、进行投资,但是同有着较大蓝筹股潜力的第类股票相比,第类股票就略显逊色。鉴于此,建议投资者可以对第类和第类股票进行适当的投资组合,适当的增加对第类股票的投资比例。第类:属于成长能力非常强、成长性非常快的潜力股,但是具有较低的每股收益、净资产收益率和每股净资产。以上说明第类公司只是在盈利能力和扩张能力方面相对而言显得较弱,但是具有较高的主营收入增长率和主营利润增长率,特别是其主营利润增长率特别高。说明该类股票正处于高速发展阶段,其成长发展前景非常好,比较适合投资者进行长期性的投资。

55、第类:该类股票的盈利能力良好,且其扩张能力也较高,尽管在这类中其扩张能力是最高的,但是其成长能力不很理想,这说明该类公司很可能由于存在成本长期居高的情况,而导致其收入和利润的增长率比较缓慢,这样,就会抵消部分扩张能力,从而会影响到公司将来的的扩张和成长。投资者在对该类股票进行投资时,要慎之又慎。由以上的聚类结果及其分析可知,聚类分析能够有效地对股票的收益性、成长性等多方面进行分析,从而有利于投资者准确地把握股票的总体特性以及预测股票的成长能力,进而使投资者及时做出最佳的投资决策,以此获得可观的投资回报。这都表明了聚类分析方法在证券市场投资分析中具有有效性和实用性。4总结和展望聚类分析方法是一种

56、应用极为广泛的多元统计分析方法,聚类分析在证券市场投资方面有很大的研究潜力和研究价值,本文将聚类分析模型应用于证券投资中,进行了拓展性的研究和探讨,采用综合指标来反映上市公司的盈利性、成长性和扩张性,并且通过对聚类结果进行定量分析得出各类公司的实力强弱情况。立足于基本面的定量分析,研究股票的内在价值,有利于投资者正确作出投资决策、确定投资价值、降低投资风险。本文在聚类分析的基础上,对聚类分析的结果进行方法检验,进一步验证了分析结果的可靠性、可信性。文中在选择和处理不同指标的方法方面仍待需要改进,但聚类分析方法在证券投资市场分析中确实具有很大的研究潜力和研究价值,并且本论文的研究也表明了具有一定

57、的可行性和实用性,从而为投资者进行证券投资提供有力工具。本文中的样本数据仅仅选取了40家在沪深上市的山东省的公司企业,并以此来进行聚类分析,当然还可以选择不同省份或不同区域的样本数据进行进一步的深入研究和分析。 总结经过两个多月的努力,我的毕业设计论文终于顺利完成了,从刚开始的一无所知到现在的了解了聚类分析的概念背景及其现实应用性,我从中学到了很多知识。由于以前从未接触过聚类分析在证券市场分析中的应用,刚开始无从下手,在查了一些相关资料并且多次与导师交流之后,才逐渐地有了头绪,但是第一次做的时候仍然出现了不少方向的错误。有问题不可怕,只要你勇敢去解决它,在整个解决问题的过程中我收获颇多。毕业设计是我们专业课程知识综合应用的实践训练,本论文介绍了聚类分析在证券市场分析中应用的可行性、可靠性和可信性。并在理论分析之后成功地完成了样本数据的分类,得到并验证了分类结果的合理、正确性。在完成论文的路上,我走得比较坎坷,但是“千里之行,始于足下”,毕业设计让我学会了脚踏实地的迈出每一步,锻炼了我的综合运用所学知识和技能,理论联系实际、独立分析和解决实际问题的能力,培养了我正确的理论联系实际的工作作风,严肃认真的科学态度和初步的科学研究能力,更让我明白了跟导师保持良好的沟通

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!