参考数据仓库与数据挖掘课程设计

上传人:痛*** 文档编号:63122277 上传时间:2022-03-17 格式:DOC 页数:67 大小:1.70MB
收藏 版权申诉 举报 下载
参考数据仓库与数据挖掘课程设计_第1页
第1页 / 共67页
参考数据仓库与数据挖掘课程设计_第2页
第2页 / 共67页
参考数据仓库与数据挖掘课程设计_第3页
第3页 / 共67页
资源描述:

《参考数据仓库与数据挖掘课程设计》由会员分享,可在线阅读,更多相关《参考数据仓库与数据挖掘课程设计(67页珍藏版)》请在装配图网上搜索。

1、论文题目数据仓库与数据挖掘大作业院(系)名称信息技术学院专 业 年 级10级电子商务学号101144054学生姓名张泽果1目 录第1章 数据仓库和数据挖掘简介11.1数据仓库的概念11.2数据挖掘引论11.2.1 数据挖掘的作用11.2.2数据挖掘对企业的影响21.2.3数据挖掘概念31.3数据挖掘与数据仓库的关系41.4数据仓库与数据挖掘的区别5第2章 创建数据仓库62.1 数据仓库的来源62.2 数据表的结构6第3章 关联规则挖掘83.1 案例背景83.2 数据来源93.3 关联规则的应用93.3.1 Microsoft SQL Server 2005 Analysis Services操

2、作步骤93.3.2模型解释173.4小结19第4章 分类挖掘204.1案例背景204.2数据来源204.3分类挖掘的应用214.3.1 Microsoft SQL Server 2005 Analysis Services操作步骤214.3.2模型解释264.4小结28第5章 聚类挖掘295.1案例背景295.2数据来源295.3聚类挖掘的应用305.3.1 Microsoft SQL Server 2005 Analysis Services操作步骤305.3.2模型解释325.4小结36I 第1章 数据仓库和数据挖掘简介1.1数据仓库的概念什么是数据仓库,目前有一下不同的看法:定义1:W.

3、H.Inmon在Building the Data Warehouse中定义数据仓库为:“数据仓库是面向主题的、集成的、随时间变化的、历史的、稳定的、支持决策制定过程的数据集合。” 即数据仓库是在管理人员决策中的面向主题的、集成的、非易失的并且随时间而变化的数据集合。定义2:“DW是作为DSS基础的分析型DB,用来存放大容量的只读数据,为制定决策提供所需的信息。”定义3:“DW是与操作型系统相分离的、基于标准企业模型集成的、带有时间属性的。即与企业定义的时间区段相关,面向主题且不可更新的数据集合。” 定义4:数据仓库是一种来源于各种渠道的单一的、完整的、稳定的数据存储。这种数据存储提供给可以允

4、许最终用户的可以是一种他们能够在其业务范畴中理解并使用的方式。定义5:数据仓库是大量有关公司数据的数据存储。定义6:仓库提供公司数据以及组织数据的访问功能,其中的数据是一致的(consistent),并且可以按每种可能的商业度量方式分解和组合;数据仓库也是一套查询、分析和呈现信息的工具;数据仓库是我们发布所用数据的场所,其中数据的质量是业务再工程的驱动器(driver of business reengineering)。定义的共同特征:首先,数据仓库包含大量数据,其中一些数据来源于组织中的操作数据,也有一些数据可能来自于组织外部;其次,组织数据仓库是为了更加便利地使用数据进行决策;最后,数据

5、仓库为最终用户提供了可用来存取数据的工具。综合对数据仓库的各种理解以及其特征,我们可以定义数据仓库是一种为信息分析提供了良好的基础并支持管理决策活动的分析环境,是面向主题的、集成的、稳定的、不可更新的、随时间变化的、分层次的多维的集成数据集合。1.2数据挖掘引论1.2.1 数据挖掘的作用数据挖掘解决诸如欺诈甄别(fraud detection)、保留客户(customer retention)、 消除摩擦(attrition)、数据库营销(database marketing)、市场细分(market segmentation)、风险分析(risk analysis)、亲和力分析(affini

6、ty analysis)、客户满意度(customer satisfaction)、破产预测(bankruptcy prediction)、职务分析(portfolio analysis)等业务问题提供了有效的方法。 例如,数据挖掘运用于客户行为分析,企业从中受益体现在以下四个方面:1.可以方法顾客和访问者的爱好、生活模式等。2.可以解决怎样来争取新顾客,怎样使产品适销对路,怎样给产品定价,怎样吸引单个顾客,怎样优化Web站点等问题。即可以通过顾客定制和指定的产品和服务交换信息,对Web上的商业模式建模,预测、了解影响销售的各种因素,以便迅速调整其市场、价格、存货等;通过页面访问情况,分析出的

7、客户生活和购物模式,根据客户的爱好等来定制个性化Web界面。3.可以利用相应的信息确定顾客消费的生命周期,针对不同的产品定制相应的营销策略。4.可以却东客户细分,为每一个顾客的独特需求设计“量身定制”的产品。有些问题的产生是显然的,如:开辟新产品的市场;为现存的产品和服务定价;了解客户流失的原因。同时和各种人员的交流也是很重要的,当他们了解了数据挖掘之后,就有可能提出更好的问题。1.2.2数据挖掘对企业的影响诺贝尔奖得主Penziad博士在1999年1月的计算机世界上发表评论认为:“数据挖掘将变得更加重要,因为数据挖掘如此有价值,以至于企业将不再会丢失与其客户有关的任何信息。如果你不在这方面做

8、些什么,那么你将会失去你的生意。”如果数据挖掘能够对改善商务过程起到明显的作用,则它就是一种能够赢得竞争的武器。表1.1给出的3个例子清楚地说明数据挖掘可以对企业的盈利能力产生直接影响。这3个例子中,企业的销售收入都受到通过数据挖掘所收集到的信息数据量的影响。当然,在某些领域(如股票市场),数据挖掘产生预测的准确性要比其他领域差一些。例如,在零售业中对于直接信函而言,采用数据挖掘,从有可能对直接信函做出响应的人当中识别出其中10%为可能性最高的人就是一件比较容易的事情。很多企业都在利用数据挖掘技术帮助管理客户生命周期的各个阶段,包括争取新的客户、在已有客户的身上赚更多的钱和保持优质客户。如果能

9、够确定优势客户的特点,那么就能提供针对性的服务。如此,已经发现了购买某一商品的客户的特征,那么就可以向那些具有这些特征但还没有购买此商品的客户推销这个商品;找到流失的客户的特征就可以对那些具有相似特征的客户还未流失之前进行针对性的弥补,因为保留一个客户要比争取一个客户容易得多。表2-1 图书借阅登记表零售业业务问题增加对直接信函(direct mail)的响应率解决方案销售人员通过数据挖掘建立的预测模型以了解哪些人最有可能对直接信函作出响应获得的收益由于将直接信函发送给正确的客户而增加了销售额保险业业务问题减少保险欺诈案件的发生数量解决方案业务人员通过数据挖掘建立预测模型识别出哪些赔偿要求最可

10、能具有欺诈性获得的收益由于减少欺诈造成的费用而增加了利润金融业业务问题改进预测市场波动的能力,在金融市场建模中得到广泛应用。如何采用神经网络方法提高金融增益和在采用数据挖掘技术建立股票市场模型。解决方案金融分析员通过数据挖掘建立预测模型以识别出历史上曾引起过市场被动的因素所具有的模式获得的收益由于投资更加准确而增加了收入数据挖掘可以应用在各个不同的领域。电讯公司和信用卡公司就是用数据挖掘检测欺诈行为的先行者。保险公司和证券公司也开始采用数据挖掘来减少欺诈。零售商则更多的使用数据挖掘来决定每种商品在不同地点的库存量,通过数据挖掘更灵活地进行商品促销和优惠活动。1.2.3数据挖掘概念数据挖掘在19

11、89年8月美国底特律市召开的第十一界国际联合人工智能学术会议上正式形成。从1995年开始,每年举行一次知识发现国际学术会议,把对数据挖掘和知识发现的研究推入高潮。数据挖掘还有被译为数据采掘、数据开采和数据发掘等,但数据挖掘还未有一致的定义。对数据挖掘有如下定义:定义1 :G.Piatetsky Shapior,W.J.Frawley等定义数据挖掘为从数据库的大量数据中揭示出隐含的、先前未知的、潜在有用的信息的非平凡过程。定义2 :有人简单认为,数据挖掘就是数据库中知识的发现。定义3 :有人认为,数据挖掘为发现数据中隐藏的模式和关系的过程。定义4 :有人认为,数据挖掘就是从大量数据中提取或挖掘知

12、识。定义5 :Fayyad等在“知识发现96国际会议上”认为,知识发现是从数据库中发现知识的全部过程,而数据挖掘则是此全部过程中一个特定的关键一步。这种观点将数据挖掘的对象局限于数据库。定义6 :数据挖掘广义的定义为在一些事实或观察数据的集合中寻找模式的决策支持的过程。综上所述,我们定义数据挖掘为在不同的数据源中包括结构化的数据、半结构化的数据和非结构化的数据,即既可以是数据库,也可以是文件系统,或其他任何组织在一起的数据集合,通过一定的工具与方法寻找出有价值的知识的一类深层次的数据分析方法。1.3数据挖掘与数据仓库的关系数据挖掘和数据仓库作为决策支持新技术,在近十年来迅速发展。数据仓库和数据

13、挖掘二者既相互结合、共同发展,又相互影响、相互促进。二者的联系概括如下:1.数据仓库为数据挖掘提供了更好更广泛的数据源数据仓库中集成和存储着来自异质的信息源的数据,而这些信息源本身就可能是一个规模庞大的数据库。同时数据仓库存储了大量长时间的历史数据,这可以进行数据长期趋势的分析,为决策者的长期决策行为提供了支持。数据仓库中数据在时间轴上的纵深性是数据挖掘不能回避的又一个新难点。2.数据仓库为数据挖掘提供了新的支持平台数据仓库的发展不仅为数据挖掘开辟了新的空间,更对数据挖掘技术提出了更高的要求。作为数据挖掘对象,数据仓库技术的产生和发展为数据挖掘技术开辟了新的战场,提出了新要求和挑战。数据仓库的

14、体系结构努力保证查询和分析的实时性。数据仓库一般设计成只读方式,数据仓库的更新由专门一套机制保证,数据仓库对查询的强大支持使数据挖掘效率更高。3.数据仓库为更好地使用数据挖掘工具提供了方便数据仓库的建立,充分考虑数据挖掘的要求。用户可以通过数据仓库服务器得到所需的数据,形成开采中间数据库,利用数据挖掘方法进行开采,获得知识。数据仓库为数据挖掘集成了企业内各部门的全面的、综合的数据,数据挖掘要面对的是关系更复杂的企业全局模式的知识发现。而且,数据仓库机制大大降低了数据挖掘的障碍,一般进行数据挖掘要花大量的精力在数据准备阶段:数据仓库中的数据已经被充分收集起来,进行了整理、合并,并且有些还进行了初

15、步的分析处理。这样,数据挖掘的注意力能够更集中于核心处理阶段。另外,数据仓库中对数据不同粒度的集成和综合,更有效地支持广多层次、多种知识的开采。4.数据挖掘为数据仓库提供了更好的决策支持企业领导的决策要求系统能够提供更高层次的决策辅助信息,而基于数据仓库的数据挖掘能更好地满足高层战略决策的要求。数据挖掘对数据仓库中的数据进行模式抽取和发现知识,从数据仓库中揭示出对企业有潜在价值的规律知识,形成知识发现,为知识管理提供了内容,在知识管理中起到中流砥柱的作用。这些正是数据仓库所不能提供的。5.数据挖掘对数据仓库的数据组织提出了更高的要求数据仓库作为数据挖掘的对象,要为数据挖掘提供更多、更好的数据。

16、其数据的设计、组织都要考虑到数据挖掘的要求。6.数据挖掘还为数据仓库提供广泛的技术支持数据挖掘的可视化技术、统计分析技术等都为数据挖掘提供了强有力的技术支持。总之,数据仓库在纵向和横向都为数据挖掘提供了更广阔的活动空间。数据仓库完成数据的收集、集成、存储、管理等工作,数据挖掘面对的是经初步加工的数据,使得数据挖掘能更专注于知识的发现。又由于数据仓库所具有的新特点,对数据挖掘技术提出了更高的要求。另一方面,数据挖掘为数据仓库提供了更好的决策支持,同时促进了数据仓库技术的发展。可以说,数据挖掘和数据仓库技术要充分发挥潜力,就必须结合起来。1.4数据仓库与数据挖掘的区别数据仓库是一种存储技术,它的数

17、据存储量是一般数据库的100倍,它包含大量的历史数据、当前的详细数据以及综合数据。它能为不同用户的不同决策需要提供所需的数据和信息。数据挖掘是从人工智能机器学习中发展起来的,它研究各种方法和技术,从大量的数据中挖掘出有用的信息和知识。第2章 创建数据仓库2.1 数据仓库的来源在本次实验中,我建立了MedicalDW数据库,其中包含了三张表:baby、disease、students表。下边分别介绍这三张表:students表是从某校门诊体检系统中导出了乙肝病毒检查数据的表;baby表使用的数据集是某地区医院新出生婴儿信息的一个样本数据集;disease表是对某城市年龄范围为25岁55岁的中青年

18、人群进行调查,调查数据项包括年龄、性别等项。对表的详细介绍将在下面各章节中显示。2.2 数据表的结构baby表的各列信息如表2-1所示:表2-1 新生儿信息列名数据类型可否为空IDintNot nullAGEnvarchar(MAX)NullFMFSnvarchar(MAX)NullBABYSUMnvarchar(MAX)NullBABYSEXnvarchar(MAX)NullYZSnvarchar(MAX)NullYYJGnvarchar(MAX)NullPXnvarchar(MAX)NullWEIGHTnvarchar(MAX)Nullstudents表的各列信息如表2-2所示:表2-2

19、乙肝病毒检查数据表列名数据类型可否为空student_nonvarchar(255)Not nullstudent_sexnvarchar(255)NullHBsAgnvarchar(255)Null抗HBsnvarchar(255)NullHBeAgnvarchar(255)Null抗HBenvarchar(255)Null抗HBcnvarchar(255)Nulldisease表的各列信息如表2-3所示:表2-3 中青年人群调查表列名数据类型可否为空IDintNot nullsexnvarchar(255)NullagefloatNullprofessionnvarchar(255)Nul

20、lMarital Statusnvarchar(255)Nullowncarnvarchar(255)Nullemotionnvarchar(255)Nulltirednessnvarchar(255)Nullexercisenvarchar(255)Nulldietnvarchar(255)Nullsitting-upnvarchar(255)Nullpettingnvarchar(255)Nulldrinknvarchar(255)Nullsmokingnvarchar(255)Nullfamilial medical historynvarchar(255)Nullfatnessnvar

21、char(255)Nullhypertensionnvarchar(255)Nullblood sugarnvarchar(255)Nullblood fatnvarchar(255)Nulldiabetesnvarchar(255)Nullcoronary heart diseasenvarchar(255)Null第3章 关联规则挖掘3.1 案例背景病毒性肝炎是我国最严重和最常见的传染病之一,特别是乙型病毒性肝炎,目前我国仍有约1.2亿人持续携带乙型肝炎病毒,3千万例慢性乙肝患者中部分演变成了肝硬化,进而引发肝癌,每年死于肝炎及其并发症的患者达四十万人,医疗费用达数百亿元。所以如何预防和治

22、疗乙型肝炎已经成为一个重要的课题,对学校每年新生入学体检乙型肝炎病毒的检验是一个重要的检查对象。目前多采用微生物学检查法,即乙型肝炎抗原、抗体检测。目前主要用血清学方法检测HBsAg、抗HBs、HBeAg、抗HBe、抗HBc(俗称“两对半”)。HBcAg仅存在于肝细胞内,也不用于常规检查。HBsAg的检测最为重要,可发现无症状携带者,是献血员筛选的必检指标。“两对半”各项指标的意义如下:(1)乙型肝炎表现抗原(HBsAg):是感染了乙肝病毒的一个特异性标志。血清内HBsAg为阳性表示:急性乙肝的潜伏期和急性期;慢性乙肝病毒感染状态,包括无症状HBsAg携带者、慢性乙型肝炎、与乙肝病毒有关的肝硬

23、化和原发性肝癌。(2)乙型肝炎表面抗体(抗HBs):是一种保护抗体,表示曾经感染过乙肝病毒,不论临床上有无肝炎的表现,均表示患者现已恢复,并对乙肝病毒具有免疫力;注射乙肝疫苗后,产生抗HBs表示具有免疫力。(3)乙型肝炎核心抗体(抗HBc):包括抗HBc总抗体、核心抗体免疫球蛋白M(抗HBc-lgM)和核心抗体免疫球蛋白G(抗HBc-lgG)。抗HBc出现于急性乙型肝炎的急性期,恢复后可持续数年或更长,滴度则逐渐下降。慢性乙肝病毒感染者,抗HBc持续阳性。单项抗HBc阳性表示过去可能感染过乙肝病毒,其临床意义需与其他指标结合而判断。分别测抗HBc-lgM和lgG更有意义。急性乙肝病人抗lgM呈

24、高滴度阳性,特别对于HBsAg已转阴的病人,抗HBc-lgM下降的速度与患者病情相关,下降快预后好,1年内不降至正常或滴度高低呈反复现象者均提示转为慢性肝炎的可能。慢性乙肝活动期抗HBc-lgM呈中滴度阳性,并可区分活动期和非活动期。抗HBc-lgG出现时间较迟于HBc-lgM,主要见于恢复期和慢性感染。(4)乙型肝炎e抗原(HBeAg):由于HBeAg是核心抗原的成分,其阳性和滴度常反映乙肝病毒的复制及判断传染性的强弱。急性乙肝时HBeAg呈短暂阳性,如持续阳性则提示转为慢性,在慢性乙肝病毒感染时,HBeAg阳性常表示肝细胞内有乙肝病毒活动性复制,当HBeAg转阴,伴有乙型肝炎e抗体(抗HB

25、e)转阳,常提示乙肝病毒停止复制。(5)乙型肝炎e抗体(抗HBe):出现于急性乙肝的恢复期,可持续较长时间。慢性乙肝病毒感染时,如抗HBe阳性,HBeAg常为阴性,表示乙肝病毒无明显活动性复制,传染性较弱,临床上慢性肝病的活动性较低。3.2 数据来源从某校门诊体检系统中导出了乙肝病毒检查数据表,得到了5170条检验数据记录。部分数据如下图3-1所示,数据表名是students。图3-1 students表3.3 关联规则的应用3.3.1 Microsoft SQL Server 2005 Analysis Services操作步骤关联规则算法的具体步骤如下:1.打开Analysis Servi

26、ce集成环境界面依次执行“开始”“所有程序”“Microsoft SQL Server 2005”“SQL Server Business Intelligence Development Studio”命令,打开Analysis Service集成环境界面。2.新建项目(1)执行菜单栏的“文件”“新建”“项目”命令,打开如图3-3所示的“新建项目”对话框。(2)选中“Analysis Services”项目,分别在“名称”、“解决方案名称”文本框中,填写项目名称(students)和解决方案名称;在“位置”下拉文本框中,单击右侧的“浏览”钮,选择解决方案的保存路径。如图3-2所示。图3-2

27、“新建项目”对话框(3)单击“确定”按钮,返回集成环境的起始界面。3.创建数据源(1)在解决方案资源管理器中,右击“数据源”文件夹,在弹出的快捷菜单中选择执行“新建数据源”命令,进入欢迎界面。在欢迎界面上单击“下一步”按钮,进入“选择如何定义连接”界面(见图3-3)。(2)单击“新建”按钮,系统将打开“连接管理器”对话框,在“连接管理器”的“提供程序”列表中,选择“本机 OLE DBMicrosoft OLE DB Provider for SQL Server”选项;在“服务器名称”文本框中,输入“.”;选择“使用Windows身份验证”单选按钮;在“选择或输入数据库名称”列表框中,选择Me

28、dical DW选项;单击“确定”按钮。图3-3 “选择如何定义连接”窗口(3)单击“下一步”按钮,进入“模拟信息”窗口,选择“默认值”单选按钮。(4)单击“下一步”按钮,进入“完成向导”页对话框。数据源的默认名称为Medical DW。单击“完成”即完成了数据源的创建,新的数据源Medical DW将显示在解决方案资源管理器的“数据源”文件夹中。如图3-4所示。图3-4 解决方案资源管理器4.创建数据源视图(1)在解决方案资源管理器中,右击“数据源视图”选项,选择“新建数据源视图”命令。系统将打开数据源视图向导“选择数据源”窗口,在“关系数据源”区域下,系统将默认选中刚才创建的Medical

29、 DW数据源。(2)单击“下一步”按钮,打开“选择表和视图”窗口。(3)选择dbo.students表,单击右箭头键,将dbo.students包括在新数据源视图中。如图3-5所示。图3-5 创建数据源视图(4)单击“下一步”按钮,进入“完成向导”对话框,默认情况下,系统将数据源视图命名为 Medical DW。(5)单击“完成”按钮,系统将打开数据源视图设计器,显示Medical DW数据源视图。5. 创建关联规则挖掘结构(1)在解决方案资源管理器中,右击“挖掘结构”选项并选择“新建挖掘结构”命令,系统将打开数据挖掘向导窗口。(2)单击“下一步”按钮,进入“选择定义方法”窗口,选中“从现有关

30、系数据库或数据仓库”选项。(3)单击“下一步”按钮,进入“选择数据挖掘技术”窗口,在“您要使用何种数据挖掘技术?”区域下,选择“Microsoft 关联规则”选项。如图3-6所示。图3-6 选择Microsoft关联规则作为挖掘技术(4)单击“下一步”按钮,进入“选择数据源视图”窗口,已默认选中students在数据源视图中。(5)单击“下一步”按钮,进入“指定表类型”窗口,选中students表旁边“事例”列中的复选框。如图3-7所示。(6)单击“下一步”按钮,进入“指定定型数据”窗口,具体各复选框的选择情况如图3-8所示。(7)单击“下一步”按钮,进入“指定列的内容和数据类型”窗口。(8)

31、单击“下一步”按钮,进入“完成向导”对话框。 (9)在“挖掘结构名称”和“挖掘模型名称”文本框中输入“Students”。(10)选中“允许钻取”复选框。(11)单击“完成”按钮,进入数据挖掘设计器界面,如图3-9所示。图3-7 事例表图3-8 指定关联分析中所用的属性图3-9 MedicalDW关联规则挖掘结构视图6部署项目并处理挖掘模型(1)单击数据挖掘设计器中的挖掘模型查看器选项卡,Analysis Services 数据库将部署到服务器上,处理挖掘模型。首先会弹出两个提示框,均单击“是”按钮,打开“处理挖掘模型-Students”窗口,如图3-10所示。图3-10 处理挖掘结构(2)单

32、击“运行”按钮,打开“处理进度”窗口,显示有关模型处理的信息。模型处理需要的时间取决于计算机及数据量的规模。(3)处理完毕后,在“处理进度”和“处理挖掘结构”窗口中单击“关闭”按钮,Students挖掘模型即已生成。7.查看挖掘结果处理完成以后,选择“挖掘模型查看器”,第一个页面是挖掘到的频繁集,如图3-11所示,或者打开第二个页面,查看挖掘出来的规则,如图3-12所示,或者打开第三个页面,查看挖掘出来的依赖关系网络,如图3-13、3-14所示。图3-11 挖掘项集的结果图3-12 挖掘关联规则的结果图3-13 依赖关系网络所有较强链接图3-14 依赖关系网络最强的两个链接3.3.2模型解释M

33、icrosoft关联规则通过其查看器来解释,Microsoft 关联查看器包含三个选项卡:项集、规则、依赖关系网络。图3-11所示的“项集”选项卡显示了关联规则算法发现的频繁项集,显示了一系列频繁项集以及它们的支持度(发生项集的事务的数量)和大小(项集中项的数量)以及项集的实际构成。若要仅查看包含有关HBeAg的项集,可在“筛选项集”中输入HbsAg然后回车。我们将在查看器中看到,只有包含“HBsAg”字样的项集被显示,查看器中返回的每个项集都包含有关HBsAg的信息。图3-12所示的“规则”选项卡显示满足要求的关联规则、这些规则的概率和重要性分数。重要性分数的目的是用于测试规则的有效性。重要

34、性分数越高,则规则的质量越好。与项集选项卡相似,该选项卡也提供“最低支持选项”的选择。在规则选项中,可以发现一些比较有价值的规则。例如:HBsAg = HBsAg+ = 抗HBs = 抗HBs-。这条规则表示HbsAg为阳性,则抗HBs为阴性。根据医学知识可知,HbsAg为阳性时候,一般抗HBs是不可能阳性的。如果我们想知道有多少检验结果支持该规律,则可以使用“钻取”来快速得到支持这个规律的原始数据。关联规则查看器的第三个选项卡是“依赖关系网络”(如图3-13所示),该查看器中的每个节点表示一个项;例如,HBsAg = HBsAg+ 节点表示事务中存在HbsAg为阳性。通过选择节点,可以使用选

35、项卡底部的彩色图例来确定模型中的项与其他的项的相互确定关系。滑块与规则的概率关联,上下移动滑块可以筛选出强弱关联。例如,在“显示”框中,选择“仅显示属性名称”,再单击HBsAg = HBsAg+节点。查看器显示,HBsAg = HBsAg+预测了HBeAg = HBeAg +,抗HBs = 抗HBs -和抗HBc=抗HBc+。而抗HBe = 抗HBe+和HBeAg = HBeAg +也预测了HBsAg = HBsAg+。这意味着,这些项有可能同时在事务中出现。也就是说,如果某个同学HbsAg为阳性,则HbeAg也有可能为阳性,抗HBs 是阴性的可能性比较大。图3-13表示依赖关系网络所有较强链

36、接,图3-14表示依赖关系网络最强的两个链接。从图3-13可以看出,该关联规则被分为两类,一类包含HBsAg = HBsAg+,另一类包含HBsAg = HBsAg-。从图3-14可以看出所有关联规则中“HBsAg = HBsAg+ = HBeAg = HBeAg +”和“HBsAg = HBsAg- =抗HBs =抗HBs +”的置信度最大。这说明HBsAg是非常重要的指标,即HBsAg的检测对病毒性肝炎的诊断最为重要。由医学知识可知,HBsAg = HBsAg+表明:急性乙肝的潜伏期和急性期;慢性乙肝病毒感染状态,包括无症状HBsAg携带者、慢性乙型肝炎、与乙肝病毒有关的肝硬化和原发性肝癌

37、。HBeAg = HBeAg +表明:肝细胞内有乙肝病毒活动性复制。该最强规则表明:当急性乙肝处于潜伏期和急性期或者慢性乙肝病毒处于感染状态时,肝细胞内有乙肝病毒活动性复制。通过查看“规则”选项卡发现,HBsAg = HBsAg+ = HBeAg = HBeAg +的置信度为0.535,重要性为3.116,由关联规则的基本原理可以知道,关联规则由重要性和置信度共同决定,此最强关联规则的概率虽然不大,但重要性很大,说明该关联规则的关联性很强,这与临床经验相符。抗HBs =抗HBs + 表明病人有乙肝抗体;由“HBsAg = HBsAg- =抗HBs =抗HBs +”可以看出:如果HBsAg显阴性

38、,则抗HBs =抗HBs +,即病人很有可能具有抗体。由此可得,HBsAg的检测对乙肝的诊断最为重要,当 HBsAg为阳性时,病人很有可能有乙肝病毒;当 HBsAg为阴性时,病人很有可能有乙肝病毒抗体,这与临床经验相符。3.4小结关联规则反映一个事物与其他事物之间的相互依存性和关联性。如果两个或者多个事物之间存在一定的关联关系,那么,其中一个事物就能够通过其他事物预测到。关联规则挖掘分为产生频繁集和产生规则两个步骤。经典的关联规则挖掘算法包括由候选集产生频繁集的算法Apriori和不产生候选集的算法FP-tree。关联规则可以分为一维和多位关联规则,单层和多层关联规则,以及布尔型和数值型的关联

39、规则。在SQL Sever中,可以使用Analysis Services服务进行关联规则模型的建立和处理,以可视化的方式查看模型结果。第4章 分类挖掘4.1案例背景Microsoft SQL Server 2005 Analysis Services(SSAS))提供了Microsoft 决策树算法,用于对离散和连续属性进行预测性建模。 对于离散属性,该算法根据数据集中输入列之间的关系进行预测。对于连续属性,该算法使用线性回归确定决策树的拆分位置。本节将利用Microsoft 决策树算法,为新出生婴儿的体重是否正常建立一棵决策树,旨在为妇幼保健工作提供一些数值依据。因为婴儿出生体重不仅反映了宫

40、内胎儿的生长发育情况,对产后的生长发育、成年期心血管疾病、高血压、糖尿病等慢性疾病的发生也有着一定的影响。一般来说,新出生的婴儿体重如果低于2500克,则认为是低出生体重儿。4.2数据来源本实例使用的数据集是某地区医院新出生婴儿信息的一个样本数据集。整个数据集由100个实例组成,其中21个实例的婴儿出生体重属于低出生体重,其余的实例婴儿体重正常。数据集中共有9个属性,其中第9个属性表示婴儿出生体重是否正常, 部分数据如图4-1所示,数据表名是baby。各属性取值描述如下:u ID:主键u AGE:孕妇年龄,划分为三个区间,分别是: 20、2030、30u BABYSUM:胎数, 1表示单胎,2

41、表示双胎u FMFS:分娩方式,取值为“阴道分娩”、“剖宫分娩”u YZS:孕周数,取值为37、37(即早产)u YYJG:取值为“合理”、“不良”u PX:是否贫血,1表示无贫血,2表示贫血u BABYSEX:婴儿性别,1表示男,表示女u WEIGHT:婴儿出生体重是否正常,取值为“低出生体重”、“正常出生体重”图4-1某地区医院新出生婴儿信息的部分样本数据集4.3分类挖掘的应用4.3.1 Microsoft SQL Server 2005 Analysis Services操作步骤分类挖掘的具体步骤如下:1.打开Analysis Service集成环境界面2.新建项目3.创建数据源上述3个

42、步骤与第三章3.3.1节中的步骤13相同,这里不再赘述。4.创建数据源视图(1)在解决方案资源管理器中,右击“数据源视图”文件夹,在弹出的快捷菜单中选择执行“新建数据源视图”命令,打开数据源视图向导“选择数据源”界面,在“关系数据源”下,系统将默认选中刚才创建的Medical DW数据源。(2)单击“下一步”按钮,打开“选择表和视图” 界面。(3)在“选择表和视图” 界面中,选择dbo.baby表,单击右箭头键,将dbo.baby包括在新数据源视图中。如图4-2所示。图4-2 创建数据源视图(4)单击“下一步”按钮,进入“完成向导”对话框,将数据源视图命名为Medical DW。(5)单击“完

43、成”按钮,系统将打开数据源视图设计器窗口,显示Medical DW数据源视图。5.创建用于婴儿体重的挖掘结构(1)在解决方案资源管理器中,右击“挖掘结构”文件夹,在弹出的快捷菜看重选择执行“新建挖掘结构”命令,打开“数据挖掘向导”窗口。(2)在“欢迎使用数据挖掘向导” 界面中,单击“下一步”按钮,进入“选择定义方法”界面。(3)选中“从现有关系数据库或数据仓库”选项,单击“下一步”按钮,进入“选择数据挖掘技术” 界面。(4)在“您要使用何种数据挖掘技术?”下拉列表框中,选择“Microsoft 决策树”选项,如图4-3所示。图4-3选择Microsoft决策树作为挖掘技术(5)单击“下一步”按

44、钮,进入“选择数据源视图”界面,已默认选中Medical DW在数据源视图中。(6)单击“下一步”按钮,进入“指定表类型”界面,选中baby表旁边“事例”列中的复选框;单击“下一步”按钮,进入“指定定型数据”界面,如图4-4所示。(7)“键”列表示唯一可识别的字段,选中相应复选框即可,本例中选择字段“ID”。(8)“可预测”列用来选择类标号,本例中选择字段“WEIGHT”。(9)“输入”列表示分类的依据,根据所选的列构造决策树,本例中选中除主键和可预测列外的所有属性,选择的结果如图4-5所示。(10)单击“下一步”按钮,进入“指定列的内容和数据类型”界面。(11)单击“下一步”按钮,进入“完成

45、向导”界面,如图4-6所示。 在“挖掘结构名称”和“挖掘模型名称”中输入baby,选中“允许钻取”复选框,单击“完成”按钮,进入数据挖掘设计器界面,如图4-7所示。图4-4 选择baby作为事例表图4-5 指定决策树分析中所用的属性图4-6 完成决策树挖掘结构向导图4-7 数据挖掘编辑器界面6. 部署项目并处理挖掘模型(1)单击数据挖掘设计器中的挖掘模型查看器选项卡,Analysis Services 数据库将部署到服务器上,处理挖掘模型。首先会弹出两个提示框,均单击“是”按钮,打开“处理挖掘模型-baby”窗口。(2)单击“运行”按钮,打开“处理进度”窗口,显示有关模型处理的信息。(3)处理

46、完毕后,在“处理进度”和“处理挖掘结构”窗口中单击“关闭”按钮,baby决策树模型即已生成。4.3.2模型解释Analysis Services为每个算法提供单独的查看器。在本例中,对于决策树模型,使用的是Microsoft 树查看器。此查看器包含两个选项卡,即“决策树”和“相关性网络”。图4-8显示了Microsoft决策树查看器的屏幕快照,该图显示了baby-weight分类树模型。在该图中树是按水平的方式布局的,根节点在最左边。树中每一个节点包含一个柱状条,并且用不同的颜色来代表不同的状态。节点的底纹颜色越深,表示节点中的事例越多。选中树中的节点,可通过挖掘图例显示下列信息:l 节点中按

47、可预测属性的状态划分的事例的数目。l 节点的可预测属性的各种事例的概率。l 一个直方图,其中包含可预测属性的各种状态的数目。图4-8 决策树查看器访问某个特定节点所需的条件,也称为“节点路径”。本例中,选中“babynum=2”节点,挖掘图例显示如图3-15所示,表明在条件“babynum=2and 37”情况下,婴儿低出生体重占正常孕周样本的24.31%。 由于在创建数据挖掘结构时选择了“允许钻取”选项,即可访问支持某个节点的定型事例。右击树中的某节点,在弹出的快捷菜单中选择执行“钻取”命令。如“YZS37”的节点钻取的数据如图4-9所示(部分数据)。图4-9 钻取结果图4-10是决策树算法

48、的“依赖关系网络”选项卡。显示了模型中的输入属性和可预测属性之间的依赖关系。查看器左侧的滑块可起到与依赖关系强度相联系的筛选器作用。如果向下拉动滑块,查看器中显示的链接强度逐渐加大,本例中显示了“WEIGHT”与 “YZS”之间弱相关关系的联系。将滑块拉到最下面,系统显示强相关,如图4-11所示。图4-10 决策树查看器的依赖关系网络窗格图4-11 最强依赖关系通过上述分析,发现早产(孕周小于37周)和双胎是发生低出生体重儿的主要原因之一,其中以早产更为显著。因此应加强孕期检查,指导孕期卫生,对可能引起早产的因素给予充分重视,并予以纠正,以减少早产的发生,对孕期保健的指导具有重要意义。4.4小

49、结分类的主要目的是分析输入数据,通过在训练集中的数据表现出来的特性,为每一类找到一种准确的描述或模型。这种描述常常用谓词表示。由此生成的类描述用来对未来的测试数据进行分类。尽管这些未来的测试数据的类标签是位置的,我们仍可以由此预测这些新数据所属的类,但不能肯定。我们也可以由此对数据中的每一个类有更好的理解。也就是说,我们获得了关于这个类的知识。分类方法典型应用于信用卡系统中的信用分级、市场调查、疗效诊断、寻找店址等。第5章 聚类挖掘5.1案例背景Microsoft SQL Sever 2005 Analysis Services (SSAS)提供了Microsoft聚类分析算法。该算法使用迭代

50、技术将数据集中的事例分组为包含类似特征的分类。在浏览数据、标识数据中的异常及创建预测时,这些分组十分有用。Microsoft聚类分析算法提供下列两种方法来计算点在分类中的适合程度:Expectation Maximization (EM)和k-means。对于EM聚类分析,该算法使用一种统汁方法来确定分类中存在数据点的概率。对于k-means,该算法使用距离度量值将数据点分配给其最接近的分类。下面以“某城市年龄范围为25岁-55岁的中青年人调查数据样本”为例讲解Microsoft聚类分析的详细过程,且使用EM算法(Microsoft聚类分析算法的默认算法)。5.2数据来源对某城市年龄范围为25

51、岁55岁的中青年人群进行调查。调查数据项包括年龄、性别等项。部分数据如图5-1所示,数据表名是disease。图5-1部分调查数据集各属性的含义如表7-1所示:表5-1各属性的含义属性含义属性含义属性含义ID主键Tiredness熬夜familialmedical history家族心血管病史Sex性别Exercise运动锻炼习惯fatness肥胖情况Age年龄Diet个人饮食偏好hypertension血压Profession工作压力状况sitting-up早期习惯blood suger血糖Marital Status婚姻状况petting养宠物blood fat血脂Own car是否有车d

52、rink喝酒diabetes糖尿病Emotion情绪状态smoking吸烟coronary heartdisease冠心(心脏)病5.3聚类挖掘的应用5.3.1 Microsoft SQL Server 2005 Analysis Services操作步骤分类挖掘的具体步骤如下:1.打开Analysis Service集成环境界面2.新建项目3.创建数据源上述3个步骤与第三章3.3.1节中的步骤13相同,这里不再赘述。4.创建数据源视图(1)在解决方案资源管理器中,右击“数据源视图”文件夹,在弹出的快捷菜单中选择执行“新建数据源视图”命令,打开数据源视图向导“选择数据源”界面,在“关系数据源”

53、下,系统将默认选中刚才创建的Medical DW数据源。(2)单击“下一步”按钮,打开“选择表和视图” 界面。(3)在“选择表和视图” 界面中,选择dbo.disease表,单击右箭头键,将dbo.disease包括在新数据源视图中。(4)单击“下一步”按钮,进入“完成向导”对话框,将数据源视图命名为Medical DW。(5)单击“完成”按钮,系统将打开数据源视图设计器窗口,显示Medical DW数据源视图。5. 创建聚类分析挖掘结构(1)在解决办案资源管理器中,右击“挖掘结构”项并选择“新建挖掘结构”命令,系统将打开数据挖掘向导。(2)单击“下一步”按钮,进入“选择定义方法”窗口,选中“

54、从现有关系数据库或数据仓库”选项。(3)单击“下一步”按钮,进入“选择数据挖掘技术”窗口,在“您要使用何种数据挖掘技术?”下,选择“Microsoft聚类分析”单选按钮。(4)单击“下一步”按钮,进入“选择数据源视图”窗口,已默认选中Medical DW在数据源视图中。(5)单击“下一步”按钮,进入“指定表类型”窗口,选中disease表旁边“事例”列中的复选框。(6)单击“下一少”按钮,进入“指定定型数据”窗口,ID列选为键。其他各列都选中“输入”和“可预测”复选框,如图5-2所示。图5-2“指定定型数据”页面 (7)单击“下一步”按钮,进入“指定列的内容和数据类型”窗口。(8)单击“下一少

55、”按钮,进入“完成向导”对话框。在“挖掘结构名称”和“挖掘模型名称”文本框中输入“Disease”:选中“允许钻取”复选框。(9)单击“完成”按钮,进入数据挖掘设计器界面,如图5-3所示。图5-3 挖掘结构6. 部署项目并处理挖掘模型(1)单击数据挖掘设计器中的挖掘模型查看器选项卡,Analysis Services 数据库将部署到服务器上,处理挖掘模型。首先会弹出两个提示框,均单击“是”按钮,打开“处理挖掘模型-disease”窗口。(2)单击“运行”按钮,打开“处理进度”窗口,显示有关模型处理的信息。(3)处理完毕后,在“处理进度”和“处理挖掘结构”窗口中单击“关闭”按钮。5.3.2模型解

56、释Microsoft聚类分析通过其查看器来解释,SQL Server Analysis Server提供的聚类分析查看器有4个选项卡。聚类之问是相互联系的,通过单独的某一个视图难以理解挖掘模型,但可以同时使用这些视图。本小节将采用如下策略来理解模型,并最终给每一个聚类进行标识。(1)获得聚类的顶层视图。(2)选择一个聚类并且决定该聚类与其它的聚类有哪些地方小同。(3)确定所选择的聚类与相邻的聚类的不同点。(4)验证判断是否正确。(5)对聚类进行标识。(6)为所有剩余的聚类重复前面的步骤。 下面对这些步骤进行详细讲述:(1)获得顶层视图第一个视图提供了聚类的顶层视网:分类剖面图和分类关系图,这两

57、个视图结合起来提供了聚类模型的拓扑结构。在分类剖面图视图中,每一列对应于模型中的每一个聚类,每一行对应于一个属性。根据这样的设置,可以很容易的看出这些聚类之问的不同点。使用这个视图,可以选择一个感兴趣的属性,并且可以通过水平扫描来查看该属性在所有聚类中的分布。当对某一项感兴趣,可以查看该项相邻的单元或者统一聚类的其它单元,将会发现有关该聚类含义的更多信息。图5-4 在分类剖面图视图中显示连续值属性和二进制属性图5-4显示了Disease分类模型的分类剖面图视图的部分。通过该视图可以看出,分类1的血脂较高的人多,有冠心心脏病的人多;而分类6的血脂普遍正常,且都没有冠心病。分类剖面图视图以表格的形

58、式显示模型中的所有信息,这样很容易理解模型。二值型属性或者具有连续值的属性很容易辨别,对于具有连续值的属性,可以把该属性的值离散化为一组状态。如果想进一步浏览聚类,则通过分类剖面图视图来浏览是一个很好的方式。浏览了模型细节之后,可以利用其它的视图来浏览该模型。在分类关系图视图中,每一个聚类用一个节点表示。这些节点是分散在某个区域中,可以基于这些聚类的相似性对他们进行分组。该视图以图形方式显示了哪一些聚类相似或者不相似,并且显示了它们相似性的相对程度。通过使用分类关系图视图,可以在通过分类剖面图视图来浏览模型时获得的信息的基础上,进一步了解模型。比如在分类剖血图视图中发现分类1中有冠心病的比重很

59、高,在分类关系图视图中可以查看哪些与分类1相似,并且可以通过向下移动滑动条来隐藏弱的连接,留下强的连接,这样就可以确定哪一些聚类极为相似(参见图5-5)。通过以上分析可以发现分类1与其他分类相似性不大,这说明其它聚类中冠心病的比重不高。继续使用分类剖面图和分类关系图视图可以对模型的整个布局有比较清晰的认识。图图5-5显示聚类之间强(较黑)连接的分类关系视图(2)选择一个聚类并且找出与其它聚类之问的区别选择一个聚类做进一步分析。这时,选择哪一个聚类进行分析没有关系,一种选择聚类的方法是:选择与其它聚类有较强关联关系的某个聚类,或者选择一个看起来与其它聚类有很大区别的聚类,或者选择感兴趣的聚类。本

60、例选择聚类1。单击分类特征视图,该视图通过以递减概率显示属性来描述聚类事例的特征。图5-6显示分类1最重要的特征。图5-6 分类特征视图这个聚类的成员喜欢早起,工作强度大等,然而这些信息还不能作为该类的标识,因为可能其它类也喜欢早起和工作强度大,下面通过与其它类迸行比较来确定对于类1什么是最重要的。点击分类对比选项卡,图5-7将分类1与它的补充进行了比较。在这里可以看到冠心病才是类1最重要的特征。图5-7 聚类辨别和聚类的补充(3)确定一个聚类如何区别于相邻的聚类现在有了足够的信息来精确地标识这个聚类。然而,这个聚类可能非常相似于其它的聚类,并且在这个时候所做的标识适用于所有这些聚类。因此,必

61、须认真比较所选择的聚类与其相近的聚类。为了进行比较,进入分类关系图视图,看哪些聚类与感兴趣的聚类很接近。对于任何相邻的聚类,都必须回到分类对比视图中一个一个的比较这些聚类(如果与其它类相似性非常小,则可以不用比较)。本例中与聚类1相似的聚类强度都不大,相对来说,与类8和类10相似性大点。通过比较类1和8,可以看出这两个聚类的重要差异是劳动强度和是否早起;通过比较类1和10,可以看出这两个聚类的重要差异是是否养宠物。(4)验证判断是否正确此时,对所选择的属性已经有了比较好的理解。在分类特征视图中,可以确保其它视图不会误导你对聚类的理解。通过比较聚类与其相邻的聚类,并且对聚类进行改进的时候,就有可

62、能出现误导的情况。两个聚类之间的差别可能是由一个属性引起的,该属性在这两个聚类中都不常见,但是在其中一个聚类中更少见。本例中,通过对聚类1进行进一步验证,发现可以用“冠心病”标识”聚类1”,即聚类1的主要特征是有“冠心病”。(5)对聚类进行标识对聚类进行标识是一种非常简单的技术,只要在分类关系视图中,右击聚类节点,然后选择“重命名分类”。模型的标识对理解该模型和将来使用该模型有重要的性质。本例中类1可以命名为“冠心病”。通过以上分析发现,冠心病高发人群有如下特点:高血脂,高血压,很少运动,经常熬夜,工作压力大,有家族新血压或心脏病病史,都不养宠物。同时发现男性比例显著高于女性的发病率等。可以对这

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!