欢迎来到装配图网! | 帮助中心 装配图网zhuangpeitu.com!
装配图网
ImageVerifierCode 换一换
首页 装配图网 > 资源分类 > DOCX文档下载
 

大数据分析模型深度介绍

  • 资源ID:161946840       资源大小:323.95KB        全文页数:8页
  • 资源格式: DOCX        下载积分:15积分
快捷下载 游客一键下载
会员登录下载
微信登录下载
三方登录下载: 微信开放平台登录 支付宝登录   QQ登录   微博登录  
二维码
微信扫一扫登录
下载资源需要15积分
邮箱/手机:
温馨提示:
用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
支付方式: 支付宝    微信支付   
验证码:   换一换

 
账号:
密码:
验证码:   换一换
  忘记密码?
    
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

大数据分析模型深度介绍

大数据分析模型深度介绍白鸽学吧台鶴学吧1. 数据分析多层模型介绍这个金字塔图像是数据分析的多层模型,从下往上一共有六层:MakingDe问0 口占End UserBusings Ani.iDshi Analyst厂一Data Pre sen tat Jon 5Visuaiimfon TechniqueData MiningInformahon Discover/Data EyplorationSifllisikal Anafysi s. Querying & ReportingL“ata Warehouses J Data MartsOn- Line Anal/t 細 Proceising (OLAP)-、 DHAData- SourcesPap-e< FHes, lnfow4!iDn Provj.OrabaE底下第层称为Data Sources元数据层。比如说在生产线上,在生产的数据库里面,各种各样的数据,可能是银行的业务数据,也可能是电信运营商在交换机里面采 集下来的数据等等,然后这些生产的数据通过ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经 过抽取(extract)、转换(transform )、加载(load )至目的端的过程,通过这个过程,我们可以把需要的数据放到数据 仓库里面,那这个数据仓库就是多层模型中的第二层。数据仓库主要是给我们需要存放的数据提供一个物理基础,我们对数据进行分析,原材料都放在这个数据仓库里面,这几年 以来,除了数据仓库这个概念,还兴起了数据集市这个概念,数据集市其实就是部门级的数据仓库,规模比较小一点的数据 仓库。再上面一层是Data Exploration ,这层主要做统计分析的事情,比如我们算均值、标准差、方差、排序、求最小大值、中 位数、众数等等,这些统计学比较常用的指标,另外还有些SQL查询语句,总的来说主要是做一些目标比较明确,计算方 法比较清楚的事情。第四层是Data Mining数据挖掘层,数据挖掘与数据分析(统计分析)有什么区别呢,数据分析往往是统计量和算法比较 清楚,数据挖掘往往是目标不是很清楚,在实现目标的过程中采用什么方法不能确定,所以数据挖掘比数据分析难度要高很 多。第五层是数据展现层,把数据分析和数据挖掘得出来的结果通过数据展现层的图表、报表把他展现出来,也可以称为数据可 视化。最后把这些图表、报表交给决策者,以这个为基础做一些决策。2. 数据分析工具简介常用的数据分析工具,包括一些厂商的数据库产品,包括IBM的DB2、甲骨文的Oracle数据库。这些厂商的数据库本身带 有一些统计分析的包,里面有些标准的功能可以做数据分析工作,但用这些自带的数据分析工具功能相对不够专业。主要反 映在缺乏标准的统计函数,比如做一个线性回归模型,需要写一大堆SQL语句,甚至要写一个plsql程序才能完成。但是 在专业的统计软件只需要写一个简单的函数就可以完成。目前最主流的统计软件有R、SAS、SPSS , R是一个免费的开源软件。SAS大概是历史最悠久的统计软件,是一个商业软件,在60年代就诞生,在70年代以后逐渐商业化,发展到现在SAS已 经成为国际标准。SPSS也是一个历史悠久的统计软件,SPSS 一开始是一个仿真软件,后来演变成一个统计软件,目前已经发展成为一个数 据挖掘软件,目前被IBM收购,变成IBM旗下的一个产品,在社会学研究院领域有很多的应用。其他的还有一些软件,比如说水晶报表(Crystal Reports ),在做BI和报表非常擅长,另外如UCINET也是在社会学比较 常用的软件,它可以画群体的网络图,社交关系图非常擅长。3. 常用统计方法均值(mwn)* 即j n)ean=1 nT5umfS; Xn-t均值靛昶利用術有己知信至世是科畀當曲酚M鴻 犬値耐盧$中隧数(median)*排序启居于中旬僮置的教值,再序尺愷華用;,不龍充拮利用已剂附所育黃星倍空昼不喪畀第也胡附仓数(mode)*出理的披值|代翹分冇床时离出和 *名貨尺虞(封姐數堀)翥强最長值肉最小恆二垂range- - max-nun. i 更樓更醸辱當值範(variance)离均荐(爾矽信与均值之闻的雀)平斤的'jar=1/(ri- tysunnip(i-ni ean)rt2:*教搦分在期另穀(远聲均闿方盖轻大HI标准盖1(standard dev iat ion:卉差的平万银sJde¥=SaRT(vai5与数扌居玉身有咱同节重问'芸馬*偏度(sk&wness)劃画數拥在均値蒔侧(農迪霍的整异11 21 称強為:sk&wnss'nwti:inimed«i1 .右'偽強玮:釀旳E"沪(T也訓血; 方恨分和:£kMics£<0i m«ancm«diancniodeM(kurtosES)制棣分侖曲贱相討平书盛夹起趕既'kurtastE-3 -正在专布:讨ormci屈nbulicirM * knrtasis>3卩栋曲徒比左杏辱击玉15;kurtQ?is<Jt分布曲绒比正志牙宿平靈;4. 数据挖掘数据挖掘是以查找隐藏在数据中的信息为目标的技术,是应用算法从大型数据库中提取知识的过程,这些算法确定信息项之 间的隐性关联,并且向用户显示这些关联。数据挖掘思想来源:假设检验,模式识别,人工智能,机器学习常见数据挖掘任务:关联分析,聚类分析,孤立点分析等等例:啤酒与尿布的故事5. 展现层:报表与图形展现层在数据分析中是一个很重要的组成部分,在大家的心目中数据分析软件只是读数据和算数据,结果算出来就OK了。 但其实结果算出来以后对于数据分析还远没有结束,还需要把结果展现出来,有些时候可能结果的展现比计算花的时间还要 多。下图是一个比较老土的报表。如果那这种报表给老板看,那体验效果肯定很差,其实人的特点对数字的感觉不敏感,如果你那一大堆数字组成的报表给老 板看,老板肯定不是很高兴。人对图形会比较敏感,所以在统计学里面通常有比较标准的图,如饼图、柱形图(垂直和水平)、虚线图、水泡图、鱼骨图、 箱线图等等。F面是一张在地图上展现数据的展现形式F图是关于使用安卓手机的数据展现根据信息图显示,An droid先生的头发有47%的可能是黑色的,戴眼镜的几率为37%,有36%的可能是 北美人,30%的可能脸上长雀斑。71%的时间会穿T恤下身穿牛仔裤的时间占了 62%。工作只占了 38%, 玩游戏却占了 62%,平均每个月会用掉582MB的数据流量。这种图称为信息图,在数据分析这个行业里 面,是数据展现工作的主要组成部分。

注意事项

本文(大数据分析模型深度介绍)为本站会员(jin****ng)主动上传,装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知装配图网(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!