年大数据行业深度梳理总结30

上传人:沈*** 文档编号:82478716 上传时间:2022-04-29 格式:DOCX 页数:30 大小:417.42KB
收藏 版权申诉 举报 下载
年大数据行业深度梳理总结30_第1页
第1页 / 共30页
年大数据行业深度梳理总结30_第2页
第2页 / 共30页
年大数据行业深度梳理总结30_第3页
第3页 / 共30页
资源描述:

《年大数据行业深度梳理总结30》由会员分享,可在线阅读,更多相关《年大数据行业深度梳理总结30(30页珍藏版)》请在装配图网上搜索。

1、2014年大数据行业深度梳理总结大数据时代不是突然出现的,实际上过去的几十年间,数学分析就已经涉猎金融行业了,诺贝尔经济学奖获得者哈里.马克维茨、威廉.夏普、罗伯特.恩格尔就是利用计量经济学知识和金融市场数据来建立数学模型,预测金融市场产品收益同风险波动的关系。大数据时代的出现简单的讲是海量数据同完美计算能力结合的结果。确切的说是移动互联网、物联网产生了海量的数据,大数据计算技术完美地解决了海量数据的收集、存储、计算、分析的问题。大数据时代开启人类社会利用数据价值的另一个时代。首先来介绍一下大数据时代中新出现的数据类型:1)过于一些记录是以模拟形式方式存在的,或者以数据形式存在但是存贮在本地,

2、不是公开数据资源,没有开放给互联网用户,例如音乐、照片、视频、监控录像等影音资料。现在这些数据不但数据量巨大,并且共享到了互联网上,面对所有互联网用户,其数量之大是前所未有。举个例子Facebook每天有18亿张照片上传或被传播,形成了海量的数据。2)移动互联网出现后,移动设备的很多传感器收集了大量的用户点击行为数据,已知IPHONE有3个传感器,三星有6个传感器。它们每天产生了大量的点击数据,这些数据被某些公司所有拥有,形成用户大量行为数据。3)电子地图如高德、百度、Google地图出现后,其产生了大量的数据流数据,这些数据不同于传统数据,传统数据代表一个属性或一个度量值,但是这些地图产生的

3、流数据代表着一种行为、一种习惯,这些流数据经频率分析后会产生巨大的商业价值。基于地图产生的数据流是一种新型的数据类型,在过去是不存在的。4)进入了社交网络的年代后,互联网行为主要由用户参与创造,大量的互联网用户创造出海量的社交行为数据,这些数据是过去未曾出现的。其揭示了人们行为特点和生活习惯。5)电商户崛起产来了大量网上交易数据,包含支付数据,查询行为,物流运输、购买喜好,点击顺序,评价行为等,其是信息流和资金流数据。6)传统的互联网入口转向搜索引擎之后,用户的搜索行为和提问行为聚集了海量数据。单位存储价格的下降也为存储这些数据提供了经济上的可能。我们所指的大数据不同与过去传统的数据,其产生方

4、式、存储载体、访问方式、表现形式、来源特点等都同传统数据不同。大数据更接近于某个群体行为数据,它是全面的数据、准确的数据、有价值的数据。一、大数据时代带给我们的思考1)大数据计算提高数据处理效率,增加人类认知盈余大数据技术就像其他的技术革命一样,是从效率提升入手。大数据技术平台的出现提升了数据处理效率。其效率的提升是几何级数增长的,过去需要几天或更多时间处理的数据,现在可能在几分钟之内就会完成。大数据的高效计算能力,为人类节省了更多的时间。我们都知道效率提升是人类社会进步的典型标志,可以推断大数据技术将带领人类社会进入另外一个阶段。通过大数据计算节省下来的时间,人们可以去消费,娱乐和创造。未来

5、大数据计算将释放人类社会巨大的产能,增加人类认知盈余,帮助人类更好地改造世界。2)大数据通过全局的数据让人类了解事物背后的真相相对于过去的样本代替全体的统计方法,大数据将使用全局的数据,其统计出来的结果更为精确,更接事物真相,帮助科学家了解事物背后的真相。大数据带来的统计结果将纠正过去人们对事物错误的认识,影响过去人类行为、社会行为的结论,带来全新的认知。有利于政府、企业、科学家对过去人类社会的各种历史行为真正原因的了解,大数据统计将纠正样本统计误差,为统计结论不断纠错。大数据可以让人类更加接近了解大自然,增加对自然灾害原因的了解。3)大数据有助于了解事物发展的客观规律,利于科学决策大数据收集

6、了全局的数据,准确的数据,通过大数据计算统计出了解事物发展过程中的真相,通过数据分析出解人类社会的发展规律,自然界发展规律。利用大数据提供的分析结果来归纳和演绎出事物的发展规律,通过掌握事物发展规律来帮助人们进行科学决策,大数据时代的精准营销就是典型的应用。4)大数据提供了同事物的连接,客观了解人类行为在没有大数据之前,我们了解人类行为的数据往往来源于一些被动的调查表格及滞后的统计数据。拥有了大数据技术之后,大量的传感器如手机APP、摄像头、分享的图片和视频等让我们更加客观的了解人类的行为。大数据技术连接了人类行为,通过大数据将人类的行为数据收集起来,经过一定的分析后来统计人类行为,帮助我们了

7、解人类的行为。可以说大数据的一个重要作用就是将人类行为数据进行收集分析,了解人类行为特点,为数据价值的商业运用提供基础资产5)大数据改变过去的经验思维,帮助人们建立数据思维人类社会的发展一直都在依赖着数据,无论是各国文明的演化,农业的规划,工业的发展,军事战役及政治事件等。但是出现大数据之后,我们将会面对着海量的数据,多种维度的数据、行为的数据、情绪的数据、实时的数据。这些数据是过去没有了解到的,通过大数据计算和分析技术,人们将会得到不同的事物真相,不同的事物发展规律。依靠大数据提供的数据分析报告,人们将会发现决定一件事、判断一件事、了解一件事不再变得困难。各国政府和企业将借助于大数据来了解民

8、众需求,抛弃过去的经验思维和惯性思维,掌握客观规律,跳出历史预测未来的困境。二、大数据的企业应用场景大数据时代最有意义就是利用大数据及大数据技术创造价值,大数据的企业应用场景就是介绍大数据在行业的应用,体现大数据商业价值。大数据的应用场景会将提升企业对大数据的关注,鼓励企业大数据产业中投入更多的资源,利用大数据这个工具,为人类社会造福。大数据的应用可以分为企业应用和政府应用,其关注点有所不同,我们分开介绍,先从大数据在企业应用开始谈起。1)医疗行业医疗行业拥有大量的病例,病理报告,治愈方案,药物报告等等。如果这些数据可以被整理和应用将会极大地帮助医生和病人。我们面对的数目及种类众多的病菌、病毒

9、,以及肿瘤细胞,其都处于不断的进化的过程中。在发现诊断疾病时,疾病的确诊和治疗方案的确定是最困难的。在未来,借助于大数据平台我们可以收集不同病例和治疗方案,以及病人的基本特征,可以建立针对疾病特点的数据库。如果未来基因技术发展成熟,可以根据病人的基因序列特点进行分类,建立医疗行业的病人分类数据库。在医生诊断病人时可以参考病人的疾病特征、化验报告和检测报告,参考疾病数据库来快速帮助病人确诊,明确定位疾病。在制定治疗方案时,医生可以依据病人的基因特点,调取相似基因、年龄、人种、身体情况相同的有效治疗方案,制定出适合病人的治疗方案,帮助更多人及时进行治疗。同时这些数据也有利于医药行业开发出更加有效的

10、药物和医疗器械。医疗行业的数据应用一直在进行,但是数据没有打通,都是孤岛数据,没有办法起大规模应用。未来需要将这些数据统一收集起来,纳入统一的大数据平台,为人类健康造福。政府和医疗行业是推动这一趋势的重要动力。2)生物技术主要是指大数据技术在基因分析上的应用,通过大数据平台人类可以将自身和生物体基因分析的结果进行记录和存储,利用建立基于大数据技术的基因数据库。大数据技术将会加速基因技术的研究,快速帮助科学家进行模型的建立和基因组合模拟计算。基因技术是人类未来战胜疾病的重要武器,借助于大数据技术的应用,人们将会加快自身基因和其它他生物的基因的研究进程。未来利用生物基因技术来改良农作物,利用基因技

11、术来培养人类器官,利用基因技术来消灭害虫都即将实现。3)金融行业大数据在金融行业应用范围较广,典型的案例有花旗银行利用IBM沃森电脑为财富管理客户推荐产品,美国银行利用客户点击数据集为客户提供特色服务,如有竞争的信用额度。,招商银行利用客户刷卡、存取款、电子银行转帐、微信评论等行为数据进行分析,每周给客户发送针对性广告信息,里面有顾客可能感兴趣的产品和优惠信息。大数据在金融行业的应用可以总结为以下五个方面:精准营销:依据客户消费习惯、地理位置、消费时间进行推荐风险管控:依据客户消费和现金流提供信用评级或融资支持,利用客户社交行为记录实施信用卡反欺诈决策支持:利用抉策树技术进抵押贷款管理,利用数

12、据分析报告实施产业信贷风险控制效率提升:利用金融行业全局数据了解业务运营薄弱点,利用大数据技术加快内部数据处理速度产品设计:利用大数据计算技术为财富客户推荐产品,利用客户行为数据设计满足客户需求的金融产品4)零售行业零售行业大数据应用有两个层面,一个层面是零售行业可以了解客户消费喜好和趋势,进行商品的精准营销,降低营销成本。另一层面是依据客户购买产品,为客户提供可能购买的其它产品,扩大销售额,也属于精准营销范畴。另外零售行业可以通过大数据掌握未来消费趋势,有利于热销商品的进货管理和过季商品的处理。零售行业的数据对于产品生产厂家是非常宝贵的,零售商的数据信息将会有助于资源的有效利用,降低产能过剩

13、,厂商依据零售商的信息按实际需求进行生产,减少不必要的生产浪费。5)电商电商是最早利用大数据进行精准营销的行业,除了精准营销,电商可以依据客户消费习惯来提前为客户备货,并利用便利店作为货物中转点,在客户下单15分钟内将货物送上门,提高客户体验。马云的菜鸟网络宣称的24小时完成在中国境内的送货,以及京的刘强东宣传未来京东将在15分钟完成送货上门都是基于客户消费习惯的大数据分析和预测。电商可以利用其交易数据和现金流数据,为其生态圈内的商户提供基于现金流的小额贷款,电商业也可以将此数据提供给银行,同银行合作为中小企业提供信贷支持。由于电商的数据较为集中,数据量足够大,数据种类较多,因此未来电商数据应

14、用将会有更多的想象空间,包括预测流行趋势,消费趋势、地域消费特点、客户消费习惯、各种消费行为的相关度、消费热点、影响消费的重要因素等。依托大数据分析,电商的消费报告将有利于品牌公司产品设计,生产企业的库存管理和计划生产,物流企业的资源配制,生产资料提供方产能安排等等,有利于精细化社会化大生产,有利于精细化社会的出现。6)农牧业大数据在农业应用主要是指依据未来商业需求的预测来进行农牧产品生产,降低菜贱伤农的概率。同时大数据的分析将会更见精确预测未来的天气气候,帮助农牧民做好自然灾害的预防工作。大数据同时也会帮助农民依据消费者消费习惯决定来增加哪些品种的种植,减少哪些品种农作物的生产,提高单位种植

15、面积的产值,同时有助于快速销售农产品,完成资金回流。牧民可以通过大数据分析来安排放牧范围,有效利用牧场。渔民可以利用大数据安排休渔期、定位捕鱼范围等。三、大数据的政府应用场景大数据另外一个重要应用领域就是在政府。利用提供的全局的数据、准确的数据、高效的数据,政府可以实现精细化管理。政府过去一直都在利用数据来进行管理,但是过去由于没有高效的数据处理平台,造成了很多数据只是在收集,没有体现其社会价值。由于缺少全局的数据和完善的数据,数据自身没有体现其应用的价值,所以在过去政府不重视数据价值。依托于大数据和大数据技术,政府可以及时得到更加准确信息,利用这些信息,政府可以更加高效的管理国家这部机器,实

16、现精细化资源配置和宏观调控。1)交通交通的大数据应用主要在两个方面,一方面可以利用大数据传感器数据来了解车辆通行密度,合理进行道路规划包括单行线路规划。另一方面可以利用大活数据来实现即时信号灯调度,提高已有线路运行能力。科学的安排信号灯是一个复杂的系统工程,必须利用大数据计算平台才能计算出一个较为合理的方案。科学的信号灯安排将会提高30左右已有道路的通行能力。在美国,政府依据某一路段的交通事故信息来增设信号灯,降低了50%以上的交通事故率。机场的航班起降依靠大数据将会提高航班管理的效率,航空公司利用大数据可以提高上座率,降低运行成本。铁路利用大数据可以有效安排客运和货运列车,提高效率、降低成本

17、。2)天气预报借助于大数据技术,天气预报的准确性和实效性将会大大提高,预报的及时性将会大大提升,同时对于重大自然灾害,例如龙卷风,通过大数据计算平台,人们将会更加精确地了解其运动轨迹和危害的等级,有利于帮助人们提高应对自然灾害的能力。天气预报的准确度的提升和预测周期的延长将会有利于农业生产的安排。3)农牧业由于农产品不容易保存,因此合理种植和养殖农产品对十分重要。如果没有规划好,容易产生菜贱伤农的悲剧。过去出现的猪肉过剩、卷心菜过剩、香蕉过剩的原因就是农牧业没有规划好。借助于大数据提供的消费趋势报告和消费习惯报告,政府将为农牧业生产提供合理引导,建议依据需求进行生产,避免产能过剩,造成不必要的

18、资源和社会财富浪费。农业关乎到国计民生,科学的规划将有助于社会整体效率提升。大数据技术可以帮助政府实现农业的精细化管理,实现科学决策。在数据驱动下,结合无人机技术,农民可以采集农产品生长信息,病虫害信息。相对于过去雇佣飞机成本将大大降低,同时精度也将大大提高。4)医药卫生食品安全问题直是国家的重点关注问题,关系大人们的身体健康和国家安全。最近几年外国旅游者减少了到中国旅游,进口食品大幅度增加,食品安全问题是其中的一个重要原因。在数据驱动下,采集人们在互联网上提供的举报信息,国家可以掌握部分乡村和城市的死角信息,挖出不法加工点,提高执法透明度,降低执法成本。国家可以参考医院提供的就诊信息,分析出

19、涉及食品安全的信息,及时进行监督检查,第一时间进行处理,降低已有不安全食品的危害。参考个体在互联网的搜索信息,掌握流行疾病在某些区域和季节的爆发趋势,及时进行干预,降低其流行危害。政府可以提供不安全食品厂商信息,不安全食品信息,帮助人们提高食品安全意识。5)宏观调控和财政支出政府利用大数据技术可以了解各地区的经济发展情况,各产业发展情况,消费支出和产品销售情况,依据数据分析结果,科学地制定宏观政策,平衡各产业发展,避免产能过剩,有效利用自然资源和社会资源,提高社会生产效率。大数据还还可以帮助政府进行监控自然资源的管理,无论是国土资源、水资源、矿产资源、能源等,大数据通过各种传感器来提高其管理的

20、精准度。同时大数据技术也能帮助政府进行支出管理,透明合理的财政支出将有利于提高公信力和监督财政支出。大数据及大数据技术带给政府的不仅仅是效率提升、科学决策、精细管理,更重要的是数据治国、科学管理的意识改变,未来大数据将会从各个方面来帮助政府实施高效和精细化管理。政府运作效率的提升,决策的科学客观,财政支出合理透明都将大大提升国家整体实力,成为国家竞争优势。大数据带个国家和社会的益处将会具有极大的想象空间。6)社会群体自助及犯罪管理国家正在将大数据技术用于舆情监控,其收集到的数据除了解民众诉求,降低群体事件之外,还可以用于犯罪管理。大量的社会行为正逐步走向互联网,人们更愿意借助于互联网平台来表述

21、自己的想法和宣泄情绪。社交媒体和朋友圈正成为追踪人们社会行为的平台,正能量的东西有,负能量的东西也不少。一些好心人通过微博来帮助别人寻找走失的亲人或提供可能被拐卖人口的信息,这些都是社会群体互助的例子。国家可以利用社交媒体分享的图片和交流信息,来收集个体情绪信息,预防个体犯罪行为和反社会行为。最近警方通过微搏信息抓获了聚众吸毒的人,处罚了虐待小孩的家长。四、大数据技术及厂商由于本篇文章主要的目的是进行大数据知识普及,因此在大数据技术和平台方面就不进行深入探讨,主要介绍一些典型的大数据技术和行业解决方案,具体的大家可以参考赵刚老师的大数据技术与应用实践指南,以及迈克尔.梅内里(MichaelMi

22、nelli)大数据分析决生互连网金融时代(BIGDATABIGANALYTICS)。以下内容主要来源于以上两本书。大数据技术必谈的Hadoop和MapReduce.Hadoop的最早创始人是DougCutting(曾经在雅虎公司工作,现在Cloudera工作)和MikeCafrella.他们当时在从事一个名为Nutch的开源项目,该项目主要致力于创建Web海量检索框架,在研究过程中他们参考了google的MapReduce和GFS(GoogleFilesSystem)的技术,开发出Hadoop数据处理平台。Hadoop的名称来源于Doug的儿子为一只黄毛绒玩具长毛象取的名字。Hadoop主要特

23、点是,运行在标准硬件之上的Hadoop可以以传统解决方案1/10的成本从海量的数分析分析复杂问题,可以胜任收搜索系统、登录系统、推荐系统、数据仓库、语音/图像分析等。其是一个开源软件,同传统的技术不Hadoop能在它原有格式里存储任意种类数据,并基于这些数据衍生一系列分析和变化。可以廉价的存储百万兆(Terabyte)甚至千万亿字节(Petabyte)数据。HDFS和MapReduece是其两个关键要素。HDFS将数据分成若干片段后分布存储在集群中的不同服务器上。每台服务器只存储数据的若干片段,并且数据的每个片段被冗余存储在多个服务器之上。分析工作可以在存储数据的每个服务器上并行计算分析。每台

24、服务同时对自己存储的数据片段进行分析并将结果范围,最后在汇总计算为一个详尽的分析结果,MapReduce就是这种收集和汇总分析结果代理。主流的大数据厂商分为大数据分析基础设施,大数据操作基础设施,大数据基础云服务,传统结构化数据库,商业智能,可视化领域等,下面将一一介绍。1)大数据分析基础设施主要指Hadoop的发行版本产品,主要厂商有Cloudera,Hortonworks,MapR.其他还包括HP的Vertica,EMC的GreenplumHD,IBM的BigInsights2)大数据操作基础设施主要是指企业级的NoSQL数据库和SQLonHadoop产品。主要产品有Caouchbase,

25、Hadapt,Teredata,Marklogic等3)大数据基础云服务(IAAS)基于大数据基础设施提供云服务的有AmazonWebServiceElasticMapReduce、GoogleBigQuery、Infochimps、MicrosoftWindowsAzure,阿里云等4)关系型数据库关系型数据库产品Oracle、MicrosoftSQLserver、SAPSybase、IBMDB2、MySQL、PostgreSAL,MemSQL等5)数据云服务(DAAS)DaaS的服务主要有WindowsAzureMarketplace、Datasift、SpaceCurve、Factual

26、等6)商业智能产品BI产品主要有Oracle的Hyperion、SAPBusinessObjects,MicrosoftBusinessIntelligence、IBMCongnos,SAS,HP的Autonomy、QlikView等这些产品通常具有分析和可视化能力。7)分析和可视化应用主要产品有SAS,TeraDataAster,EMCGreenplum,TableauSoftware,Tibco等。8)日志应用主要产品有Splunk、Loggly、SumoLogic。其中Splunk是一个可运行于各种平台的IT数据、日志分析软件。9)广告媒体应用主要产品有MediaScience、Bluc

27、efinLaps、RocketFuelDataXu,RecordedFuture.其中RocketFuel是一家广告优化公司,每天处理15亿次品牌广告展示,广告效果完全基于数据来改善。10)垂直应用主要有PredictivePliciing、BloomReach,Myrrix,Atigeo.其中BloomReach公司面向市场开发大数据应用(BDA),通过机器学习,网络爬虫和搜索技术来挖掘数据,对网站的数据进行分析,然后为网站带来更多的流量,从而给他们的客户带来更多的利润。国内的互联网企业在大数据应用和研发方面处于较好的水平例如淘宝、百度、腾讯、新浪等。但是在大数据产品和技术服务领域却落后于国

28、际厂商。国际主流大数据产商包括Cloudera、Hortonworks、MapR,IBM,Oracle,EMC,Intel,SAP,Teredata。具体的解决方案请参考赵刚老师的书大数据技术与应用实践指南五、大数据产业链介绍由于大数据及大数据技术是一个工具,无法像互联网企业那样形成一个大数据生态圈,形成闭环。但是从数据的收集,存贮,处理,分析,销毁等方面分析,可以形成大数据产业链。数据的收集主要是指各种数据通过传感器或其他方式被采集,大数据的的采集除了传统的互连网入口、社交平台、搜索引擎、电商交易数据、在线问答、企业业务数据外,移动互联网的App将是一个重要的数据入口,例如通过手机APP内嵌

29、的SDK将手机App上的用户行为数据集中进行收集和处理,TalkingData目前是这一领域的领先的大数据厂商,他们既有大数据又有数据管理平台DMP。摄像头采集的数据、导航地图的轨迹数据、物流信息、移动互联网App的LBS位置数据等都大数据的重要来源。在这个阶段主要是指拥有大数据的公司例如BAT,通讯行业、互联网企业、物流行业、零售行业、医疗行业等,它们需要大数据采集和存储产品。数据的存储主要是指利用何种方式进行数据存贮,对于中小企业,云存储是以个不错的原则,对于金融行业和其他对数据保有权较为重视的企业,私有云将是一个不错的选择。政府主导的大数据存储平台可以作为参考。如果认为云平台无法采用时,

30、采用低端的并行计算机可能是一个经济的方案,但是由于没有云操作系统,其存储的效率是个较大的挑战。EMC、NetAPP、日立的NAS存储可以考虑。SAN存储由于成本过高,不建议用于大数据存储,但是土豪除外。数据处理数据处理主要是指数据处理平台,采用了SAAS概念的大数据处理平台都可以考虑,企业在考虑处理平台时建议,循序渐进,以未来2年内的数据处理量为参考,千万不要一次投资到位,因为数据处理的技术发展是几何级数的,两年后采用新的技术平台,其ROI将会大大降低,采用Cloudera,Hortonworks,MapR的Hadoop产品都可以,如果其在中国没有成熟团队建议考虑IBM,HP,Oracle的解

31、决方案,他们的案例较多。数据分析主要是指如何对处理完的数据进行商业分析,业务需求和技术需求必须有本企业技术和商业人员主导,外部厂商很难了解企业自身的商业需求,但是数据展现形式和分析方式可以交给厂商来做,主要涉及的厂商是传统的商业智能产品和可视化应用,包括Oracle的Hyperion、Teredata、SAPBusinessObjects,IBMCongnos,SAS,HP的Autonomy、QlikView等。数据销毁主要是指数据如何进行安全管理,对于不再需要的数据如何进行销毁,鉴于数据的数量较大,存储需要重用,因此数据索引删除、数据空间7次重写,数据混淆、数据对称加密等方式都可以用作数据销

32、毁,目前此阶段市场需求不多,因此还没有较为成熟的方案和厂商,未来将会用安全厂商进入此领域。由于目前大数据产业的商业模式和盈利模式还在探索之中,大数据带来的直接收益还没有明确,目前主要的商业形式还是大数企业自身的大数据应用(例如,大数据计算平台,大数据采集和分析,数据分析报告),行业应用处于一个探索的阶段,在大数据较为集中的电信行业,并没有成立数据事业部,数据被当作资产良好的保存起来,国外的大数据投资在2005年就开始了,很多高科技企业已经大数产业链上投入巨资进行技术开发和行业应用。六、大数据隐私保护大数据的隐私和伦理已经争论了很多年,由于其涉及我们每个人的自身利益,大数据隐私保护是大数据产业需

33、要正面面对的问题。大数据在采集过程中必定会涉及到隐私数据,的收集,如果其保护的不好将会造成严重的后果,成为大数据产业发展的瓶颈。过度强调大数据的商业应用而忽视了大数据产业的隐私保护,将会产生灾难性的后果,大数据产业的发展可能会因此被禁止。过度强调隐私保护而不发展大数据产业也是一个错误的选择,人类可能会错失一个高速发展的机遇。大数据产业发展要建立在隐私保护基础之上,同时隐私保护也将通过适当约束来助推大数据产业的发展。大数据企业在采集外部数据时,应该注意尽量不要收集可以识别出个人的PII信息,参照美国个人隐私定义者,PII信息包括姓名、地址、手机号码、身份证号、驾驶证号、银行帐号、借记卡信用卡号。

34、大数据企业在使用自身拥有的信息时也要注意保护敏感信息例如民族、政治意见、宗教信仰、健康医疗信息,婚姻状况、性生活、年龄、性别、犯罪记录、个人喜好、标准IP地址等。大数据企业应该在其公司的章程和文件中体现对个人隐私数据的保护,坚持遵守全球隐私保护7条原则;1)知晓权(透明性):应该通知本人关于所收集信息的目的2)选择权:提供机会选择或放弃所提供的个人信息是否被使用或如何被使用3)同意权:再符合知晓权和选择权的情况下才可以向第三方透露个人数据信息4)安全权:采取负责的措施保护个人信息免受丢失、滥用、未授权获取、泄露、篡改、毁坏的威胁5)数据完整性:确保个人信息在最终用途、合理防护方面的可靠性,确保

35、信息精确、完整、无误。6)可查询:提供本人查询个人信息的途径7)责任性:企业有责任遵守上述法则,并应确保合规的机制。大数据企业面对的数据分为公开数据,授权数据,隐私数据。公开数据来源于公共媒体因此可以无须强调保护,授权数据来源于数据收集过程中,客户对企业的授权,需要依据签订的协议使用范围来使用,不能过越权进行数据转让和贩卖,大数据企业仅能在签署的授权范围内部进行使用,企业在使用大数据时尽量使用分类数据、群体数据、趋势数据、统计数据。不要使用针对个体的数据,同时在数据分析是需要注意关注隐私数据保护。大数据企业在利用隐私数据时将要特别注意对其的保护,即使在客户授权的前提下,也要注意数据的使用场合和

36、揭示方式,不要向外泄露受保护的PII信息。大数据隐私保护应该从企业法律意识、国家法律法规、数据保护技术等几个方面入手进行大数据隐私保护,其是大数据产业发展的一个重要前提,解决了大数据隐私保护问题才能打开大数据产业发展的空间,大数据产业发展才有明确的未来。七、大数据的风险控制任何一中事物出现后都会有其有利的一个方面,也有其不利的方面,片面的夸大了它的作用而不谈它的弊端,这就是传销了。大数据和其他的新鲜事物一样,它不是神,不可能天生没有缺陷,不可能天生没有风险,我们要正视大数据时代的弊端,在享受大数据时代的红利时,希望能够认清其弊端,不要成为数据的奴隶,不要成为Matrix的营养品。大数据本质就像

37、计算机和互联网一样是人类的工具,能有限地帮助人们但是不能代替人们思考和做决策。大数据不能帮助人类解决生理需要、情感沟通、心理安慰的问题,大数据只是一个提高效率和辅助人类决策的工具。我们聊一聊如何控制大数据带来的风险。1)数据不能起到决定作用,仅应提供辅助决策。决策应来源于人类集体智慧和决策层,千万不能让数据或人工智能指挥一切。2)数据报表不能代替人类思考,有些因素没有办法进行量化,有些因素数据报表无法提供信息,重大决定人类必需综进行综合考虑。3)利用数据进行决策,应考虑其不良影响,顾及其他群体的利益,避免多数人暴政和少数精英独断专行。4)有些领域不能过度依靠参考数据,还应该从尊重生命出发如食品

38、安全管理问题等。5)应建立数据分析和决策之间的防火墙,避免出现黑客帝国的场景。大数据应用、大数据思维归根到底还是商业思维的具体体现,同样的大数据在不同的人眼里,会表现出不同的表现形式,同样一组数据,通过不同的纬度看将会产生不同的商业结果。因此大数据仅是工具,其不能代替人类自身对社会的理解,以及人类社会自身的道德约束等。八、中国的大数据之路任重而道远中国目前的大数据应用环境和技术相对于美国而言,在整体技术水平、应用环境、国民意识、商业环境、技术厂商、技术平台上面相差超过5年左右。在大数据应用的国家战略层面落后的也较多。2012年3月,美国奥巴马政府宣布推出“大数据的研究和发展计划”。该计划涉及美

39、国国家科学基金、美国国家卫生研究院、美国能源部、美国国防部、美国国防部高级研究计划局、美国地质勘探局等6个联邦政府部门,承诺将投资两亿多美元,大力推动和改善与大数据相关的收集、组织和分析工具及技术,以推进从大量的、复杂的数据集合中获取知识和洞见的能力。美国奥巴马政府宣布投资大数据领域,是大数据从商业行为上升到国家战略的分水岭,表明大数据正式提升到战略层面,大数据在经济社会各个层面、各个领域都开始受到重视。2014年从“两会”的提案、议案看,很多人建议将大数据业务上升为国家战略,互联网领军人物李彦宏在政协记者会上表示,政府应该把更多和人民生活有关的数据资料,公开地放到网络上;雷军则直接建议将大数

40、据纳入国家战略,推动大数据切实地被用起来;科大讯飞刘庆峰建议国家建设声纹数据库进行大数据反恐。张近东、马化腾、杨元庆的提案也与数据应用有着紧密联系。但是在中国大数据国家战略和大数据产业发展发面还没有一个清晰的蓝图。目前了解到的信息是上海政府计划建设大数据产业园,通过政府自身投资来建立大数据平台,吸引中小企业将信息系统及数据放到政府主导的数据平台上,政府将利用此平台来挖掘数据信息,提供数据信息报告。另外一个大数据应用是地方政府请一些大数据公司来开发舆情检测系统,及时了解社会舆论。无论是大数据产业园还是舆情监控。我个人认为没有抓住大数据优势的核心,大数据产业园的管理机制和创新动力不足,无法发挥大数

41、据计算的优势,反而浪费了大量的投资,效率较低。舆情监控本身就无法发挥大数据的商业应用优势,反而阻碍大数据产业的商业应用。我们应该提供大数据产业优惠政策,在资金、场地、税收、科研方面提供外部支持,让企业自身投入到大数据产业建设之中,从企业自身商业需求出发,投入资金来发展大数据产业。IBM现已拥有全世界最先进的大数据和分析技术能力,其拥有400多位IBM数学家。2013年IBM就成功的申请了1500项大数据与分析的相关专利,自2005年开始对收购和研发投资达240亿美元,2013年IBM大数据分析领域营收高达160亿美金。美国的通用电气公司投入了15亿美金建立了软件分析公司,雇用了400名数据科学

42、家进行大数据产业研究。但是在中国除了我们熟知的BAT涉及大数据产业外,知名的大数据产业企业就非常少,市场机会巨大。北京腾云天下科技有限公司(TalkingData)是为数不多的大数据领先公司,其既有大数据又有大数据技术平台,其目前是国内最大的第三方移动大数据平台,旗下拥有众多广受欢迎的移动端数据统计、分析、监测产品。TalkingData与国内众多应用分发平台、渠道、广告联盟保持着紧密的合作关系,三年来积累了大量的移动互联网用户行为、兴趣数据。中国银联、招商银行、聚美优品等企业,正在使TalkingData提供的数据服务。最后总结一下,大数据时代将会给人类社会带来巨大变化,它是一个好的工具,就

43、像计算机一样,帮助人们提升社会生产效率,了解事物真相,认识客观规律。重要的大数据可以帮助政府和企业进行科学决策,降低决策风险,加快进入智慧社会。2014年Top10大数据初创公司深度剖析P迪|2014-12-26 15:47:42|推荐阅读9,786摘要:全球的数据正在以几何数字增长,借助这股数据浪潮在全球范围内迅速成长起来一大批Hadoop的初创型公司。作为Apache的一个开源分支Hadoop几乎已经成为了大数据的代言词。据Gartner估计,目前的Hadoop生态系统市场价值大约为77,000,000; 该研究公司预计,这一数字到2016年将迅速增加到8.13亿美元。 在Hadoop市场

44、快速发展的大环境 .全球的数据正在以几何数字增长,借助这股数据浪潮在全球范围内迅速成长起来一大批Hadoop的初创型公司。作为Apache的一个开源分支Hadoop几乎已经成为了大数据的代言词。据Gartner估计,目前的Hadoop生态系统市场价值大约为77,000,000; 该研究公司预计,这一数字到2016年将迅速增加到8.13亿美元。在Hadoop市场快速发展的大环境下,出现了大量的初创型企业来分这将近十亿美元的大馅饼。超人气Hadoop初创公司前两名1、Platfora他们做什么:Platfora主要为企业提供相关的大数据解决方案,并且将Hadoop的袁术数据进行转换,为企业提供更智

45、能的商业指导。总部:加州San Mateo。负责人:本维特,谁曾在DataStax出任产品副总裁。成立时间:2011资金实力:6500万美元。最新一轮由TENAYA资本主导的融资38000000美元。并且花旗风险投资公司,思科,Allegis资本,安德森霍洛维茨,Battery Ventures公司,萨特山风险投资公司等多家知名风投参与了本轮融资。上榜原因:Platfora成立的目的在于简化Hadoop。虽然企业采用了Hadoop作为大数据的解决方案,但并不能快速从这些数据中获取价值。Platfora的解决方案在Hadoop上做了一个壳,让企业数据分析师可以更好的利用组织数据与相关结果。关键客

46、户包括:康卡斯特,迪斯尼,E和华盛顿邮报。竞争格局:Platfora竞争对手Datameer,IBM,SAP,SAS,高山数据等。不同之处:Platfora声称拥有了第一个基于Hadoop的可向外扩展的内存大数据分析平台,Platfora的重点在于简化Hadoop与大数据分析之间的复杂过程,让数据更清晰更快速的展现在需要它的人面前。2、Alpine Data Labs他们所做的事情:提供一个基于Hadoop的数据分析平台。公司总部:加利福尼亚州旧金山执行总裁:乔奥托,销售和服务于Greenplum的原高级副总裁。成立时间:2010资金实力:350万美元的资金总额,包括16美元的B系列融资,从S

47、ierra Ventures公司,风险投资公司的使命,UMC资本和罗伯特博世风险投资。上榜原因:多数高管和经理没有时间或技能代码,以便搜集数据的见解,也没有时间去学习复杂的新的基础设施像Hadoop。相反,他们希望看到大画面。麻烦的是,复杂的高级分析和机器学习通常需要编写脚本和编码的专业知识,这可以限制对数据的访问科学家。通过使预测分析通过SaaS访问的高山数据缓解这个问题。Alpine Data Labs据提供了一个可视化的拖放和拖放的方式,允许数据分析员(或任何指定的用户)在整个组织与大型数据集工作,制定和完善模型,并在大规模协作,而无需代码。数据是在现场环境分析,不迁移或取样,通过一个W

48、eb应用程序,可以在本地托管。Alpine Data Labs利用Hadoop和MPP数据库的并行处理能力和实现了MapReduce和SQL数据挖掘算法。用户使用其数据交互,直接在那里已经坐。然后,他们可以设计分析工作流程,而不必担心数据移动。所有这一切都是在Web浏览器中完成,和阿尔卑斯数据然后转换这些可视化的工作流为在数据库或MapReduce的任务序列。主要客户包括:索尼,哈瓦斯媒体,斯卡拉,签证,Xactly公司,全国广播公司,停住,黑莓,和摩根士丹利。竞争格局:高山将争夺两个大型老牌(SAS,IBM,SPSS,以及SAP),而该初创公司如Nuevora,Platfora,晴空塔,革命

49、Analytics(分析),和快速我。关键的区别:Alpine Data Labs认为,大多数竞争方案要么是基于桌面或没有任何协作能力的单点解决方案。相比之下,Alpine Data Labs提供了一个“的SharePoint样”的感觉。在协作和搜索外,还提供了在同一屋檐下的建模和机器学习。高山也是无数据移动阵营的一部分。无论如何,如果一个公司的数据是在Hadoop的或MPP数据库,高山发出指令,通过其在群集分析,而没有移动数据。提供Hadoop平台与服务的企业3、Altiscale主营业务:提供的Hadoop作为一种服务(HAAS)。总部:帕洛阿尔托,加利福尼亚州执行总裁:Raymie St

50、ata的,谁曾雅虎首席技术官。成立时间:2012年3月资金实力:Altiscale由1200万美元从通用催化剂和红杉资本首轮投资的支持,已经来自个人的资助者。上榜原因:Altiscale的服务的目的是Hadoop的抽象的复杂性。Altiscale的服务主要目的是解决Hadoop的抽象性与复杂性,为工程师搭建一个完整的Hadoop环境,并且对其进行维护与管理。让用户可以更专注于他们的数据与应用。当客户的需求发生变化的时候,Altiscale也会做出相应的调整与变化。主要客户:MarketShare公司。主要竞争对手:微软Azure、Qubole与Xpleny等。关键业务区别:Altiscale认

51、为自己是“唯一一家真正提供了一个完整的Hadoop生产环境的方案服务商。4、Trifacta主营业务:为企业提供整体服务平台,将原始数据进行转换与整理,将结构化数据进行分析处理。公司总部:加利福尼亚州旧金山执行总裁:乔Hellerstein,谁在除了作为Trifacta的CEO也是计算机科学的教授在伯克利。成立时间:2012资金来源:Trifacta由16300000美元的注册资金,由Accel Partners公司,XSEED资本,集体的数据,Greylock合伙和个人投资者前后两轮的资金支持。上榜原因:Trifacta有一个在数据链技术平台。为企业解决大数据与分析工具之间的瓶颈问题,为业务

52、分析师节省大量的时间与精力。为了解决这个问题,Trifacta使用“预测互动”技术,以提升数据处理成视觉体验,使用户能够快速,轻松地识别感兴趣或关注的功能。分析师强调视觉特征,Trifacta的预测算法同时观察用户行为和数据的性质来预测用户的意图,并提出建议,而不需要用户的规范。因此,数据转换的繁琐的任务就变成一个轻量级的体验,更为灵活,效率比传统方法。主要客户:洛克希德马丁公司、强生集团。竞争格局:Trifacta将与Paxata,Informatica和CirroHow竞争。关键的区别:Trifacta认为,数据转换的问题,需要一个全新的互动模式-一个用机器智能,夫妻人类的商业洞察力。Tr

53、ifacta的平台结合了智能推理与“预测互动”技术视觉交互,收人与数据之间的差距。秒级别的大数据处理速度5、Splice Machine他们所做的事情:为客户提供基于Hadoop的兼容性数据库设计方案。公司总部:加利福尼亚州旧金山负责人:Monte Zweben,谁以前曾在美国航空航天局艾姆斯研究中心,在那里他担任人工智能科副主任。后来,他创办并担任蓝尼软件公司首席执行官。成立时间:2012资金:他们是由1900万美元的主语合作伙伴和莫尔多风险投资公司的资金支持。上榜原因:企业的应用程序与Web开发人员一直远离传统的关系型数据库,由于快速发展的数据量以及不断变化的数据类型,需要更加灵活的解决方

54、案来解决架构的问题。现在,随着新兴的数据库解决方案,功能,使得RDBMS如此受欢迎了这么久,如ACID兼容,事务完整性,以及标准的SQL,可在成本效益和可扩展的Hadoop平台之上。熔接机认为,这使开发人员能够得到最好的两个世界在一个通用的数据库平台。Splice Machine为企业提供了关于NoSQL所有的数据库有点,比如自动切片,可扩展性以及容错性与高可用性。并且为企业优化了复杂的数据库查询,而且不需要重写所有的数据应用以及BI工具。通过利用分布式计算,Splice Machine可以通过简单地增加更多的商品服务器从TB级到PB级规模。Splice Machine是能够提供这种可扩展性,

55、而不会牺牲SQL功能或酸合规是RDBMS的基石。竞争格局:竞争对手包括Cloudera的,MemSQL,NuoDB,Datastax和VoltDB。关键的区别:Splice Machine声称拥有在数据库中利用Hadoop解决实时时间分析的能力。6、DataTorrent他们做了什么:提供基于Hadoop的实时流处理平台。总部:加利福尼亚州圣克拉拉市负责人:富晃,谁是以前的工程团队在雅虎,在那里他担任工程执行副总裁的创始成员之一。成立时间:2012资金来源:该公司关闭了800万美元的系列2013年6月A轮August Capital公司领导的一轮,并加入了由AME云创投。该公司此前取得75万美

56、元的种子资金来自莫拉多风险投资公司和法扎德Nazem。上榜理由:DataTorrent认为,他们可以很好的解决数据延迟问题,尤其是对实时数据分析要求很高的环境中。对于一些见解,到时候的数据存储到磁盘上,进行分析,并回答了 它已经太晚了。举例来说,如果一个黑客挟持了信用卡帐户,并设法使一些购买,即使在几分钟内切断信用卡,但这个时候持卡者已经遭受了重大的损失。DataTorrent认为,企业需要掌握实时数据,并且对其进行快速分析与判断。不同于传统的批量处理,可以采取小时,DataTorrent声称能够数亿每秒的数据项的执行。这使企业处理,监控,并根据其在实时数据做出决策。竞争格局:DataTorr

57、ent的主要竞争对手来自IBM(InfoSphere流)和风暴开源项目。关键的区别:DataTorrent最关键的地方就是在于它的数据分析速度。大型的Hadoop托管平台7、Qubole他们做了什么:提供大数据作为一种服务有一个“真正的自动缩放Hadoop集群。”总部:加州山景城执行总裁:Ashish Thusoo。成立时间:2011资金来源:该公司是由700万美元的风险投资公司光速和查尔斯河风险投资公司A系列融资支持。上榜理由:由于Hadoop是一个相对较新的技术,完全掌握并且可以熟练运用是一个非常困难的事情。通过托管的解决方案Qubole希望使Hadoop成为一个易于使用的技术。Qubol

58、e为企业提供Hadoop的初始设置与维护工作。为企业达到削减成本与项目自动化管理的相关事情。客户包括:Pinterest,MediaMath,Saavn。竞争格局:Qubole将与Altiscale,亚马逊电子病历,宝数据成为竞争对手。关键的区别:Qubole指向其专有技术,提供真正的自动缩放和存储优化。8、Continuuity他们做什么:提供一个基于Hadoop的大数据应用托管平台。总部:帕洛阿尔托,加利福尼亚州负责人:乔纳森格雷,谁是以前的HBase的软件工程师的Facebook。成立时间:2011资金来源:12500000美元从Battery Ventures公司,启明创投,安德森霍洛

59、维茨,数据集合和放大的合作伙伴。上榜理由:Continuuity想出了一个巧妙的方法来解决Hadoop的专家的缺乏:他们提供了针对Java开发人员应用程序开发平台。较低级别的基础设施是由Continuuity平台的所有抽象出来。该公司的旗舰产品,电抗器,是一个基于Java的集成数据和应用程序框架层在Apache Hadoop,HBase的,和其他的Hadoop生态系统组成部分的顶部。它表面经过简单的Java和REST API的基础设施的能力,从不必要的复杂性屏蔽的最终用户。竞争格局:截至目前,Continuuity具有独特的优势。间接的竞争对手来自哈斯营(AWS电子病历,Altiscale,I

60、nfoChimps这类,迫击炮数据等)。关键的区别:Continuuity是针对Java开发人员的大数据解决方案。大数据的可视化平台9、Xplenty他们所做的事情:提供HaaS。总部:以色列特拉维夫执行总裁:Yaniv Mor。成立时间:2012资金来源:资金来源不详。Xplenty提供了基于Hadoop的云环境,里面有自由编辑器与设计环境,使企业可以节省大量的硬件投入,并且在软件与相关的维护人员上也有大量的预算节省。采用拖拽的操作界面,无需编写复杂的脚本或任何类型的代码。凭借其服务器自动配置功能,用户可以简单地指向一个数据源,配置数据转换任务,并告诉该平台在哪里写的结果。Xplenty的平

61、台使用SQL术语。因此,对于数据分析,学习曲线应该是最小的。客户包括DealPly技术,Fiverr,铁源,WalkMe。竞争格局:主要的竞争来自亚马逊的电子病历。其他哈斯竞争对手包括Altiscale,迫击炮数据,Qubole,以及最近与微软的Hadoop在Azure上。Rackspace公司即将推出基于Hortonworks分配自己的哈斯产品。关键的区别:根据Xplenty,竞争性服务还是针对开发人员,而Xplenty目标的数据和商业智能(BI)的用户谁不知道如何编写代码,但谁需要将数据转移到一个大的数据平台。10、Nuevora他们所做的事情:提供大数据分析应用。总部:加州圣拉蒙执行总裁

62、:Phani Nagarjuna。成立时间:2011资金:300万美元的风险投资Fortisure早期资金。上榜理由:Nuevora的nBAAP (大数据分析及应用服务)的平台功能基于最佳实践驱动的预测算法的专用分析应用程序。 nBAAP是基于三个关键大数据技术: Hadoop的(数据处理) , R(预测分析) ,和的Tableau (可视化) 。在这一切之上, Nuevora的算法上的数据(事务,社交媒体,移动,战役)中不同来源的合作,以快速识别,以配合特定的目标,个人的营销策略模式和预测。该平台包括预构建的应用程序,为客户的营销业务流程 获取,保留,向上销售,交叉销售,盈利能力和客户生命周期价值( LTV ) 。随着对个别客户的情况下,唯一的“最后一英里”的配置, Nuevora的应用程序,能让企业组织预测客户的行为。竞争格局:当Nuevora评估的竞争格局,它在零上的大型咨询公司,如埃森哲,和其他预测性分析的公司,如高山数据实验室。然而,由于在阳光下几乎每一个营销平台,目前包括某种形式的分析引擎,我也希望他们能与主要的营销自动化供应商,如ExactTarget (使用Pentaho的其大数据分析)竞争。关键的区别:Nuevora给最终用户使用“闭环校准引擎”,它可以帮助企业跟上仅基于最新数据的最中肯的见解,不断地重新调整他们的预测能力。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!