格力大数据项目工作说明书

上传人:Sc****h 文档编号:140200423 上传时间:2022-08-23 格式:DOC 页数:16 大小:358.50KB
收藏 版权申诉 举报 下载
格力大数据项目工作说明书_第1页
第1页 / 共16页
格力大数据项目工作说明书_第2页
第2页 / 共16页
格力大数据项目工作说明书_第3页
第3页 / 共16页
资源描述:

《格力大数据项目工作说明书》由会员分享,可在线阅读,更多相关《格力大数据项目工作说明书(16页珍藏版)》请在装配图网上搜索。

1、格力大数据项目工作说明书格力大数据项目工作说明书北京西塔网络科技股份有限公司二零一六年一月(SOW)格力大数据项目工作说明书(SOW)格力大数据项目工作说明书(SOW)格力大数据项目工作说明书(SOW)1 项目目标在珠海格力电器股份有限公司的范围内,分期实现格力工业大数据平台项目的数据集成、连接、处理、分析、挖掘等相关功能。本期项目包括设计、搭建大数据平台,接入商技一部、商技二部、计算机中心的销售订单等相关数据,实现设备故障诊断、故障预测、产品统计、实时查询、营销支持、智能搜索等功能。故障诊断的业务目标:大数据平台处理、分析商用空调运行时采集回传的工况数据,及时、准确定位运行故障并给出大致原因

2、,为维护部门维修空调设备和系统提供信息支撑,降低故障定位的时间、范围和工作量,缩短停机时长并提高客户满意度、忠诚度。故障预测的业务目标:大数据平台利用数据挖掘、机器学习技术,通过学习业已存在的设备故障数据、信息,尤其是发生故障的前兆数据,归纳故障发生的特点、规律知识,并利用流计算相关技术及时发现潜在的故障及风险,及时预警,减少停机的次数及停机时长。另外发现停机模式、规律可以进一步应用到产品设计、改进过程中。产品统计的业务目标:大数据平台利用集成的产品及销售数据进行统计分析,用于分析产品的销售情况,客户情况,销售规律、特点及变化趋势,用于指导产品的个性化设计及产品的推广销售。实时查询的业务目标:

3、大数据平台利用 New SQL存储技术存放设备数据,提供特定编号设备、一段时间内工况信息的实时查询功能,用于业务人员分析、判断特定设备在查询时间范围内的工作状态,总结、发现业务规律。营销支持的业务目标:第2 页格力大数据项目工作说明书(SOW)大数据平台利用集成的产品及销售数据进行分析,发现其中先后、重复购买及交叉购买情况和规律,提醒、推荐客户购买特定的产品和服务,提高产品和服务的销量。智能搜索的业务目标:大数据平台提供通过语音输入完成产品及销售数据的查询、统计及分析的功能。2 建设及服务内容以下所有内容基于 1 月 19 日版本的需求文档。 详见格力大数据需求说明 1.0 文档,建设内容为基

4、于 Hadoop生态系统构建大数据平台,内容包括商用空调、家用空调、销售等历史数据的入库, ETL处理,数据仓库、离线计算、内存计算、实时计算、即席查询、可视化展示等内容。具体内容如下:2.1需求调研及数据标准化包括功能商技一部、商技二部、销售、审计部门的需求调研、数据调研以及数据标准化。2.2大数据基础平台搭建基于 Hadoop 搭建大数据平台,包括HDFS 、 MapReduce 、 HBase、 Hive 、Spark ,MySql 集群。使用 HDFS存储原始数据,供离线分析挖掘;使用 Spark/MapReduce 执行离线任务;使用 HBase做实时查询;使用 Hive/Spark

5、 SQL做数据仓库;使用 MySql 集群存储分析结果书,供上层应用查询。2.3数据采集大数据采集包括非结构化数据、结构化数据的采集,非结构化数据采用FlumeNG采集, Oracle/SQLServer/MySQL 关系数据库中的结构化数据采用Sqoop 收集。此外还有实时流数据采用分布式消息队列采集。第3 页MPP数据库进行统计分析。格力大数据项目工作说明书(SOW)Flume 收集非结构化数据, Flume 是一个高可用的,高可靠的,分布式的海量数据采集、聚合和传输的系统, Flume 支持定制各类数据发送方, 用于收集数据; 同时, Flume 提供对数据进行简单处理,并写入到 HDF

6、S中。Sqoop 收集结构化数据, Sqoop(发音: skup) ,主要用于在 Hadoop(Hive) 与传统的数据库 (mysql 、postgresql.) 间进行数据的传递, 可以将一个关系型数据库 (例如 : MySQL,Oracle ,Postgres 等)中的数据导进到 Hadoop的 HDFS中,也可以将HDFS的数据导进到关系型数据库中。 Sqoop,类似于其他 ETL工具,使用元数据模型来判断数据类型并在数据从数据源转移到 Hadoop时确保类型安全的数据处理。 Sqoop 专为大数据批量传输设计,能够分割数据集并创建 Hadoop任务来处理每个区块。实时数据处理,通过采

7、集层数据通过消息队列组件Kafka 接入到 SparkStreaming里, Spark Streaming实时处理后把结果存到Hbase 或 Mysql 等关系数据库中供用户查询。2.4分层存储设计通过将给定文件、数据集或应用程序的必需数据特征对数据进行分层存储设计,满足不同的应用场景。提供数据利用率与使用效率。将常用数据存储在高速设备上,而不太常用的数据存储在低速设备上。在宏观上,数据可以在不同的设备之间进行数据复制迁移,分层保存。2.5数据加工处理对数据进行分析和加工。包括对各种原始数据的分析、整理、计算、编辑等的加工和处理。经过加工清洗后的数据根据不同的数据类型,选择不同数据存储方式,

8、可以存入 HDFS供离线挖掘,或者存储到实时性高的2.6数据分析挖掘大数据分析系统以机器学习、 数据挖掘等作为核心技术, 构建于大数据管理系统和云计算平台之上。其中,大数据管理系统提供数据的存储与查询功能,云计算平台提供分布式并行计算服务。通过分布式计算与统计分析服务器访问大数据系统,实现 KPI 与报表统计分析服务。采用 Spark MLlib 做为数据挖掘和机器学习框架, MLlib 是 Spark 的标准机器学习框架 ,MLlib 相对于其他机器学习库包具有更加优异的性能或者更容易入门。第4 页格力大数据项目工作说明书(SOW)MLlib 机器学习库具有完整的机器学习框架和各类别机器学习

9、算法,满足各种场合的需求。 Mllib随着 Spark 版本一起发布和应用。本系统采用MLlib 构建在 Hadoop之上对大数据进行挖掘处理,实现故障诊断、故障预测、配件库存优化等深度挖掘。2.7内存数据库内存数据库是将全部数据驻留内存的分析型数据库系统, 采用内存计算技术, 从根本上解决了数据仓库由于磁盘 I/O 导致的性能瓶颈问题,具有性能高、成本低、灵活、可扩展等众多优良特性,尤其适合做为大数据的计算引擎、分析引擎使用。把热点数据加载到内存数据库中,提供交互式探查分析、智能查询分析等功能。2.8交互式探查分析基于内存数据库快速查询,使用明细数据,免去清洗、聚合过程,更快速地分析和揭露数

10、据中蕴含的问题 , 直接由业务人员使用, 免去提需求、澄清、确认沟通环节,快速实现分析意图,提高了发现和解决问题的效率使用时可由全部数据快速过滤出关注的部分数据进行分析;关注数据的特征可进一步由明细数据刻画、佐证;可按需保存分析场景、导出明细数据付诸解决。优异的用户体验, 以客户体验为中心设计, 侧重易理解(业务视角, 选择、过滤、分析)、易用(平铺、图形操作)、去除干扰(功能隐藏)、快速响应(内存计算)、增加趣味性(改分档数)。2.9数据可视化应用提供通过实时查询、产品统计功能,不做个性化推送。2.10 语音智能分析大数据平台提供语言智能分析,通过录入语言,将语言转换为文本,并对文本进行分词

11、和语义分析,提交到大数据平台完成产品产品及销售数据的查询、统计及分析的功能。2.11 文本、视频、图片存储大数据平台增加文本、音视频、图片等非结构化数据的存储。2.12 大数据平台运维监控第5 页格力大数据项目工作说明书(SOW)提供格力大数据平台管理、运维工具及说明,包括服务器和运维系统都正常运行,运维系统可以对集群所有物理机进行性能监控,包括但不限于以下指标:CPU使用率、内存使用率、硬盘利用率、网络流量、IO 负载、系统负载均值、ETL监控、数据质量监控、等服务器性能指标进行监控。运维要考虑大数据平台的可扩展性,支持:1、在线添加节点2、服务扩展3、组件的升级4、异常处理:挂了的节点如何

12、恢复,记录日志方便追踪2.13 大数据平台任务调度任务调度系统能够对各类任务进行配置、启动、跟踪。同时,应并具备任务联动能力,即可以将多个任务通过流程组装成一个联合任务,各任务之间存在相互制约关系,任务调度管理能够根据各任务的执行状态、结果来自动的启动后续任务,任务间允许并发及串行两种模式。要求各任务的配置应当为可视化的配置。对于任务启动至少包括定时启动和条件启动两种模式。同时允许管理员进行任务的手动执行。任务执行可设定优先级, 比如按销售 技术 质量 售后 (销售量大的 销售量小的 生产 检验来设定。2.14 ETL过程可视化ETL尽量满足可配置性及可视化操作,如果甲方购买了第三方 ETL可

13、视化工具如 kettle 、Dataflow 、 Syncsoft 等工具,乙方应支持甲方做集成工作。2.15 培训工作从格力大数据平台未来的使用及运行来看,北京西塔提供的培训将达到如下的目标:? 完成知识的转移承建单位开发完成一个软件系统后,将通过培训工作实现知识的转移,不仅包括软件系统的使用方法,同样还包括业务理念、系统运行维护方法、技术开发方法等满足系统未来业务拓展需要的各项技能与方法。第6 页格力大数据项目工作说明书(SOW)? 实现全员的应用应用系统的建设目标即要建设一个全员参与使用的系统,因此培训的目标之一,也是要使业务人员均可以熟练使用该系统,增强业务人员的知识储备,提高整个使用

14、应用系统的业务人员素质。? 保障系统的安全运行对格力大数据平台的技术管理人员进行技术培训,使其能掌握有关软件产品及系统的使用、维护、管理,达到能独立进行管理、故障处理、日常测试维护、个性化应用开发等工作目的,以保障北京西塔所提供的应用系统能够正常、安全地运行。通过以上培训使用户系统管理员能够独立完成平台的设置、管理、故障恢复、应急处理等,能够进行日常的数据库备份及恢复操作、能够独立处理常见突发事件及操作员提出的常见操作问题。3 建设方案详见格力大数据项目技术方案.docx。4 时间进度与里程碑格力工业大数据平台建设。项目工期要求:总工期10 个月分 3 个阶段:里程碑阶段性成果与提交物1.项目

15、签约人员进场2.、基础平台搭建& 业数据调研报告、务模型设计数据标准化文档需求规格说明书功能设计说明书时间(月)付款30%220%第7 页格力大数据项目工作说明书(SOW)3.业务需求开发ETL 、业务模型开发、330%大数据服务接口开发、大数据标准可视化系统开发、MPP 内存数据库、交互式探查分析、智能语音搜索4. 大数据管理系统大数据运维监控系统210%大数据任务管理系统大数据安全管理系统5.项目终验产品配置说明310%应用系统部署架构说明平台监控、维护说明5 费用支付以合同为准。6 需求变更过程6.1变更依据1. 变更请求? 除特殊紧急情况,只处理书面变更请求。2. 变更标准? 当工作说

16、明书中建设内容所说明的工作项因某种原因(如实际业务变更、可实现性变更等)发生增加、减少或变更时,认为变更发生。3. 变更申请样式详见需求变更申请表 .docx。6.2变更请求处理流程第8 页格力大数据项目工作说明书(SOW)? 客户项目经理将书面变更请求提交项目经理? 项目经理与技术经理或软件架构师研究可行性? 项目经理将研究结果与变更请求一同提交项目控制委员会审批? 控制委员会将审批结果提交所有相关人? 若审批通过,项目经理将变更请求提交项目团队执行相应修改项目管理计划以便后续跟踪7 双方责任甲方:珠海格力电器股份有限公司乙方:北京西塔网络科技股份有限公司甲方责任自合同签定后,成立项目领导协

17、调小组并委派高层经理参与项目委员会,协调解决实施过程中的各种问题;共同审核批准项目实施计划;共同进行项目实施过程中的重大事件的决策;共同根据项目过程中的进度、质量、技术、资源、风险等实行宏观监控;帮助协调项目组织中甲方相关方的工作关系自合同签订后,委派项目经理或协调人在项目的各个阶段,包括需求调研、系统开发、系统实施、验收测试用例制定、验收测试、合同收尾与上线后支持等,协调项目组织中甲方或其它相关方的工作关系,包括相关的业务人员、技术人员等有责任根据双方确认的实施进度提供必要的工作环境和工作支持,及时应乙方的要求向乙方提供实施过程中所需的各种资料和数据、配合乙方人员的工作在项目的各个阶段乙方提

18、交评审请求后,包括需求、设计、验收测试用例与第9 页格力大数据项目工作说明书(SOW)验收报告,甲方有责任在2 个工作日内提供反馈确认在项目实施过程中, 能及时应乙方的通知组织有关人员参与测试与培训工作。甲方需提供给乙方一个20 人的办公场所,以及宿舍、出入证。甲方需要参与项目开发维护人员需要具备以下条件:开发人员:熟悉java 或 scala 语言,具有一定的软件开发、设计经验。运维人员:深入理解linux系统,运维体系结构,精于容量规划、架构设计、性能优化;精通一门以上脚本语言(shellperlpython等 ) ;熟悉Hadoop大数据生态圈,包括HDFS、 YARN、 Hive 、

19、HBase、Spark等使用人员:有一定的计算机知识,能熟练使用SQL语言以及浏览器。乙方责任乙方承诺所提供的大数据相关软件具有自主知识产权,不侵犯任何第三者的合法权益。负责甲方项目实施范围内的开发与实施工作委派项目经理根据项目进展及工作范围要求整合工作计划, 并监督实施,控制进度;协调项目组内人员的分工合作,资源分配;向双方汇报项目状况,提出建议及改进措施;负责用户需求汇总和分析;与用户进行有效的沟通协调负责需求管理、需求变更管理、质量管理、进度管理、成本管理和风险管理委派技术经理参与系统总体设计;指导并参与开发团队工作任务,包括开发、实施与上线支持协助项目经理完成需求管理、需求变更管理、质

20、量管理和进度管理委派软件架构师负责系统总体设计委派开发团队负责系统开发、实施与上线支持应妥善保管与正当使用甲方交付的技术资料、设备设施。第10 页格力大数据项目工作说明书(SOW)应及时交付包括源代码在内的工作成果,并交还相应的技术资料及设备。乙方有责任在项目的各个阶段通过电子邮件方式提交评审请求,包括需求、设计、验收测试用例与验收报告乙方将通过知识转移对合作伙伴和甲方进行培训乙方应对甲方的数据、设备、项目相关资料进行保密8 项目组织架构项目建设过程中的人员配置和管理是影响项目好坏和成败的重要因素。在项目目标和内容确定之后,如何组织、如何实施、如何管理,这都将对能否顺利进行,工程的质量能否达标

21、起到至关重要的作用。为保证格力大数据项目的顺利实施, 建议建设方和承建方一起组建适于本项工程实施和管理的人员配置方案。项目的组织架构如下图所示。说明:? 项目委员会,由用户与供应商双方的高级代表组成;? 项目经理对项目委员会负责,定期检查项目情况并在必要时向上汇报;? 项目人员包含硬件集成、需求调研、软件设计、软件开发测试等人员;第11 页格力大数据项目工作说明书(SOW)9 假定条件? 提需求的各业务部门能够提供 Web Service、Java API、XML 或者数据库接口,作为大数据平台的数据源。? 需要对接的系统原厂商或甲方相关技术人员能够及时有效提供支持。北京西塔网络科技股份有限公司珠海格力电器股份有限公司签名签名日期日期第12 页

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!