北汽福田汽车股份有限公司商用汽车集团(以下简称福田商用车集团或集团)成立于1996年8月28日,总部位于北京市昌平区,现有资产近300亿元,员工4万人。福田汽车坚持“商业模式、科技创新、管理创新、人才开发”的经营方针,以发展创新与互联汽车为主线,全面实施“福田汽车2020”战略,积极发展汽车与新能源汽车、新能源、汽车物联网、金融服务业、重型机械等五大产业。
2016年构建了福田汽车大数据平台,作为集团数据管理、数据分析的基础平台。大数据平台连通各业务环节的数据,进行整合、挖掘及展现。大数据平台作为福田汽车统一的数据服务中心,互联互通了财务、采购、质量、分销、绩效、市场、保客营销等业务环节数据,进行数据挖掘及数据展现,提供数据服务给集团各相关单位/部门/人员。
随着大数据平台的核心作用日益凸显,结合业务单位/部门的数据应用规划。数据分析的范围将扩大,包含客户360视图、配件预测、服务分析、车联网数据分析、UBI分析等。为有效达成业务目标,需要接入保险、车辆、通信、第三方数据等多方面数据(含非结构化数据),且数据量庞大,以目前的平台架构(以SAP HANA为核心)将不足以支撑数据的整合及挖掘。
为有效促进业务提升,最大限度的发挥平台支持分析、支持决策的作用,结合2018-2020年大数据平台规划,对大数据平台进行升级优化。
附件:大数据平台升级及集成项目标书 V4.7.docx
北汽福田汽车股份有限公司
2018-04-2
附件 北汽福田汽车股份有限公司 “大数据平台升级与集成项目” 招标书
第一部分 投标邀请函
北汽福田汽车股份有限公司现就本集团所需信息化建设需求进行邀标,欢迎贵单位参加投标。
1.项目名称:福田汽车大数据平台升级与集成项目
2.招标日期: 2018 年 5 月 10 日
3.招标方式:邀请招标
4.招标方名称: 北汽福田汽车股份有限公司
5.招标方地址: 北京市昌平区沙河镇沙阳路老牛湾村北
6.投标截止日期:所有投标文件应于 2018 年 5 月 10 日 09:00 之前递交到 北汽福田汽车股份有限公司3号楼7层信息技术部 C6会议室。
第二部分 招标项目要求
项目名称:本次招标的内容为 福田汽车大数据平台升级与集成项目
第六部分 福田汽车大数据平台升级与集成项目要求
1.系统建设进度要求
投标人应制定具体可行的保证措施,确保Hadoop平台在2018年07月30日前正式投入运行使用。
3.项目验收及交付要求
投标人应派遣有经验的技术人员组成工作小组到现场实施技术服务,包括大数据平台部署安装、业务方案的调研、开发及上线等。
平台实施阶段
投标人须制定大数据平台部署方案,报招标人或招标人指定的招标方人员审批通过。实现Hadoop平台各组件的部署及安装调试,集成现有的福田大数据系统(基于HANA),实现数据传输及交互。
项目实施阶段
投标人制定数据仓库建设整体方案,实现含客户数据中心、BOM数据中心、产品数据中心、物料数据中心等数据中心建设;
系统交付
投标人负责提出交付程序和交付日程表,报项目甲方同意后实施。投标人须按照计算机软件工程规范的国家标准分阶段提交相应文档。包括相关优化文档、完整的维护手册。
4.系统使用培训要求
培训包括Hadoop平台、模型开发、运维培训,请详细说明培训的对象、内容、方式、时间等。
对于所有培训,投标人必须派出相应专业的具有实际工作经验的人员进行培训。培训所使用的语言和书面教材必须是中文,否则投标人必须提供相应的翻译。
除培训计划外,在系统运行期间若委托方有其它培训要求,中标人应根据实际情况协助委托方完成相关培训。
5.系统保修与售后服务要求
投标人应提供详细的系统保修和售后服务体系说明,包括服务的对象、内容、方式、时间等。投标人还需要明确说明保修期过后设备维修、系统升级等服务的优惠方案,要求能根据业务需要进行系统调整和完善。
请详细说明如下要求满足的程度,并介绍投标人认为有必要的其它服务。
故障响应
a)接到要求时向招标方人员提供如何使用软件的咨询;
b)7×24小时的实时故障响应。要求投标人在出现大数据平台故障的2小时内必须给予响应,24小时内恢复运行。
实时技术支持
a)对大数据平台的运行、维护提供7×24的实时技术支持;
b)应具备针对福田公司的专业技术团队,负责对福田公司业务、系统等问题的响应、处理,具体处理时间需遵循故障响应中的要求。
热线服务
a)投标人应提供热线电话或Email、传真等其它途径随时回答招标人各种技术问题并在24小时内提出解决方案。
b)投标人要详细描述售后服务体系和具体响应流程。
第七部分 项目需求分析及建设要求
1.项目背景
北汽福田汽车股份有限公司商用汽车集团(以下简称福田商用车集团或集团)成立于1996年8月28日,总部位于北京市昌平区,现有资产近300亿元,员工4万人。福田汽车坚持“商业模式、科技创新、管理创新、人才开发”的经营方针,以发展创新与互联汽车为主线,全面实施“福田汽车2020”战略,积极发展汽车与新能源汽车、新能源、汽车物联网、金融服务业、重型机械等五大产业。
2016年构建了福田汽车大数据平台,作为集团数据管理、数据分析的基础平台。大数据平台连通各业务环节的数据,进行整合、挖掘及展现。大数据平台作为福田汽车统一的数据服务中心,互联互通了财务、采购、质量、分销、绩效、市场、保客营销等业务环节数据,进行数据挖掘及数据展现,提供数据服务给集团各相关单位/部门/人员。
随着大数据平台的核心作用日益凸显,结合业务单位/部门的数据应用规划。数据分析的范围将扩大,包含客户360视图、配件预测、服务分析、车联网数据分析、UBI分析等。为有效达成业务目标,需要接入保险、车辆、通信、第三方数据等多方面数据(含非结构化数据),且数据量庞大,以目前的平台架构(以SAP HANA为核心)将不足以支撑数据的整合及挖掘。
为有效促进业务提升,最大限度的发挥平台支持分析、支持决策的作用,结合2018-2020年大数据平台规划,对大数据平台进行升级优化。
2.项目目标
升级福田汽车大数据平台,整合企业内及第三方数据,构建福田数据中心,推动“产业+”的数据服务模式的落地,驱动企业数字化转型。
引入Hadoop商品化产品,升级福田汽车大数据平台架构,提升对数据的处理能力及性能;
构建福田汽车数据中心,搭建企业级数据仓库,实现业务全价值链的数据中心建设;
集成互联网舆情大数据,为福田汽车提供舆情事件监控、用户评论采集、用户舆情洞察提供快捷有效支持,同时为大数据平台中内部数据仓库数据与外部互联网数据融合分析打下基础;
推动“产业+”数据服务模式的落地,规划企业内及企业外数据服务接口方案,制定数据应用服务接口的标准,为福田汽车及产业配套行业提供数据服务接口;
3.项目范围
商业版本Hadoop产品及客户数据中心的实施建设,Hadoop平台升级及运维服务。
A.Hadoop产品采购
采购商业版本的Hadoop平台及授权
B.Hadoop平台实施与集成
1.大数据平台规划
2.部署Hadoop平台。
3.Hadoop平台与现有大数据系统(基于HANA)集成,并实现数据交互;
4.历史数据的迁移和导入;
5.搭建数据仓库,实施客户数据中心,整合外部互联网数据实现舆情分析的应用;
C.运维服务
1.提供一年的现场平台运维及应用运维的服务;
2.Hadoop平台运维及监控、调优;
3.Hadoop平台与HANA平台集成的运维及监控、调优;
4.项目需求
构建数据仓库,整合内外部数据,提升数据服务能力。
4.1 建立客户数据中心
1)实现营销、市场、售后等环节客户业务相关数据建模与数据抽取(包括增量数据和历史数据),制定详细的数据(企业内外部数据、结构化及非结构化数据)整合、抽取、清洗、存储方案,安全平稳地将DMS、SAP、PMS、CRM、Seibel等系统中客户信息抽取到数据中心,及整合外部数据至数据中心,同时实现客户数据中心数据的连通,逐步推动企业级全价值链环节的客户生命周期管理,监控客户管理过程。
2)实现客户数据的贴源层、汇聚层、集市层的建设,形成客户标签库,构建基础数据体系,为客户数据价值挖掘,提供经营管理的各类数据应用支持。
3)基于企业内外部数据,并构建数据挖掘模型及数据集市,实现客户360画像、精准营销、流失挽回等应用。
4)结合数据治理平台,建立客户数据标准规范体系以及客户数据信息化标准体系。
5)梳理客户相关系统不同客户数据标准信息差异性,整理相关数据对应关系。
5.系统需求
5.1总体技术架构
大数据技术平台是以大数据工具为基础的大数据应用开发支撑平台,是实现北汽福田统一数据平台的核心,其由数据采集整合、大数据处理等几个核心部分组成。几个部分及其包含工具需通过基于元数据技术的柔性集成组件实现统一无缝集成。
1)系统采用分层架构设计,逻辑和结构清晰,提供层次视图和模块接口说明。各模块、产品间高度集成,形成一个统一整体。
2)平台架构设计最少但不限于提供逻辑框架、总体架构、业务架构、应用架构、数据架构、技术架构、部署架构。并需要详细说明技术路线,确保平台开放性和自主可控的特性。根据项目实施情况和技术发展情况,后续需要对大数据技术平台技术构架进一步的完善和深化设计。
3)高效安全的系统批处理架构以及批处理包括的任务划分。
4)前端展示清晰、灵活、友好,支持分析操作人员以浏览器方式生成并浏览统计分析结果。
5)平台应遵循北汽福田信息化建设的各类规范和标准。
6)在保证大数据平台高效的前提下,应尽量屏蔽大数据技术的复杂性,充分利用大数据门户、大数据中间件、大数据交换平台、大数据资源目录、大数据实验室等理念和技术,对大数据管理者、使用者、开发者提供出高效、便捷的、注重体验的应用方式。
7)兼顾大数据批量处理和小样本数据精确查询统计的性能需求
8)系统应该在全量数据并行处理和小样本数据快速过滤两种场景表现出同样的高性能,同时能并发处理尽量多的小样本数据计算需求。
9)有效合理利用资源
10)减少Inbox/OutBox与多层数据复制引发的内存膨胀,尽量避免出现JVM GC引发的性能抖动,减少跨网络节点的大量数据广播,避免不必要的重复计算。
11)谨慎设计,避免高并发场景的性能瓶颈点
12)减少开源版本组件存在的线程安全问题,规避高并发场景下多线程架构的锁资源冲突和线程频繁切换影响系统处理的总体吞吐量。
13)计算资源有效管控,避免出现系统负荷过载
14)产品适用于精确查询和数据统计分析并存的混合应用场景,通过有效的资源管控,确保移动互联应用的稳定低延时响应,确保在业务峰值系统负荷不因过载导致停止响应甚至停机
15)在API设计和开发工具软件支持等方面减少系统迁移和新项目开发成本
16)友好的运维监控界面,提供外部集成接口
17)支持在线扩容,良好的备份与恢复机制
18)乙方需要同时提供未来2年内产品架构发展蓝图、实施路径和时间表,以便甲方制定合理的后续项目研发计划。
5.2功能需求
1.组件要求
投标产品基于开源社区发布核心组件开源的成熟商用版本,必须包括以下必要功能组件和原厂服务,版本可根据产品有差异,但需特别标注;同时必须提供所列组件的原代码公开下载地址。Hadoop及相当架构系统企业版包括(HDFS/MapRedure/Yarn)、Hbase、Impala、Solr、Zookeeper、Spark、Kafka、Sqoop、Flume、Sentry、Hue、Oozie、kudu。其中:
1)HDFS, v2.6.0
2)MapReduce/YARN, v2.6.0
3)Hbase, v1.2.0
4)Zookeeper, v3.4.5
5)Hive, v1.1.0
6)Impala v2.11.0
7)Oozie, v4.1.0
8)Spark, v2.2.0
9)Solr, v4.10.3
10)Sentry,v1.4.0
11)Hue, v3.7.0
12)Sqoop, v1.4.5
13)Flume, v1.5.0
14)Kafka, v0.10.2.0
15) Parquet v1.5.0
16) kudu v1.6
2.数据接入
实现多种数据源的数据接入方式,包括但不限于:对现有关系型数据库系统的数据接入,对中间件、数据库、应用系统日志的接入,对各种格式的文件的接入,以及对消息格式的接入。
提供基于Web界面的图形化数据接入工具,支持通过配置的方式自动化的数据接入。
3.数据清洗
实现对来自多种数据源的数据进行数据一致性检查、去重、校验、处理无效值、缺失值等操作,提供常用的数据清洗方法,例如:用统计分析的方法识别可能的错误值或异常值,用简单规则库(常识性规则、业务特定规则库等)检查数据值,或使用不同属性间的约束、外部的数据来检测和清理数据。
4.数据分发
实现数据对多业务系统的分发功能,实现数据分发的自动化流程。实现数据分发的权限管理与审批流程。
5.数据存储
要求能够支持PB级数据容量,支持行数不低于100亿行、列数不低于1000列的单表数据存储。
6.数据分析与数据挖掘
1)提供通用的R语言数据挖掘和机器学习能力,可以直接通过RStudio或者R编程接口访问存放在Hadoop中的数据。
2)需要提供常用R语言算法的并行化版本,从而能够处理大数据集,包括但不限于:贝叶斯网络、向量支持机分类、逻辑回归、线性回归、K-means聚类分析、广义线性模型、决策树(随机森林决策树)、协同过滤等;
3)集成多种数据可视化R软件包,便于在RStudio环境实现多样化的数据可视化效果
4)实现多编程语言的支持,实现移动互联场景的准实时数据挖掘任务;
5)提供广泛的R接口包,支持标准的SQL语言查询接口(JDBC和ODBC),支持Hadoop/Spark计算环境作业任务调度和输入输出交互
6)提供自然语言理解与语义分析工具包支持文本挖掘应用
7.数据库能力
产品应具备与传统数据库相近的接口以及开发方式,以减少系统迁移和新应用开发成本。
1) 接口驱动要求
提供标准JDBC(包括JDBC type 4 driver)、ODBC驱动,ODBC驱动至少兼容linux、windows(32位或64位)。
2) SQL语法支持
支持大部分SQL2003语法,至少包括如下功能:
支持标准的SQL形式访问数据,支持如下能力:
创建数据库、删除数据库,配置数据库的容量;
创建表、删除表、增加表字段;
创建、修改、删除视图 CREATE/DROp/ALTER VIEW
表数据类型包括:整形、字符串、浮点型、布尔型、二进制、时间类型、JSON数据类型;
创建索引、删除索引;
数据表的连接、嵌套、in、not in等复杂查询
字符串、日期等常用操作函数
最大值、最小值、平均值等聚合函数,支持常用数值统计分析函数
支持select into、insert into、merge into 功能
支持子查询 (sub-query factoring),包括非同步子查询(Non-correlated Sub-query)和同步子查询(Correlated Sub-query),支持子查询的多层嵌套。
支持在 where clause 子句使用 同步和非同步subquery (包括IN 和 NOT IN)
支持在From clause子句中使用非同步subquery
支持 Having clause子句使用非同步subquery
支持 Select list里面使用同步和非同步 subquery
WITH … AS … 可以被当做一个临时表, 如果内容被多次调用,可有效提高效率,避免多次查询
支持 Inner JOIN, Outer JOIN (Left Outer JOIN, Right Outer JOIN, Full Outer JOIN), Implicit JOIN, Nature JOIN, Cross JOIN,SELF JOIN, Non-equi JOIN(JOIN条件可以是不等式),Map JOIN
支持 union, intersect, except操作,并且他们可以作为top level operator
支持 in 、between 以及运算符 (+ - * )直接操作 subquery
具备较完整的事务处理支持(包括嵌套事务),支持BEGIN TRANSACTION, END TRANSACTION, COMMIT, ROLLBACK操作
²支持部分PL/SQL语法,支持或可扩展以下功能:
基本语句:赋值语句、匿名块执行、函数定义和调用、存储过程定义调用、UDF/UDAF调用
数据类型:标量类型、集合类型及其方法(COUNT()/LIMIT()/etc.)、RECORD类型、隐/显式类型转换
流程控制语句:IF/ELSE IF/ELSE语句,GOTO语句、LOOP循环、FOR循环、FORALL循环、WHILE循环、ConTINUE(WHEN)语句、EXIT(WHEN)语句
Package包支持,包括包内全局变量、包内类型、包内函数
异常支持: 支持用户自定义异常和系统预定义异常;支持RAISE语句;支持WHEN (OR) THEN (OTHERS)异常处理;支持存储过程内部和存储过程之间的异常传播;部分系统预定义异常抛出点;部分编译时刻错误检测
3)表分区功能
为了提升海量数据查询性能,提供表分区功能,至少提供日期、区间等分区能力,分区级数至少为2级。
4)表压缩
兼顾CPU和IO开销,提供多种压缩算法, 支持对表按照压缩比例进行及时透明压缩,不能事后压缩,数据压缩后支持查询、修改、插入、删除,此过程中无需解压。
5)生命周期管理
为了减少大数据场景下对数据管理代价,应该提供基于特定时间类型字段的表生命周期设置,并进行归档。
6)大表索引管理
数据需在已创建索引的情况下高速导入,避免数据导入完毕后再创建索引。
7)数据导入导出
保证数据的正确性的基础上,实现将一个关系型数据库(例如:MySQL ,Oracle ,DB2等)中的数据导进到Hadoop的分布式文件系统或分布式数据库中,也可以将分布式文件系统或分布式数据库的数据导入到关系型数据库中。支持同时在多个节点上进行数据导入。
1)数据导入
支持同步以及异步形式将文件批量导入数据表中,并反馈导入结果情况,如果出现错误应该反馈出错信息。
2)数据导出
支持SQL查询结果导出为文本文件,可以设定文件的格式(分隔符等)、大小、命名。为了保障导出效率,系统内所有节点并行导出,导出结果在每个节点内。
8)多存储层级支持
根据数据的使用频度和性能要求,能够将应用表建立在不同IO读写速度的不同介质上,包括磁盘、SSD固态硬盘、高速闪存卡和内存,其中建立的非易失存储上的数据表在整个系统重启后能保证数据不丢失。
9)半结构化与非结构化数据支持
支持半结构化(JSON/BSON形式存储)和非结构化数据的高效存取,其中半结构化数据支持字段内部建立索引。提供全文索引功能,支撑内容管理,实现文字等非结构化数据的提取和处理;提供增量创建全文索引的能力,可以实时搜索到新增的数据。支持客户关系网络和社交网络等图数据的高效存取和聚合计算。
8.集群管理
1)、以Web图形界面实现Hadoop节点批量自动集群部署
a)完成相应存储和节点的集群部署,实现分布式计算、分布式存储功能;
b)提供节点的动态添加、删除接口,当数据容量或者计算资源不足时,支持通过横向添加同等配置的X86服务器的方式,为系统进行在线扩容
2)、以Web图形界面实现Hadoop集群性能监控
a)存储资源监控,包括获取存储量、剩余存储量以及存储系统整体情况信息,;
b)运算资源监控,包包括但不限于:任务运行状况,用户请求数量,请求响应时间等等;服务器状态监控包括但不限于:服务器的CPU使用率、内存使用率、磁盘使用率及繁忙程度、网络状况等等;
c)提供全局日志和任务级日志;
d) 在故障发生时提供告警功能
3)、以Web图形界面实现Hadoop资源管理
a)计算任务管理和作业管理,包括作业的上传、配置、启动、停止、删除和状态查看功能
b)存储资源管理,浏览数据、更改回收存储资源。
c) 作业动态调整,支持对任务系统资源占用进行实时调配,改变作业调度优先级等操作
4)、支持多租户Web图形界面管理
计算集群可以按需创建,按需销毁
创建集群时只需要指定所需计算资源,无需指定具体物理机器
9.流式计算能力
能针对不同的数据源、不同的数据接入方式、不同的处理时效性要求,组合实现适配不同需求的技术方案。
1)数据源
包括各生产系统应用日志、渠道与交易系统的WebSocket信息流、外部系统的XML或JSON字节流。
2)数据接入方式
支持Flume日志处理数据流、各类企业消息总线或ZeroMQ等消息通讯库、Kafka等分布式消息系统;
支持Kafka的安全访问控制能力,支持Kafka+Kerberos实现身份认证。
满足批处理、准实时和实时处理三种不同时效性要求
支持在流数据上执行SQL语句(例如GroupBy和JOIN,窗口函数等),方便进行流式应用开发;
支持将流数据进行行列转换写入列式存储,从而支持准实时的交互式分析。
支持将实时流数据持久化写入永久存储,支持通过SQL进行批处理统计。
4)低延时和高吞吐量
以合理的技术实现方案支持一个完整的流式计算过程涉及的IO读写操作(包括数据库、文件及其他网络服务调用),避免因局部IO阻塞导致整个流处理设施的不可用,提供低延时和高吞吐量的整体服务质量。
5)容错性
以合理代价尽力确保数据不丢失,在机器出现故障时,支持计算现场恢复和任务重启。
6)可扩展
流处理框架可线性扩展,应用越多越复杂,处理延时越长,但可横向扩展机器资源以降低延时。
7)易于管理和监控
在集群管理界面提供数据生产者生产速度、数据消费者处理速率、当前数据处理总量、当前数据积压量等图形化指标实时图表监控界面。
支持通过API和图形界面提交流处理任务;支持流处理任务的生命周期管理(创建、运行、停止和删除),可以动态增加新的流处理任务,无需停机,不影响原有流处理应用,方便管理。
10.资源管理能力
基于YARN/Mesos等资源调度框架,实现Spark和Map/Reduce集群,按需动态创建与销毁计算集群。为此,资源调度框架需要支持内存管理和CPU调度,也需要增加对Spark资源各种调度算法的支持,包括但不限于:
1)指定Spark资源使用策略;
2)根据指定策略实现CPU与内存的固定配额调度
3)根据指定策略实现CPU与内存百分比的配额调度
4)根据指定策略实现Spark Executor在各个计算节点的分布
5)根据指定策略实现Spark Executor个数的限定
6)根据指定策略实现Spark Executor在具体哪些节点上启动
7)可提供开放的API和分布式框架,允许用户灵活地开发所需的分析处理应用,而不局限于SQL或存储过程。
8) 支持通过公有云和私有云部署,对软件基于Docker技术的容器化部署提供支持。
11.多租户管理
1)提供统一、可视化的多租户管理功能。提供完整多租户安全管理和资源管理能力。
2)多租户安全方面,支持LDAP用户管理,支持Kerberos用户身份认证,提供细粒度的用户访问控制功能,包括用户、用户组、角色的访问控制,提供对数据库、表、视图、行、列、单元格等的访问控制策略。提供对租户操作审计、单点登录等功能。
3)多租户资源管理方面,实现数据库和用户的存储空间配额管理,实现不同类型的作业对计算资源、内存资源的请求与分配管理,提供资源优先级管理,支持用户/作业级的服务等级协议SLA。
12.作业调度要求
1)可视化的数据调度逻辑,能清晰的反应每一个调度的数据源结构和目标数据结构。
2)具备数据质量检查功能,预置源数据校对规则,具备对源数据进行规范性校对和预警功能。
3)依赖业务的逻辑顺序来定义ETL处理流程控制。如:先装载主数据再装载业务数据。
4)支持任务模块化,ETL过程分步实施,每个过程通过不同的模块组来完成,并尽可能复用这些组件,从而提高ETL实施效率。
5)可视化的数据调度概览,能清晰的反应调度作业或任务的进度和干涉状况。
6)支持通过自定义定时任务进行数据的增量更新。
7)支持实时数据的提取、转换和加载功能。
8)良好的容错机制,对执行失败的任务,能从失败的上一个节点重新装载数据。
9)具备较好的灵活性,能够在不同的时间段中进行数据获取、转换和装载。
10)清晰的日志跟踪管理功能,能反应每一个作业或任务的执行情况。
11)支持随着业务需求的不断增加进行迭代开发实施。
12)能进行可视化拖拉拽方式,快速开发数据调度程序。
13)ETL运行脚本编辑功能,支持JAVA或PYTHON或C#等主流开发语言,支持可视化拖拉拽方式,快速开发ETL程序。
14)支持各种客户端连接方式,包括但不限于JDBC、ODBC等。
5.3容错与可靠性需求
1)系统可用性≥99.99%:
采用集群处理的多级分散控制系统,设备、数据介质等某些关键部分考虑备份和冗配置,保证其发生故障时不影响整个系统的正常运行。
2)数据容错要求:
消除全系统单点故障:
系统中不允许存在单点故障,任何一个角色故障后都应有备份机器承担原失效节点工作,并在监控页面上对错误状态进行显示标识。
3)容灾备份:
支持跨数据中心集群间准实时数据复制,实现异地灾备;
4)灾难恢复及业务支持:
遇到灾难性宕机后,系统恢复服务的时间要求在24小时以内。
宕机重处理后,数据恢复率要求达到100%。
具备系统备份、业务数据备份、数据归档、灾难恢复以及相关数据的查询功能。
5.4系统性能需求
1) 缓存管理
支持把内存和SSD作为缓存,当源数据无法全部放进内存时,支持换入换出,保证SQL执行不中断。业务不受限于内存或SSD大小,可对大于内存/SSD容量的数据进行分析处理;
支持从HDFS或者Hbase上将数据装载入内存或SSD,为存放在Hbase的在线数据提供交互式分析能力;
2) 支持SQL查询性能要求
支持将二维关系表装载进分布式内存,进行交互式SQL分析和数据挖掘,每台服务器扫描数据的性能可以达到300MB/s,单台机器可在1秒内扫描1亿条记录;支持选择SSD作为缓存,扩展内存存储的容量。数据存放在SSD上时,要求SQL性能比机械硬盘快10倍以上。
要求总体查询性能比原生Hadoop快10倍以上,比原生Spark快2倍以上。
在每节点单表1千万条记录(1KB左右)的集群上,达到如下性能:
a)按关键字检索单表记录延时小于20ms,每节点吞吐量超过2000MB/秒。
b)按关键字检索5表关联记录延时小于50ms,每节点吞吐量超过500MB/秒。
c)3表关联检索并汇总统计10万记录延时小于200ms,每节点吞吐量超过30MB/秒。
d)单表全量更新时间低于100秒,两表关联全量更新时间低于200秒。
e)每节点单表记录在1亿条记录(1KB左右)的集群上,全量汇总统计排序延时小于2秒,每节点吞吐量超过10MB/秒。
3) 数据导入
从文本文件中导入数据单机性能不得低于30MB/S,支持高速随机Key-Value的查询/插入和低延时的统计能力,插入性能每台服务器每秒达到10000记录/秒(每个记录至少1KB左右)。
4) 流处理性能
系统最低延时/处理间隔为100毫秒,单服务器可处理1万记录/秒。
以上要求,根据产品可有偏离,需写明偏离原因。
5.5系统稳定性需求
支持系统在长时间、多任务场景下的稳定运行。在计算机硬件、操作系统、存储系统及应用系统业务进程出现故障时,能迅速响应并进行任务的切换;某一节点出现故障时,其他节点应能够自动分担故障节点的处理任务,保证服务持续可用。
能实时监控各节点的状态,依据不同的监测方法,可以监测出服务器节点是否存在,以及是否可以正常提供服务,支持节点失效报警和节点恢复过程的监控。
支持某节点失效后,整个系统能继续运行,系统整体性能不能有显著下降。
具备HA高可用性功能,保证系统环境的稳定运行,备份方式最好为热备。
要求具备一定的健壮性,能够弹性应对一些短暂的环境不稳定现象,如网络闪断等。
5.6 系统开放性需求
1)源代码开放性
Hadoop平台的源代码需开放给福田方,具备专业的运维服务团队配合福田大数据应用的建设。
2)技术开放性
系统总体技术架构符合以Hadoop/Spark为代表的主流技术发展趋势要求,在软件外观(包括工具命令调用格式、API设计与类包命名)尽量保持和开源社区一致,并能与开源社区的合理技术演进保持同步,尽力提供自动化版本迁移或源代码版本兼容性检测工具。
3)与第三方软件的集成能力
能够容易实现与第三方软件的快速集成,包括但不限于:
主流ETL工具、实时数据复制工具、批处理任务调度工具
包括Tableau在内的各类数据可视化工具软件
主流元数据管理软件平台,包括数据质量管理、数据生命期管理
其他开源数据挖掘与数据建模工具软件
4)与福田其他系统对接
该大数据平台能够将福田的数据进行分类组织,并且对外提供灵活的API,方便福田其他系统对接。
5)系统兼容性需求
支持异构硬件、支持异构OS、兼容X86平台及Linux操作系统,至少但不限于支持openstack、VMware虚拟化技术。
支持易用并具有广泛适应性的开发语言和工具,如C、JAVA等开发语言和工具等。
5.7系统安全性需求
1) 安全认证
支持使用Kerberos进行用户认证的用户认证方式,对存放在HDFS中的数据根据认证用户(组)进行读/写访问控制,并且支持对存放在HDFS中的选定文件单独进行加密。
2) 数据访问权限管理
支持数据表、字段级的数据访问权限管理;支持基于用户登录信息的表记录过滤规则定义,隔离数据记录访问权限并且对应用程序透明。
5.8系统易维护需求
1) 在线扩容
系统的存储容量能够动态不停机扩容,扩容时现有系统可以不间断正常运行,不受扩容影响。扩容时无需迁移数据,无需要求用户对数据进行重新分区(partition),避免硬盘和数据损坏。
2) 软硬件状态监控
提供CPU、内存、硬盘、网卡等硬件状态监控以及告警,告警信息可以通过短信、邮件方式通知管理员,可推送到行内集中监控系统。
3) 系统巡检以及信息收集
提供一键式的GUI巡检工具,直观反映关键部件状态。
提供一键式的信息收集工具,收集系统日志、配置信息以便于快速定位。
4) 系统拓扑管理
显示系统网络拓扑图,并直观显示节点以及服务状态。
5) 系统性能跟踪
可以跟踪当前作业任务进度和资源使用情况。可详细持续记录SQL执行计划和实际成本消耗,统计分析资源消耗较多的热点SQL,可按条件过滤查找一定时间范围的SQL统计数据。
5.9系统管理需求
1) 日志管理
平台应具有完整的日志管理和完备的数据审计功能,并且有相关的监控预警机制,保证平台正常进行。平台应提供对所有操作的日志记录及查看功能,如应支持作业或任务运行的日志、审计日志、错误诊断日志、跟踪日志(会话级)等日志类型
2) 图形化监控
平台应提供平台整体状态的图形化监控功能,对任务的运行状态、任务的占用资源等都可以做监控。
3) 监控管理
平台可以记录告警信息,告警信息可以在日志文件中被查看到,或通过图形化界面的方式展示。告警记录具体信息应包括:告警名称、类别、严重性、告警具体内容等。
4) 权限管理
应提供权限管理功能,通过不同的用户、组、权限等设置来实现完备的权限管理功能。
5) 集群管理
要具备直观、全面的可管理性,随着机器节点数目的增加,对集群节点的健康状态、作业加工执行情况、系统负载等都需要具备直观、全面的管理功能、并对集群中的异常情况具备告警功能。
5.10硬件及网络要求
符合以Hadoop/Spark为代表的主流X86硬件资源,使用X86服务器自身的计算和存储资源,无需外接存储,支持异构平台,采用分布式架构安装部署,支持在线动态节点扩容。原则上使用福田现有X86服务器资源,无需单独采购,服务器配置如下:
型号 CPU 内存 磁盘 Raid卡 网卡
HPEDL380 Gen9 2*每颗12核Intel E5-2650 v4 2.20GHz 16*32GB TruDDR4 2133MHz 2 * 300G 10K 2.5寸 SAS盘(操作系统)
8*2TB 10K 2.5寸 SAS盘
2*800G SSD 板载 RAID卡直通阵列卡 四口板载千兆卡 2* Intel x520双口万兆网卡
提供软件、硬件及网络架构设计,须满足福田汽车未来3~5年的扩展需求。
6.授权管理要求
投标方需说明其提供大数据产品权方式。(按CPU、节点数、数据量等)
如果是完全开源hadoop软件栈,原则上只产生实施费用和维护费用。
软件授权需要说明后续项目扩容是否需要追加授权。
7.信息安全要求
本项目按照《福田汽车信息系统建设安全管理办法》的要求对福田汽车的信息系统建设开发过程进行安全规范。
8.项目约束条件
(1)为保证项目质量,确保项目进行中系统用户与投标方之间沟通的及时、准确、顺畅。要求在整个项目实施过程中(包括但不限于项目准备、平台部署、开发实施、培训、运行维护、终验等阶段),投标方项目团队必须自始至终全部在用户现场进行各项项目工作,用户方将负责提供必要的工作环境和支持。
(2)硬件、操作系统、数据库、中间件、双机软件等基础软硬件采购由福田方自行完成,其中硬件安装由福田方及其硬件供应商自行完成。《福田汽车大数据平台升级与集成项目技术架构设计说明书》中涉及到的操作系统、HANA数据库、双机软件的安装配置需要集成在项目中,由投标方承担,相关集成调试成本计入投标总价。
(3)系统终验结束后投标方提供半年的免费维护期。
(4)整个项目实施过程中(从调研阶段到系统终验)及免费维护期内,投标方负责系统的正常运行。负责范围为系统应用支持、后续培训、系统平台和架构升级、Bug修正、软件程序优化、后台数据处理、需求变更的二次开发、基础类软件(包括操作系统、数据库、双机软件)升级优化的方案设计及实施(包括软件打补丁)、各类相关软件参数配置和优化等工作。相关成本计入投标总价。
9.项目整体计划
本项目实现预计用5个月时间完成项目,其中大数据平台升级与集成阶段需要在1个月内完成,项目实施阶段需要6个月内完成。
序号 工作项目 项目内容 输出物 责任人 完成时间
1 立项 编制理想报告及完成审批 立项报告 封玉龙 2月28日
2 项目招标 完成项目招标工作 招标/评标报告 封玉龙 5月20日
3 合同签订 签订合同 合同 封玉龙 6月15日
4 平台部署 Hadoop平台部署与集成HANA集群 部署方案及集成方案 王鹤 7月30日
5 蓝图设计 完成蓝图设计 蓝图 张国强 8月30日
6 系统开发及测试 系统开发及测试 开发说明书及测试报告 张国强 11月30日
7 上线 系统上线 上线报告 张国强 12月30日
8 系统初验 系统初验 初验报告 张国强 19年4月30日
9 系统终验 系统终验 终验报告 张国强 19年7月30日
评论:福田汽车“大数据平台升级及集成项目”系统终极验收完成,表示福田汽车工业互联网生态平台“一网、四互联、五智能”构建完成,其生态进一步成熟。福田汽车搭载工业互联网平台,以用户为中心,应用大数据,为用户提供从选车、购车、用车、养车到换车全生命周期的服务,构筑客户全生命周期新生态。真正实现福田汽车由传统制造向服务型制造转变,也将直接驱动整个行业颠覆传统制造向先进制造转型。 本文地址:http://www.dbeile.cn/quote/164.html 多贝乐 http://www.dbeile.cn/ , 查看更多