贵州大数据项目建设方案

2018-05-29

一、 方案背景

      贵州发展大数据产业的优势集中体现在资源禀赋优、运营成本低和发展空间大三个方面。大数据中心落地贵州,不仅可能,而且能够做到可持续发展。不过,大数据中心的硬件建设只解决了让大数据项目落地贵州省的物理环境问题。若让其真正投入运营并发挥效用,则必须配套相应的软环境,而这个软环境就是“大数据云平台”,其主要包含了以下四个方面的内容。
➢ 资源虚拟化平台
      大数据项目完全基于云计算技术,而云计算技术的基础是资源虚拟化。因此,如何选择资源虚拟化平台,将物理计算、存储和网络资源转换成虚拟资源,并保持虚拟资源的弹性扩展和稳定可靠,将成为“大数据云平台”的基础。
➢ 海量数据分析平台
      大数据项目的目标是对外提供各种数据分析服务,而提供什么样的服务、如何提供这些服务、怎样保证服务的质量和可靠性以及如何运营这些服务,则是“大数据云平台”的核心。
➢ 长途传输链路质量保障
      由于“云数据中心”位于贵州省内,而大数据服务的使用者多为省外地区,甚至还可能包含相当数量的海外用户。因此如何保证长途数据传输链路的可靠性,尽量减少复杂网络情况下的数据传输性能波动,则成为“大数据云平台”服务可用性、可拓展性和可持续性的支撑。
➢ 信息安全保障
      无论是传统信息化领域,还是云计算,数据拥有者和使用者对于数据的安全性都高度关注。因此,如何保障数据存储的可靠性、数据访问的安全性、以及重要数据存储安全隔离与安全传输,对于所有用户乃至整个“大数据云平台”都是事关生死存亡的战略问题。

二、 方案说明
(一)软件架构

      “大数据云平台”软件架构从下到上可以分为五个层面,它们分别是:基础资源与环境、资源虚拟化系统、虚拟化资源聚合管理系统、大数据分析系统、大数据私有云。下面我们将对这五个层面,分别进行简要介绍。

➢ 基础资源与环境
      主要包含了实现“大数据云平台”所需要的各种基础软件、硬件和网络资源,比如:数据中心机房、硬件服务器、存储设备、交换机、路由器、网络带宽、物理机操作系统等。
➢ 资源虚拟化系统
      主要功能包含计算资源虚拟化、存储资源虚拟化和网络资源虚拟化三个层面。考虑到性能、功能、可靠性和稳定性方面的需求,资源虚拟化系统将统一采用基于开源虚拟化系统(如OpenStack)的深度定制化版本,并同时使用多个同构的资源虚拟化系统实体为上层提供服务。
➢ 虚拟化资源聚合管理系统
      对一个或多个“云数据中心”中的资源虚拟化系统实体进行控制,并负责对计算、存储和网络虚拟资源进行统一配置和管理。
➢ 大数据分析系统
      利用虚拟资源统一为上层的“大数据私有云实体”提供各种标准化的大数据分析基础服务。这些服务包括:数据转换、数据清洗、数据抽样、数据建模、数据处理、评估算法、文件管理、数据库支持、数据流设计和工作流设计等多个方面。
➢ 大数据私有云
      根据服务用户类型可以分为“政府大数据私有云”、“企业大数据私有云”和“科研大数据私有云”三种类型。每种类型的私有云都具有多个“大数据私有云实体”,每个“大数据私有云实体”都只为特定的一个用户群体提供个性化的大数据分析服务,在必要时也可以根据需要直接提供虚拟资源租用服务。

(二)网络架构

      每个“云数据中心”包含一个或多个不同类型的“大数据私有云实体”。同一数据中心内部多个“大数据私有云实体”通过“虚拟网络”进行连接。由于虚拟网络拓扑结构是通过软件定义的,因此可以实时灵活地调整各“大数据私有云实体”之间的数据通信流量和访问策略,从而在保证各“大数据私有云实体”之间在数据隔离的基础上,实现网络可连通性和流量负载均衡。“长途链路优化网络”连接每个“云数据中心”。位于贵州省外的用户,可以通过“长途链路优化网络”与各“云数据中心”中的“大数据私有云实体” 进行数据通信,从而保障长途数据传输的高性能、可靠性和安全性。



三、 关键性技术

➢ 深度定制资源虚拟化
      通过虚拟化技术可实现软件应用与底层硬件相隔离。它包括将单个资源划分成多个虚拟资源细分模式,也包括将多个资源整合成一个虚拟资源的聚合模式。虚拟化技术根据对象可分成计算资源虚拟化、存储资源虚拟化、网络资源虚拟化等。由于“大数据云平台”所提供数据分析服务的特殊性,所以要求虚拟化系统能够根据业务特点,进行针对性的深度定制(对某些功能和资源特性进行改进),使其更符合业务层面的要求。因此,一般考虑在开源资源虚拟化系统(如OpenStack)基础上进行改进。
➢ 虚拟化资源聚合
      同时对多个同构的资源虚拟化系统实体进行统一控制和管理。并对这些实体所生成的计算虚拟资源、存储虚拟资源和网络虚拟资源进行统一分配、调度和回收。
➢ 海量数据分析
      融合云计算、工作流、数据挖掘和数据分析技术,将复杂算法进行智能拆解,对复杂任务进行流程化处理,最终实现操作和算法的节点化。而该技术的核心是工作流引擎,其按照分布式计算的理念,按需将源任务逐级分解为多个原子任务,并在多个物理节点上并行执行,从而实现运算并发执行、存储按需分配。
➢ 网络虚拟化
      网络虚拟化技术包含了三个层面。首先是对网络设备的虚拟化,即通过虚拟化手段,将一个硬件网络设备虚拟成多个逻辑上的网络设备,提供给多租户使用。这些网络设备无论从管理配置还是数据通信上都是各自独立的,不会互相干扰;其次,是虚拟组网,即将一个物理网络划分成多个逻辑上的子网,每个子网都相互独立,互不联通,从而使每个子网都可以提供给不同的租户使用;最后,是对网络拓扑和通信层面的虚拟化(软件定义网络),其实现网络控制层与转发层的进一步分离,从而使得通过自动化技术实现网络资源统管统分成为可能。
➢ 互联网链路优化

      通过遵循OpenFlow协议标准的SDN(软件定义网络)技术,并配合协议封装、多路数据并行转发、协议栈优化等多项网络技术,实现对互联网上通信链路路由的调整和控制,最终保障在复杂网络情况下的数据传输速度和可靠性。