• 您的位置:
  • 首页 > 解决方案

    大数据应用技术方案

    2018-05-30

    一、总体规划

          企业信息数据在不同的规划和数据标准要求下,通常采用不同的技术和体系结构来构建自身的信息系统,为各自业务发展都起到了很好的促进作用,但各业务系统数据独立存储形成“信息孤岛”,各业务系统之间很难实现数据共享,制约着各部门、业务系统之间的协作及工作效率的提升,同时给企业也带来了大量的重复劳动。
         大数据系统的特点在于,其大数据的应用是伴随着数据采集的逐步成熟、数据量逐步提升后,逐步发育发展的。所以系统的建设也是一个分阶段逐步实现的过程。


          为了保证系统建设的灵活性、可扩展性和可持续性,以及各部门业务系统之间数据共享和交换的安全性和完整性,解决信息资源整合与应用系统的集成问题,我们设计了一套数据交换平台方案,该方案基于发布/订阅的消息代理中间件以及Web Service等多种数据交互技术,能够轻松灵活地实现全网数据的交换与共享,同时数据交换平台也会对所有数据做清洗和标准化,为各部门所有系统提供服务。


    二、建设目标

    1、一期建设目标

    • 搭建易于上手的大数据录入系统,无论什么年龄及学历,只要会上网,便会用系统;
    • 构建全球性数据共享平台,办公不再局限于办公室。在北京,在上海,甚至在国外出差,都可以通过系统获取信息;
    • 让所有有价值的数据不再存储在个人电脑或者是某个企业内部,而是让所有需要它的人,都可以随时随地加以利用,让数据的价值真正得到体现;
    • 当然,我们系统不仅要让数据的价值得到体现,还要让其价值得到进一步的升华,各类自动生成的统计报表及动态图形化指标,让纸面上的数据全部活跃起来。

    2、 二期建设目标

    • 支持资源发布与订阅:能够实现数据资源的共享设置、共享级别设置,订阅数据资源等操作,并能按照订阅内容交换数据;
    • 支持信息级别权限控制:不同级别的权限,对于数据(信息)的访问权限不同;
    • 支持不同结构的数据源:数据操作源和目的可以为多种数据存储形式,如:SQL Server、Oracle、文本、XML等等;数据交换要支持多种数据类型,如:数值、字符、日期、文件等;
    • 支持系统配置扩展:可以通过配置文件来更改运行环境、共享资源数据内容以及共享级别;
    • 支持处理日志功能:流程关键环节增加日志功能,系统能方便调试和日后监控;

    • 支持自动故障处理功能:当网络出现问题时,系统可以在一定程度上采取自救措施,如支持断点续传和发送短信息给等待用户。


    3、 三期建设目标

          数据交换平台建成之后,客户体系各系统的数据交互壁垒便可打通,我们所规划的大数据应用平台的数据从广泛程度和精准度都会得到极大提升,同时这些数据也会反哺各个系统,丰富各部门的数据信息,为各部门决策提供更好的支持。
          我们将会在已建成数据交换中心的大数据平台系统的基础上,采用网络数据抓取技术,从广域网获取更加丰富、全面的数据信息,来完善整个大数据平台的基础数据,为政府、机构、企业等客户的各职能部门提供更具时效性、更完备的数据信息和数据分析,对一些重点企业以及管理人员重点关注的企业,平台也会及时将企业动态反馈给管理人员,以便政府部门能够快速制定、调整相应政策。

    三、主要技术说明

          大数据处理过程关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。

    1、采集技术

          大数据是通过采集社交网络交互数据及移动互联网数据等获得的各种类型的结构化、半结构化(或称之为弱结构化)及非结构化的海量数据。采集是一种按照一定的规则,自动地抓取互联网信息的程序,是捜索引擎抓取系统的重要组成部分。主要目的是将互联网上的网页下载到本地。

    2、处理技术

          数据采集以后,使用大规模数据集的并行运算技术。“映射”(map)、“化简”(reduce)等概念和它们的主要思想都是从函数式编程语言中借来的。它使得编程人员在不了解分布式并行编程的情况下也能方便地将自己的程序运行在分布式系统上。数据处理在执行时先指定一个map(映射)函数,把输入键值对映射成一组新的键值对,经过一定的处理后交给reduce,reduce对相同key下的所有value进行处理后再输出键值对作为最终的结果。


    3、数据治理



          数据治理(Data Governance)目前有不同的定义,但本质都是相似的。《DAMA 数据管理知识体系指南》给出的定义:数据治理是对数据资产管理行使权力和控制的活动集合(规划、监控和执行)。数据治理职能指导其它数据管理职能如何执行。右面图说明了数据治理与其它几个数据管理职能的关系。可以看到数据治理贯穿在数据管理的整个过程中,重点关注的是有关数据的战略、组织、制度等高层次的话题,并通过制定和推行战略、组织、制度,将其它几个数据管理职能贯穿、协同在一起,让管理数据工作能够成为一个有机的整体而不是各自为政。