本文摘自《商业智能应用白皮书5.0》,复制链接免费下载:
https://s.fanruan.com/kr5s6
数据治理(Data Governance – DG)是企业对数据资产管理行使权力和控制的活动集合(包括计划、监督和执行 ),它是管理企业数据资源的一种方式、方法,旨在确保数据的质量、安全、合规和有效性。数据治理是企业实现数据战略的基础,是一个管理体系,包括组织、制度、流程和工具。
数据的生命周期包含了源头、处理和消费这三个阶段,数据的问题也可能会出现在这三个环节中。例如在数据源头环节,用户录入数据的规范性存在问题,导致了最终数据消费环节的数据质量低。数据表象问题的根源,可能来自于业务系统用户交互设计,乃至是底层数据库表结构设计上的缺陷。
而要想解决这些表象的数据问题,就必须解决深层次的信息化业务系统开发以及数据库表约束设计等问题。例如为了保证用户录入数据的准确性,有三种方式去设计业务系统:其一是设计前端的检验验证,避免用户做出相同的选择;其二是通过程序编写过滤判断的逻辑,筛除掉前端误入的数据,作为第二层验证;其三是通过建立约束条件,例如唯一性约束、检测约束等等来控制数据录入准确性。
因此,企业的数据治理远非使用一款单一的工具或产品就可以实现的,它是需要回到源头,对企业的组织、流程制度、业务系统、底层架构等多个方面进行排查和重构的,它是一套复杂的管理体系。
 
考虑到数据治理工程的复杂性,我们提出了两种目的性不同的数据治理策略:拉式策略(Pull Strategy)和推式策略(Push Strategy)。
面向数据应用,是以提升数据应用过程中的数据准确性为目标的数据治理建设策略。
它强调在数据应用的过程中定位和解决问题,以数据应用项目为建设周期。具体而言,拉式策略有三个特点:
(1)自上而下
拉式策略通常以指标体系为起点,进行金字塔式自上而下的规划与建设,通过“数据流、业务流、信息流”的过程反向推动数据质量提升;
(2)数据整合
它包括多系统的数据整合、拉通、清洗、处理,以及数据仓库建设和 ETL 开发过程;
(3)数据应用
拉式策略面向数据应用。根据实际业务情况,主要解决数据指标定义标准不清晰、指标计算口径不统一、指标计算口径版本变更、数据不准确、数据上报与数据审核等数据应用场景出现的问题。
面向数据全生命周期的管理与控制,是一种体系化的数据治理建设策略。
它强调体系化的计划、监督、预防与执行,包括多年计划的数据策略建设周期。具体而言,推式策略有三个特点:
(1)体系化、系统化
推式策略不针对某个单一的、具体的数据应用场景,而是一个全面体系化的治理过程;
(2)全生命周期
它贯穿数据全生命周期的管理,例如数据采集、数据质量、数据应用、数据安全、数据分享等多个环节;
(3)立体策略
推式策略从数据治理策略(目标、范围、方法和组织 )开始,通过专业的数据治理团队进行数据治理的规划、实施和监督,通过制定数据管理流程规范从源头业务系统的构建到数据的分发、流转,包括数据安全策略与控制,最终贯穿数据资产管理、分析和挖掘的全生命周期过程。
拉式策略以数据应用需求为起点,推式策略以标准规划为起点,两种策略在多个方面有差异:
根据多数企业的实践经验,以数据应用需求为起点的拉式策略有着更短的实施周期和更低的投入成本,是一种更加灵活、更加敏捷的数据治理策略,我们将在下文中着重介绍这种数据治理策略。

适合多数企业的数据治理更优解:拉式策略
以提升数据应用过程中数据准确性为目标的拉式数据治理建设策略主要包括3个流程:
(1)基于指标体系的数据问题洞察:基于数据指标体系,以“数据流、信息流、业务流”的基本逻辑框架,在限定的范围内及时洞察数据质量问题的根源,并逆向推动业务信息化和业务管理的改善和提升;
(2)稳健的数据架构设计:通过数据仓库建模、合理的分层设计、ETL 过程开发等,保障数据模型及架构的稳健性和可扩展性,提高数据使用的准确性;
(3)数据应用审核管控机制:建立面向高层管理的数据指标管控及审核机制,确保数据应用过程中(上报、可视化分析)关键数据必须经过有效审核,提升数据使用质量及数据准确性。
(1)数据问题洞察流程
数据问题的洞察过程可以分为5个步骤:第一步是企业内部的资料收集和需求调研;第二步是指标体系梳理;第三步是确认可视化原型设计方案;第四步是“数据流-信息流-业务流”的问题识别过程;第五步是暴露问题,形成数据质量提高待办。这些步骤中最为重要的是第二步指标体系的梳理和第四步“数据流-信息流-业务流”的问题识别过程。数据问题洞察,本质上就是基于数据指标体系,以“数据流、信息流、业务流”的基本逻辑框架,在限定的范围内及时洞察数据质量问题的根源,并逆向推动业务信息化和业务管理的改善和提升。
数据流层面:
企业数据问题的洞察始于数据流层面的对指标体系的梳理。指标体系里包含指标和维度,指标即是目标,维度是数据的视角。在确定指标体系后,就需要标准化指标的定义与计算口径、计算逻辑,包括对不同计算口径的版本管理。在计算口径确认后,就需要顺着计算逻辑逐层向下追踪,查看数据能否被获取到。
信息流层面:
数据流层面出现问题,排除信息流层面存在的信息系统建设问题,还有可能是业务流层面的管理问题导致的。例如同一个指标有不同的计算口径,这就不是信息系统的问题,而是管理自身的问题,是由于部门间的冲突而导致的。从数据流到业务流的分析,企业可以通过表层的数据问题洞察到自身业务流程上存在的弊端,从而逆向完善业务管理流程和管理边界。
业务流层面:
在这样金字塔式的数据问题洞察方法下,通过阶段性、有限的指标体系框定了取数的来源范围,因此不会盲目地扩大数据治理的范围和目标。通过在限定的系统范围内洞察存在问题的数据,可以形成有针对性的数据治理策略,让问题聚焦。最后通过阶段性的识别问题、解决问题,可以由点到面、由浅及深,暴露的问题逐步解决,保障阶段性的建设成果。
(2)数据问题洞察案例
1、案例一:通过“数据流”和“业务流”定位到“信息流”层面的建设问题
表象问题:某集团内部分包导致项目产值及二级单位业绩划分不明确。
根因分析:在数据流层面上,发现各部门项目产值不一致,数据的准确性存在问题。基于这个问题,进一步去挖掘信息流层面和业务流层面的根因。在业务流层面上,集团有明确的业务管理标准和规章制度,需要各部门在项目成立时就明确产值,并在缴纳管理费时才需要上报产值,因此业务流层面不存在严重问题。在信息流层面上,项目组织建立时存在同一个项目在信息系统中有两个层级项目的情况,因此 NC 中项目组织存在“多对一”的情况,导致系统中取自 NC 的项目组织的数据存在问题。至此,我们通过“数据流”和“业务流”的分析,将数据问题定位到了“信息流”层面的系统设计问题。
解决路径:
从信息侧的角度,在 NC 中建立项目组织时,需要划分项目组织层级,总承包项目部由总承包申请建立,内部分包项目部建立时需要选择对应的总承包项目部;从数据侧的角度,进行产值统计时,项目总产值仅统计一级组织的产值数据。核算各公司产值时,按照对应组织核算自施部分产值,并抵扣内部分包的产值。
治理成果:
最终,通过完善业务系统中项目分级管理的机制,实现项目产值的精准核算,完成了从数据问题洞察到数据治理的过程。
 
2、案例二:通过“数据流”和“信息流”定位到“业务流”层面的管理问题
表象问题:某集团在建项目、完工项目数量各部门数据不一致。
根因分析:数据流层面上,发现在进行数据分析时,从各业务系统中获取的数据不一致,并且项管部仍存在线下统计数据的现象。进一步分析,发现信息流层面不同的业务系统,对项目状态的定义模糊、不一致,例如项管部以项目部发文为开工,商务部以获取开工报告为开工。至此,我们已经可以明确问题的根源在于业务流层面,集团内部缺乏统一的制度、流程来明确项目各节点的划分标准,也没有明确以固定的流程节点划分项目状态。因此,要想治理各部门项目数量的数据问题,就必须在集团管理流程和标准上做出改善。
解决路径:从业务侧的角度,开展跨部门的沟通交流,统一项管部、人力部、商务部的项目状态定义标准;从信息侧的角度,完善项目状态各阶段划分流程,在 OA 系统中完善、改造流程节点;从数据侧的角度,根据现有流程优化取数逻辑,实现数据的来源一致和跨部门应用。
治理成果:最终,实现了跨部门项目数据的统一,规范了项目全生命周期的管理流程,完成了从数据问题洞察到数据治理的过程。
  
在洞察到数据问题所在并进行了数据侧、信息侧或者业务侧的改善后,进行稳健的数据架构设计是拉式策略的第二个流程。这里主要涉及通过数据仓库建模、合理的分层设计、ETL 过程开发等,保障数据模型及架构的稳健性和可扩展性,从而提高数据使用的准确性。值得强调的是思考数据架构有三个出发点:稳健性、可扩展性和效率。数据仓库架构的稳健性需要通过数据仓库分层来解决;数据仓库的可扩展性要通过数仓建模、维度一致性等方式来解决;效率问题需要通过多系统数据集中、处理,从流程型数据架构转变到分析型数据架构来解决。
我们数据治理策略的最后一个流程是建立一个企业内部,面向高层管理者的数据指标管控及审核机制,确保数据应用过程中(上报、可视化分析)的关键数据必须经过有效审核,提升数据使用质量及数据准确性。
以某集团的经营分析会数据审核流程为例,集团总部的填报用户保存、提交数据后,数据会被锁定并流转至集团总部的审核用户处。如果数据审核通过,它会被定版并做会前使用准备;如果数据审核不通过,它则会被退回填报用户处,并且系统会自动推送审核失败原因给填报用户,后台同步更新审核记录和状态。
子产业集团的填报用户提交数据后,流程情况与集团总部的填报用户类似,只是需要额外经过一轮子产业集团审核用户的审核。如果在子产业层面审核通过,数据将会做会前准备定版,流转至集团总部审核用户处。如果集团总部数据审核不通过,数据将会被直接退回子产业数据保存中心,并推送原因给子产业填报用户。总之,双重审核流程保障了子产业集团数据上报的准确性,进而提高了集团总部高层使用数据的质量。

图:某集团经营分析会数据审核流程
归根结底,企业表层数据问题的产生往往有深层次的业务系统设计、流程制度管理方面的原因。因此要想通过数据治理提升企业数据的质量,就不能仅仅依靠一个工具或产品解决表象的问题。
帆软提出了企业数据治理的拉式策略(Pull Strategy)和推式策略(Push Strategy)来满足不同的数据治理需求。考虑到当今企业面临的复杂环境,实施周期更短、治理成本更低的拉式治理策略更能及时满足企业数据消费的需求,是一种更灵活、更敏捷的数据治理方式。
在该策略下,基于指标体系的“数据流-信息流-业务流”分析逻辑能够帮助企业发现、洞察、追踪数据问题产生的根源;稳健的数据架构设计能够帮助企业解决数据质量的问题;数据应用审核管控机制的建立能够帮助企业解决错误数据被使用的问题。经过系统化的数据治理,企业数据质量将更能满足消费的需求,基于数据的决策也将更加精准。

|