数据治理究竟怎么做？最佳实践案例分享

研究猿 · 学无止境，精益求精

上篇文章详细为大家介绍了两大数据治理策略：拉式策略（Pull Strategy）与推式策略（Push Strategy）。

详情回顾：什么是数据治理，这篇文章说的最清楚！

而其中拉式策略是一种帮助企业洞察数据问题根因，满足数据应用需求的敏捷数据治理策略。本文将从两个实际案例着手，帮助大家深入理解。

拉式策略流程

以提升数据应用过程中数据准确性为目标的拉式数据治理建设策略主要包括3个流程：

（1）基于指标体系的数据问题洞察：基于数据指标体系，以“数据流、信息流、业务流”的基本逻辑框架，在限定的范围内及时洞察数据质量问题的根源，并逆向推动业务信息化和业务管理的改善和提升；

（2）稳健的数据架构设计：通过数据仓库建模、合理的分层设计、ETL 过程开发等，保障数据模型及架构的稳健性和可扩展性，提高数据使用的准确性；

（3）数据应用审核管控机制：建立面向高层管理的数据指标管控及审核机制，确保数据应用过程中（上报、可视化分析）关键数据必须经过有效审核，提升数据使用质量及数据准确性。

案例一：通过“数据流”和“业务流”定位到“信息流”层面的建设问题

表象问题：某集团内部分包导致项目产值及二级单位业绩划分不明确

根因分析：在数据流层面上，发现各部门项目产值不一致，数据的准确性存在问题。基于这个问题，进一步去挖掘信息流层面和业务流层面的根因。在业务流层面上，集团有明确的业务管理标准和规章制度，需要各部门在项目成立时就明确产值，并在缴纳管理费时才需要上报产值，因此业务流层面不存在严重问题。在信息流层面上，项目组织建立时存在同一个项目在信息系统中有两个层级项目的情况，因此NC中项目组织存在“多对一”的情况，导致系统中取自NC的项目组织的数据存在问题。至此，我们通过“数据流”和“业务流”的分析，将数据问题定位到了“信息流”层面的系统设计问题。

解决路径：从信息侧的角度，在NC中建立项目组织时，需要划分项目组织层级，总承包项目部由总承包申请建立，内部分包项目部建立时需要选择对应的总承包项目部；从数据侧的角度，进行产值统计时，项目总产值仅统计一级组织的产值数据。核算各公司产值时，按照对应组织核算自施部分产值，并抵扣内部分包的产值。

治理成果：最终，通过完善业务系统中项目分级管理的机制，实现项目产值的精准核算，完成了从数据问题洞察到数据治理的过程。

数据治理成果展示：

-信息侧-

-数据侧-

案例二：通过“数据流”和“信息流”定位到“业务流”层面的管理问题

表象问题：某集团在建项目、完工项目数量各部门数据不一致

根因分析：数据流层面上，发现在进行数据分析时，从各业务系统中获取的数据不一致，并且项管部仍存在线下统计数据的现象。进一步分析，发现信息流层面不同的业务系统，对项目状态的定义模糊、不一致，例如项管部以项目部发文为开工，商务部以获取开工报告为开工。至此，我们已经可以明确问题的根源在于业务流层面，集团内部缺乏统一的制度、流程来明确项目各节点的划分标准，也没有明确以固定的流程节点划分项目状态。因此，要想治理各部门项目数量的数据问题，就必须在集团管理流程和标准上做出改善。

解决路径：从业务侧的角度，开展跨部门的沟通交流，统一项管部、人力部、商务部的项目状态定义标准；从信息侧的角度，完善项目状态各阶段划分流程，在OA系统中完善、改造流程节点；从数据侧的角度，根据现有流程优化取数逻辑，实现数据的来源一致和跨部门应用。

治理成果：最终，实现了跨部门项目数据的统一，规范了项目全生命周期的管理流程，完成了从数据问题洞察到数据治理的过程。

数据治理成果展示

-业务侧-

-信息侧-

-数据侧-

进行稳健的数据架构设计

在洞察到数据问题所在并进行了数据侧、信息侧或者业务侧的改善后，进行稳健的数据架构设计是拉式策略的第二个流程。这里主要涉及通过数据仓库建模、合理的分层设计、ETL 过程开发等，保障数据模型及架构的稳健性和可扩展性，从而提高数据使用的准确性。关于数仓建模、ETL的相关概念和过程上文已有详细的描述，在此就不赘述。值得强调的是思考数据架构有三个出发点：稳健性、可扩展性和效率。数据仓库架构的稳健性需要通过数据仓库分层来解决；数据仓库的可扩展性要通过数仓建模、维度一致性等方式来解决；效率问题需要通过多系统数据集中、处理，从流程型数据架构转变到分析型数据架构来解决。

数据应用审核管控机制

我们数据治理策略的最后一个流程是建立一个企业内部，面向高层管理者的数据指标管控及审核机制，确保数据应用过程中（上报、可视化分析）的关键数据必须经过有效审核，提升数据使用质量及数据准确性。

以某集团的经营分析会数据审核流程为例，集团总部的填报用户保存、提交数据后，数据会被锁定并流转至集团总部的审核用户处。如果数据审核通过，它会被定版并做会前使用准备；如果数据审核不通过，它则会被退回填报用户处，并且系统会自动推送审核失败原因给填报用户，后台同步更新审核记录和状态。

子产业集团的填报用户提交数据后，流程情况与集团总部的填报用户类似，只是需要额外经过一轮子产业集团审核用户的审核。如果在子产业层面审核通过，数据将会做会前准备定版，流转至集团总部审核用户处。如果集团总部数据审核不通过，数据将会被直接退回子产业数据保存中心，并推送原因给子产业填报用户。总之，双重审核流程保障了子产业集团数据上报的准确性，进而提高了集团总部高层使用数据的质量。

某集团经营分析会数据审核流程

总结

企业表层数据问题的产生往往有深层次的业务系统设计、流程制度管理方面的原因，因此要想通过数据治理提升企业数据的质量，就不能仅仅依靠一个工具或产品解决表象的问题。我们提出了企业数据治理的拉式策略（Pull Strategy）和推式策略（Push Strategy）来满足不同的数据治理需求。考虑到当今企业面临的复杂环境，实施周期更短、治理成本更低的拉式治理策略更能及时满足企业数据消费的需求，是一种更灵活、更敏捷的数据治理方式。在该策略下，基于指标体系的“数据流-信息流-业务流”分析逻辑能够帮助企业发现、洞察、追踪数据问题产生的根源；稳健的数据架构设计能够帮助企业解决数据质量的问题；数据应用审核管控机制的建立能够帮助企业解决错误数据被使用的问题。经过系统化的数据治理，企业数据质量将更能满足消费的需求，基于数据的决策也将更加精准。

本文摘录于帆软最新《商业智能应用白皮书 5.0》

本白皮书对170多位企业CIO、CTO、数据管理负责人或拥有同等职责的IT负责人的调研，了解IT管理者对BI的应用情况、价值诉求、技术需求、主要参考因素。通过对调查情况分析，深度洞察BI现状和发挥数据应用价值的关键，并基于此提出专业建议，以帮助企业推动决策改善、推进企业数字化转型，白皮书中不少观点可以给大家来年数据工作立项带来一些参考。

扫描下方二维码或点击阅读原文链接即可下载完整PDF资料

0回帖数	1关注人数	5685浏览人数
最后回复于：2024-9-20 09:29