终于有人把数据中台、数据仓库、数据治理和主数据给讲明白了!

楼主
学无止境,精益求精

数据中台、数据仓库、数据治理和主数据这些概念对于很多人来说仍显得抽象。用一些通俗的语言和生活中的比喻,深入解析这些关键概念。

正文开始前,给大家推荐一个《让数据成为生产力6.0,本资料收录了帆软标杆用户在企业决策、流程优化、产品创新、市场拓展等方面的最新应用实践,更揭示了数据生产力对于提升企业核心竞争力的重大意义。

扫描下方二维码或复制链接(https://s.fanruan.com/uoy8c)即可免费下载完整PDF!

数据中台:数据的“中央厨房”

想象一下,你是一家大型餐厅的厨师长,每天需要处理从不同供应商那里采购的多种食材。为了确保食材的新鲜、卫生与高效利用,建立一个中央厨房就显得尤为重要。这个中央厨房的角色就是数据中台在企业中扮演的角色

数据中台整合来自不同业务部门、系统和渠道的数据,对其进行清洗、加工和标准化处理,然后再将处理后的数据提供给业务部门使用。就像中央厨房确保食材的质量和一致性,数据中台则确保数据的质量、一致性和可用性,从而更好地支持企业的决策和运营。

数据中台不等于大数据平台,数据中台的核心工作也并不是将企业的数据全部收集起来做汇总就够了。

数据中台的使命是利用大数据技术、通过全局规划来治理好企业的数据资产,让数据使用者能随时随地获取到可靠的数据。因此,数据中台一旦建成并得以持续运营,其价值将随着时间的推移将呈指数级增长。

数据中台建设是一个宏大的工程,涉及整体规划、组织搭建、中台落地与运营等方方面面的工作,本节重点从物理形态上讲述企业的数据中台应该如何搭建。一般来讲,企业的数据中台在物理形态上分为三个大层:工具平台层、数据资产层和数据应用层。

1.1 工具平台层

工具平台层是数据中台的载体,包含大数据处理的基础能力技术,如集数据采集、数据存储、数据计算、数据安全等于一体的大数据平台;还包含建设数据中台的一系列工具,如离线或实时数据研发工具、数据联通工具、标签计算工具、算法平台工具、数据服务工具及自助分析工具。

以上工具集基本覆盖了数据中台的数据加工过程。

1.2 数据资产层

数据资产层是数据中台的核心层,总体来讲,可以划分为主题域模型区标签模型区算法模型区

①主题域模型

主题域模型是指面向业务分析,将业务过程或维度进行抽象的集合。业务过程可以概括为一个个不可拆分的行为事件,如订单、合同、营销等。

为了保障整个体系的生命力,主题域即数据域需要抽象提炼,并且长期维护和更新,但是不轻易变动。在划分数据域时,既要涵盖当前所有业务的需求,又要保证新业务能够无影响地被包含进已有的数据域中或者很容易扩展新的数据域.

②标签模型

标签模型的设计与主题域模型方法大同小异,同样需要结合业务过程进行设计,需要充分理解业务过程。

标签一般会涉及企业经营过程中的实体对象,如会员、商品、门店、经销商等。这些主体一般来说都穿插在各个业务流程中,比如会员一般都穿插在关注、注册、浏览、下单、评价、服务等环节。那么在设计标签的时候就需要充分理解这些业务流程,在流程中发现标签的应用点,结合这些应用点来搭建企业的标签体系。标签模型按计算模式一般分为客观标签和主观标签。

设计标签模型时非常关键的要素是标签模型一定要具有可扩展性。毕竟标签这种数据资产是需要持续运营的,也是有生命周期的,在运营的过程中随时可能增加新的标签。

③算法模型

算法模型更加贴近业务场景。在设计算法模型的时候要反复推演算法模型使用的场景,包括模型的冷启动等问题。整个模型搭建过程包含定场景、数据源准备、特征工程、模型设计、模型训练、正式上线、参数调整7个环节。

以新零售企业为例,常用的机器学习算法有决策树、神经网络、关联规则、聚类、贝叶斯、支持向量机等。这些算法已经非常成熟,可以用来实现商品个性化推荐、销量预测、流失预测、商品组货优化等新零售场景的算法模型。

1.3 数据应用层

数据应用层严格来说不属于数据中台的范畴,但数据中台的使命就是为业务赋能,几乎所有企业在建设数据中台的同时都已规划好数据应用。数据应用可按数据使用场景来划分为以下多个使用领域:分析与决策应用、标签应用、智能应用

数据仓库:数据的“图书馆”

假设你是一位图书馆管理员,每天的职责是管理和维护图书馆中的成千上万本书。你必须确保每本书按照类别、作者、出版日期整齐有序地摆放,以方便读者查找和借阅。数据仓库在企业中的作用就像这个图书馆。它存储了大量历史数据和结构化数据,并按照一定的规则和格式进行组织。与数据中台不同,数据仓库更注重数据的长期保存和查询分析,提供强大的数据查询和分析能力,帮助企业深入了解市场、客户和业务流程,从而发现潜在的机会和风险。

一般来说,数据仓库是一个面向主题的、集成的、相对稳定的,并反映历史变化的数据集合,它主要用于支撑管理人员的决策过程。

  • “面向主题”:意味着数据仓库是围绕企业的具体业务需求进行构建的,旨在提升管理效率;

  • “集成”:则是指它能够将来自不同平台的数据进行汇总,打破数据孤岛,同时在整合过程中实现数据治理和编码的标准化;

  • “相对稳定”:强调的是数据仓库不会直接连接到业务系统,而是通过从业务系统中提取数据来工作,以避免对业务系统性能造成影响;

  • “反映历史变化”:则指的是数据仓库能够存储并反映业务系统的历史数据,为未来的大数据挖掘与分析提供重要依据。

接下来,我们明确“数仓”的概念:

数仓,即数据仓库,是企业决策支持体系中的核心组成部分。它从管理需求出发,整合各业务系统的数据资源,通过数据处理工具生成数据仓库,并应用于企业的各个业务领域。数据仓库的运用主要聚焦于优化企业的业务流程、监控时间、成本、质量等关键指标,从而助力企业实现更高效、更精准的管理决策。

 

数据治理:数据的“交警”

城市交通中,交警的职责是维护交通秩序,确保车辆和行人遵循交通规则,防止交通拥堵和事故发生。在数据世界中,数据治理就好比这样的交警。数据治理是对数据进行全面管理和规范的过程,确保数据的准确性、一致性、安全性和可用性,同时防止数据滥用和泄露。数据治理还负责制定数据管理的规章制度,监督数据的采集、存储、处理和使用过程,确保数据在整个生命周期中都得到妥善管理。

数据治理体系内容从两个维度来看:

1)数据治理难点痛点:数据脉络不清晰、数据汇聚能力不足、数据管控能力薄弱、数据治理体系不完善、开放形式不完善。

2)数据治理5个核心:理、聚、管、治、用。

数据治理是企业对数据资产管理行使权力和控制的活动集合(包括计划、监督和执行),它是管理企业数据资源的一种方式、方法,旨在确保数据的质量、安全、合规和有效性。数据治理是企业实现数据战略的基础,是一个管理体系,包括组织、制度、流程和工具。

数据治理是一套复杂的管理体系,它无法通过单一的工具或产品来实现。数据的生命周期包含了源头、处理和消费这三个阶段,数据的问题也可能会出现在这三个环节中。

例如在数据源头环节,用户录入数据的规范性存在问题,导致了最终数据消费环节的数据质量低。这些表象问题的根源,可能来自于业务系统用户交互设计,乃至是底层数据库表结构设计上的缺陷。想要解决这些表象的问题,就需要解决深层次的信息化业务系统开发以及数据库表约束设计等问题。

例如为了保证用户录入数据的准确性,有三种方式去设计业务系统:其一是设计前端的检验验证,避免用户做出相同的选择;其二是通过程序编写过滤判断的逻辑,筛除掉前端误入的数据,作为第二层验证;其三是通过建立约束条件,例如唯一性约束、检测约束等等来控制数据录入准确性。

因此,企业的数据治理远非使用一款单一的工具或产品就可以实现的,它是需要回到源头,对企业的组织、流程制度、业务系统、底层架构等多个方面进行排查和重构的,它是一套复杂的管理体系。

主数据:数据的“身份证”

最后,我们来谈谈主数据。每个人都有自己的身份证,它是个人身份的证明。在数据世界中,主数据就像是数据的“身份证”主数据是企业内部最关键、最核心的数据,描述了企业的核心业务实体,如客户、产品、供应商等。主数据具有唯一性和权威性,是企业内部各部门和系统之间共享和交换数据的基础。通过管理和维护好主数据,企业可以确保数据的一致性和准确性,从而提高业务处理效率和决策质量。

主数据是指满足跨部门业务协同需要的,反映核心业务实体状态属性的基础信息。举个例子,公司的员工信息,存在于很多业务系统里,比如人力系统、财务系统、OA系统,以及考勤系统等,但每个系统所需要的信息可能不一样,财务系统需要员工开放信息,比如从哪个银行开户,账号是什么,这样方便打款;人力系统可能只是需要员工的一些入职信息。

这样的员工信息就属于主数据,它在很多企业业务系统被使用,同时还能反映这个员工本身的一些属性。类比下,还有产品、物料、客商、客户、供应商等主数据。

4.1 哪些数据是主数据?

一家企业不只有主数据,还有一些其他数据,这里有一个金字塔结构的企业数据模型,包括关键的基础数据、主数据、业务数据、报表数据。

基础数据可以理解为基本不会发生什么变化的,比如国家货币计量单位,其他维表数据等,其数据就是一些取值范围,也称其为参考数据;主数据就是长期稳定的,能被多个系统使用的,比如组织机构人员、客商等;业务数据是指一些业务交易系统所产生的数据,包括订单的记录、还有一些考勤记录等,与主数据捆绑的比较紧;报表数据是基于下面三类数据做的一些分析呈现,报表数据的主要作用是通过结果呈现来做预测工作。

4.2 主数据、业务数据与元数据的区别

表头是元数据,这些字段本身描述了字段的一些属性信息;而主数据其实是一条记录,这条记录可以划分为两部分,一部分是主数据,描述核心业务实体属性的数据,另外一部分就是主数据在业务交易过程中由系统产生的数据。总的来说,所有这些数据作为企业的一部分,只要能产生价值,它都可以称之为数据资产,能去支撑企业上层的生产、财务、项目管理等。

4.3 主数据的4个特性

(1)唯一性在一个系统、一个平台甚至一个企业范围内同一主数据要求具有唯一的识别标志(代码、名称、特征描述等),用以明确区分业务对象、业务范围和业务的具体细节。

(2)共享性:主数据特征会被作为业务流程的判断条件和数据分析的具体维度层次,因此需保证主数据的关键特征在不同应用、不同系统中的高度一致共享,形成统一规范 。

(3)稳定性:主数据作为用来描述业务操作对象的关键信息,在业务过程中其识别信息和关键的特征会被交易过程中产生的数据继承、引用、复制,但主数据本身的属性通常不会随交易的过程所被修改。

(4)有效性:只要该主数据所代表的业务对象仍然在市场中继续存在或仍具有意义,则该主数据就需要在系统中继续保持其有效性,通常贯穿该业务对象在市场上的整个生命周期甚至更长。

因此,对于大数据平台来说,主数据是非常重要的一类数据,几乎出现在所有的数据处理和分析中,具体到批处理和实时处理又有所不同。

  • 对于批处理来说

主数据可以同步自主数据管理系统的数据库,在数仓(数据仓库)体系下,几乎所有的主数据都是维度数据,需要建立相应的维度表以支撑业务查询和分析;

  • 对于实时处理来说

在各种流式计算的过程中也需要获取主数据进行关联处理,而实时处理要求主数据的获取也必须是实时的,这对系统的架构设计提出了挑战。如果原始的主数据管理系统对外提供了获取主数据的API,对于普通的应用系统这是很有利的条件,它们可直接通过API实时获得主数据。但是对于大数据系统来说,情况就不那么乐观了,因为大数据处理过程中的巨大吞吐量和流计算处理中对主数据的使用频率都远远超过一般的应用系统。如果大数据平台通过主数据管理系统的API获取主数据,无论是从并发压力还是从响应的及时性上都可能无法满足要求,还有可能给主数据管理系统带来过大的负载,导致其响应缓慢甚至宥机。

为满足实时计算对主数据的需求,有两种可选的技术方案。

(1)方案一

如果主数据体量不大,变更也不频繁,可以考虑将这些数据通过API读取到大数据工作节点的内存中,在数据处理过程中直接使用,然后周期性地从主数据管理系统同步最新状态的主数据。

(2)方案二

改造主数据管理系统,引入内存数据库,如Redis, 针对所有主数据,除常规持久化的业务数据库外,再配备一个内存数据库的副本,将这个内存数据库开放给大数据平台使用。

方案一的优点是架构简单,易于实现,但是对主数据有预设条件不能成为一种广泛使用的方案方案二是一套很完备的技术方案,可以满足各种主数据获取需求,代价是架构比较复杂,如果企业正在构建的是一整套大数据平台,方案二是值得一试的, 从技术上讲,主数据管理系统是一个相对传统的Web 应用,负责维护主数据的增删查改,同时对外提供获取主数据的 API, 对于大数据平台,最好提供以内存数据库为依托的数据读取服务。综合这些因素,企业在建设大数据平台时应该结合现状灵活地选择方案。

定位与差异:协同作战的团队成员

通过以上的比喻,我们可以更好地理解这些概念的定位和差异。数据中台作为数据的“中央厨房”,负责数据的整合和加工;数据仓库作为数据的“图书馆”,负责数据的存储和查询分析;数据治理作为数据的“交警”,确保数据的规范和安全;而主数据作为数据的“身份证”,确保数据的权威性和一致性。

这些概念在企业中相互协作,共同构成完整的数据管理体系。就像一支协同作战的团队,数据中台负责调度和整合数据资源,数据仓库提供数据存储和查询支持,数据治理确保数据的安全和规范,而主数据确保数据的准确性和一致性。这个团队共同为企业提供了强大的数据支持,帮助企业更好地应对市场挑战和抓住机遇。

分享扩散:

沙发
发表于 3 天前
以前的《专家洞见》这个栏目文章还有吗
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

2回帖数 1关注人数 424浏览人数
最后回复于:前天 09:33

返回顶部 返回列表