数据治理:治数VS养数,哪个棋高一招?

楼主
学无止境,精益求精

来源:谈数据

作者:石秀峰

Hi,大家好,今天继续聊数据治理!

站在“企业数字化转型”这个时代浪尖上,我相信,数据领域乃至整个IT界“数据治理”这个词应无人不知、无人不晓了吧?如果你身边还有没听过“数据治理的,赶紧把咱们的公众号【谈数据】的名片推给他,哈哈~

关于企业数字化转型为什么要做数据治理,我在文章数据战略的8个要素一文中曾提到,原因无外乎两个:“一是无数据可用,二是无可用数据。”

方面,“数”到用时方恨少。在一些传统企业,IT一直被认为是支撑性职能,从来没有将数据作为一个重要生产要素去看待。在以往的信息化建设过程中,都是“以流程为驱动,以线上化、自动化为目标”,数据思维和数据意识淡薄,没有将精力放在数据的收集、整理和处理上,导致“无数据可用”。

另一方面,事因经过始知难。每个企业都希望将数据用起来,用它来驱动企业的决策和管理,实现数字化转型。但是,数据分散在各个信息孤岛中,缺乏统一的数据标准,彼此之间无法很好地通信,数据质量低下,不一致、不完整、不准确、不及时等问题常见,导致了“Garbage in, Garbage out”。有数据却无可用的数据,你说气人不?!

今天我们展开这个话题,详细聊一聊如何解决以上这两个问题。今天聊的话题中涉及一个新的名词—“养数据”。

>>>01 “养数据”的内涵

“养数据”其实也算不上是一个新词儿了,车品觉老师的《决战大数据》(2014年出版)一书中就曾提到:“主动收集数据的行为即为养数据”。

笔者认为“养数据”不仅在数据收集上,而是应贯穿在数据的收集、处理和使用的全生命周期中。养数据就如同“养猫、养狗、养孩子”一样,需要持续地投入。“养”有两个层面的含义,一是要将数据“养大”,收集、积累和沉淀大量的数据;二是要将数据“养活”,提升数据的“活性”,让数据易用、好用!

1、养“大”数据

养“大”数据,就是收集、积累和沉淀大量的数据,让企业有数据可用。这里有个误区,究竟数据养多大才算是“大”?其实,养“大”数据不在于收集的数据体量有多大,更重要的是能够为企业带来多大的潜在价值!

2014年大数据正如火如荼的时候,我们接到一个大数据项目,客户的要求是将所有业务系统的数据全部接入到大数据平台,具体为什么要收集这些数据,要这些数据干什么?这些问题客户并没有想好。按照当时客户的思路是:大数据一定是有价值的,虽然我们现在不知道怎么用它,但我们现在把它收集起来,说不定将来的哪一天就能用到了。后来,数据收集的越来越多,管理的成本越来越大,但实际上却没有使用起来,虽然该项目最终成功验收了,但在我看来,这个项目不算是一个成功的项目,因为它没有给客户真正带来价值。

没有目标的收集数据,就只是单纯的收集数据,并不是“养数据”。“养数据”是需要带有明确的目的性的,因为数据是枯燥的,数据也不会自己说话,需要人运用适当的方法从这些枯燥的数据中提取有价值的信息。因此,“养数据”的过程,需要对数据收集的内容、渠道、方法进行策划,以确保通过正确的方法收集正确的数据,进而确保数据分析过程是有效的。

2、养“活”数据

养“活”数据,提升数据的“活性”和质量,打通数据孤岛,实现数据交换共享,让企业有可用数据。盲目的收集数据并不能让数据“活”起来,所收集的数据都是“死数据”。所谓“死数据”也叫“暗数据”,指那些企业在日常业务活动中收集、处理和存储,但未被发掘或理解、不具备特定用途的数据。

我们上文讲过“数据收集要有目的性”,这没错。但在实际的数据收集的过程中,很多情况下我们并不能直接收集到所需的关键数据,这就要求企业不仅要“活”做数据收集,还要“活”做数据管理,提升数据质量并以避免“死数据/暗数据”的发生。“活”做数据收集是针对不同的数据类型、不同的应用场景,采用不同的数据收集方法进行灵活收集数据。“活”做数据管理的重点是建立灵活的数据管理和共享机制,让合适的人在合适的时间能够获得合适的数据。

>>>02 企业数据到底怎么养

介绍了养数据的概念,可能很多人更加关心到底该如何“养数据”。个人认为企业要养好数据,得从以下5个方面入手。

1、将“养数据”作为一种战略

关于数据如何赋能数字化转型,大家谈的更多的是数据分析、数据挖掘、模型、算法、可视化、报表、仪表板、大屏等数据应用相关内容,我们把这些内容都可以称为“用数据”。但是,“巧妇难为无米之炊”,如果企业“无数据可用”,那模型再强大、算法再完美、界面再漂亮,可能也无济于事。

“用数据”需要的是技术、方法和工具,而“养数据”一定从战略思维开始。只有将数据不断“养大、养活”数据的价值才能被激发和释放。正如车品觉老师所说“养数据是一种数据战略,是基于深入业务理解的更高层次的商业决策,数据养的时间越早,积累的数据也就越多。”

2、从收集数据开始,将数据“养大”

保证企业“有数据可用”,从有效和正确的收集数据开始,数据收集越早,积累的越多,能够带来的潜在价值就越大。

人们普遍认为数据收集就是需要将来自不同来源系统的数据复制或迁移到一个中央数据存储库中(例如如数据仓库或者数据湖),进行统一管理。但这只是数据收集的一个环节而已,并不是数据收集的全过程。不同的行业、不同的业务场景、不同的数据类型,所需要的数据收集流程也不一样,核心的流程总体可以归纳如下:

①确定收集需求,数据收集一定是为业务需求服务的,不能盲目收集,数据收集到“最小够用”即可。没有目标的盲目收集,不仅可能造成成本的浪费,还可能引发“合规性”的风险(例如违反个人信息保护法)。

②确定数据源,明确要从哪里获取数据,例如:企业内部还是外部数据。

③确定收集方式,针对不同数据应用需求和数据源类型选择相应的数据采集方式,例如:表单采集、报表采集、库表批采、文件采集、消息采集、流式采集、爬虫采集、埋点采集等。

④执行数据收集。在收集非结构化、半结构化数据过程中利用图像识别、语音识别、自然语言处理等AI技术对这些数据进行结构化处理,并提供统一的元数据查询,是解决“无数据可用”的一个重要解决方案。遗憾的是,这些技术还处于探索阶段,还未形成普及化的产品和应用。

⑤分析验证,验证收集的数据是否有效,是否能够满足业务所需。

⑥数据入湖,将收集/采集的数据存入中央数据存储库中(数据湖或数据仓库)。

3、灵活的数据管理机制,将数据“养活”

尽管我们明确了数据需求,定义了数据源,但也并不是每个收集来的数据对企业都是有价值的。在数据收集来之后,数据分析之前,所有数据都必须经过统一组织和管理,包括数据的清洗、编目、整合和治理,“盘活”数据,让数据能够被“看得见、找得到、用得好”,提升数据的价值。

①数据处理。对收集来的结构化和非结构化数据进行转换和整理,确保数据正确、有效、可用和安全。统一提取这些数据的元数据并进行存储和管理,并补齐关键元数据,使其具备可识别性。

②数据编目。数据编目就是为数据建立一个目录,并向用户提供获取数据可访问性、健康和位置等内容所需的必要信息。编目的方式有手工编目和自动编目,主要涉及数据的识别、编目和发现。随着机器学习、人工智能等技术的应用,增强了企业数据管理的能力,让编目工作越来越自动化。

③数据服务。基于数据目录开发和发布数据服务,控制访问权限,让合适的用户在合适的时间找到合适的数据,并监控数据服务的使用情况,以便根据数据的质量和使用情况,对相关数据及时作出反馈和调整。

4、数据来源于业务,最终还是要回归业务

在企业数字化转型的路上,必须牢记的一个原则是“数据来源于业务,且必须回归于业务”,我们将数据“养大”、“养活”不是目的,而是过程,“养数据”的本质目的还是要让数据能够对企业的业务起到更好的驱动或支撑作用。

① 数据是由业务产生的,从业务规划和设计之初,就要做好“养数据”的准备。大到整体的企业架构规划,小到一个业务模块的流程、表单和操作设计,都需要考虑如何才能收集到完整、准确、真实的数据,做好与之对应的数据规划,例如:数据架构、数据标准、数据分布、数据流向等。

②“养数据千日,用数据一时”,将“养数据”作为企业的一种习惯,一种文化,企业的数据战略才能真正落地。同时,只养好数据还不够,还需要培养“数据化思维”,坚持“用数据说话、用数据管理、用数据决策”,将数据应用在日常工作中。

③养数据、用数据、流程优化,是一个相互作用,互为驱动的关系。企业业务是经常变化的,因此“养数据、用数据”的过程也需要随着业务的变化而进行调整。另一方面,数据的分析、挖掘和应用,也会发现业务的一些问题、不足或机会,这时候企业就需要对业务流程进行调整、优化,甚至重构。

>>>03 治数VS养数,哪个棋高一招?

这是一个伪命题,如果你看过我之前的数据治理文章,也不难得出这个结论:治数与养数并没有高低之分,养数据也是一种数据治理的策略,而数据治理以全面的视角,为养数据提供保障。本质上,养数据即为数据治理,数据治理也是养数据!

1、狭义理解:养数据过程的治数

上文我们说过,养数据就像养小孩一样,需要持续投入,以使其茁壮成长。但这个过程并不容易,有孩子的读者一定深有体会,孩子生病即使只是最为普通的感冒,也会让父母操碎了心。

养数据的过程也一样,你的数据宝宝也是会经常“生病”的,例如:

请参考数据治理的成功要素3:治理的时机和切入点

生了病就得治,早治早好!

这里的“治”主要是针对数据问题的“症状”进行治理,是狭义层面的治理,以解决实际数据问题为主,常见的治理手段包括:主数据管理,元数据管理、数据标准管理、数据质量管理等。

2、广义理解:养数据过程的治数

“养数据”是企业的数据战略,一定从战略思维开始,不仅包含了数据收集和管理的各种技术、方法和工具,更包含了数据管理的组织、制度和流程。在我的新书《一本书讲透数据治理:战略、方法、工具与实践》(下附购买链接)中,将数据治理分为了“道、法、术、器”四个层面,其中:数据治理之道即涉及数据战略、数据组织、数据文化;数据治理之法则主要讲解组织实施数据治理的方法论;数据治理之术主要对数据治理用到的技术进行了说明;数据治理之器即为数据治理/管理常用的工具/系统。

因此,从广义上理解,养数据的过程就是数据治理,数据治理也是养数据!

【END】

 

最后,感兴趣的关注公众号,后台回复“资料”,我们整理了6个G数据平台、数据仓库、数据仓库、数据治理、企业数据化管理案例,供大家免费领取!

 

 

 

 

 

 

分享扩散:

沙发
发表于 2022-2-17 13:33:22

数据中台、数据海、数据湖、数据河、数据井、数据泵,我人麻了

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

1回帖数 2关注人数 4041浏览人数
最后回复于:2022-2-17 13:34

返回顶部 返回列表