小结

数据治理学习笔记目前也写了三期了,看了看有近三万个字了。想阶段性地做一个总结,同时展望下后续还能梳理更新哪些内容。

首先是对三期内容的小结。在第一期的笔记我从学界业界,国内国外的文献材料中进行甄选解读,记录下了我的感受及想法。学界和业界,国内和国外对数据治理的侧重点各有所不同(可以考虑做一个象限图)。秉持着理论一定要能落地的实践精神,我认为国内业界的材料最具参考价值。对于数据治理的定义,我保留了国外学界的定义因为我觉得最全面:

Data governance specifies a cross-functional framework for managing data as a strategic enterprise asset. In doing so, data governance specifies decision rights and accountabilities for an organization’s decision making about its data. Furthermore, data governance formalizes data policies, standards, and procedures and monitors compliance.

数据治理是一套跨职能的管理框架,最终目的是要提升企业的效率以及经营状况。

第二期的笔记我整理了数据可以分为哪几类,按照分类最细的华为数据分类管理框架进行展开解读。现在想想虽然按照逻辑上来说是先介绍数据分类,并且华为也是将数据分类放在靠前的章节,但是对绝大多数企业包括读者来说还是先实现/介绍数据治理最核心的主干内容比如元数据更加合适。细枝末节的部分其实在主干内容介绍完毕后再补充完善也是好的。

第三期的笔记就是数据治理的核心内容元数据了。对于元数据是数据治理的核心内容,阿里、网易和华为三家都有自己的表述。元数据中心作为元数据运维的功能模块,阿里认为元数据是数据资产管理的核心层;网易认为元数据中心是数据中台的核心组成部分;华为认为数据的价值需要通过元数据中心落地。我观察到这期笔记中出现了大量的术语,比如“数据资产管理”、“数据资产目录”、“主题域”、“数据模型”、“数据服务”等等。这些术语根据名词的组合可以猜出其功能含义,但是各家厂商又在这些术语的概念上做文章,在搜索引擎中找不到标准答案。比如在华为的理论体系中,包含主题域的数据资产目录形成了完善的企业资产地图,而数据地图是另一套框架体系;在网易的理论体系中,数据地图就是基于元数据中心构建的一站式企业数据资产目录。可以说在不同的资料中,同样一个术语的使用有跨服聊天的感觉,哪怕只阅读华为的一本书,也容易被其前后的表述绕晕。其中很多的关键术语和定义都是碎片化叙事,散落在各个章节中同时很少有实例,让买这本书物有所值别想读一遍就能读懂。

展望

小结中提到了各厂商对于术语的定义和使用不同且存在碎片化定义的特点,就让笔记的整理工作显得极具挑战了。下一期笔记介绍什么内容,如何才能系统科学地统筹表述各个厂商理论中的相同与不同,让我感觉难以下笔。我想先在这提炼一下各家厂商数据治理的体系与思路。

阿里的 OneData,OneEntity,OneService 体系是最惊艳的,代表统一数据建设与数据资产化管理能力、统一实体连接识别与标签画像高效生产能力和统一数据服务能力。但是书是真的很抽象,一般知识技术类的书籍会在前言里介绍本书的组成部分和章节逻辑,《大数据大创新:阿里巴巴云上数据中台之道》这本书的前言是一切都是最好的安排。所以就略过这本书了。当然《大数据大创新:阿里巴巴云上数据中台之道》这本书不是技术人员编写的,阿里另外还有几本数据相关书籍。《大数据之路》这本书对技术做了较为详细的解释,也有人做了博客笔记,推荐阅读。

网易的数据中台实战课是我最推荐的,因为他把理论和业务解释的最清楚。豆瓣上对《华为数据之道》的评价是太像政府报告和华为法典了,那数据中台实战课就是面向落地和实践:让读者读懂学会而编写的。在实践部分,整套课程先介绍了元数据中心需要实现的功能(数据字典,数据血缘和数据特征)。之后以元数据中心为基础,介绍了数据治理几项关键能力的意义、场景以及实现方法,包括:

  • 指标标准
  • 数据模型
  • 数据质量
  • 数据成本
  • 数据服务
  • 数据资产管理

作者给出了许多实例和场景,并且对于每一个能力介绍了开源产品,分享了自己在推动项目落地中的经验。
网易元数据中心

《华为数据之道》的编写逻辑,我想引用这本书前言中的内容简介:

  1. 第一章阐述了企业数字化转型的挑战和理念
  2. 第二章理顺了数据与变革、运营、IT之间的协同关系
  3. 第三章阐述了不同类型数据的不同管理方式,明确数据管理的责任主体在业务
  4. 第四章介绍了信息架构的四组件:数据资产目录,数据标准,数据模型,数据分布
  5. 第五章介绍了数据湖和数据主题联接
  6. 第六章提出了数据服务,数据搜索加工分析的消费过程管理方案
  7. 第七~九章介绍了数据治理的三项关键能力:关联感知,综合提升,可控分享
  8. 第十章是对未来的思考

书中的部分指导意见,提出了很多酷炫的名词,我只能说在我见到实例之前我会认为这是拍脑袋想出来的,经不起实践检验。一些偏实践的内容可以在华为云的文档中找到,但是大多也是蜻蜓点水。华为在第二章中强调业务负责制的数据管理责任体系,分层分级任命数据管理组织倒是和学界的一些管理体系对接了。

至于后续如果要继续更新笔记的话,从哪个角度入手合适。我觉得一方面是可以直接从实践入手,介绍开源产品的使用体验和理论的落地效果;另一方面从各个理论体系中的术语入手,比如“数据资产管理”,“数据模型”等统筹分析各家理论的异同。考虑到术语在不同书下的不同定义和一本书中的碎片化定义,我觉得使用双链知识管理可以很好地将几家的理论梳理清楚。但是要将几家的理论完全消化做好双链,也需要大量的时间和精力。也要权衡同样的精力放在理论整理上,说不定在实践侧可以得到更深的体会,转化为更有用的知识。

Q.E.D.