Data integrity at the origin
先引一段文字表述一下核心观点:
今天,许多组织对如何解锁用于分析的数据的解决方案是建立迷宫般的数据管道。管道从一个或多个数据源检索,清理,然后转换数据并将其移动到另一个位置以供使用。这种数据管理方法通常会让使用数据的管道承担一项困难的任务,即验证入站数据的完整性,并构建复杂的逻辑来清理数据,以满足所需的质量级别。根本的问题是,数据源没有为其消费Data integrity at the origin者提供高质量数据的动机和责任。出于这个原因,我们强烈主张从源头保证数据完整性,我们的意思是,任何提供可消费数据的源都,必须明确地描述其数据质量的标准,并确保这些标准。这背后的主要原因是,原始系统和团队最熟悉他们的数据,并且最适合在源头修复它。数据网格架构更进一步,将可消费数据与产品相比较, 其中的数据质量及其目标是每个共享数据集的整体属性。
这里面其实有个非常重要的理念:我们强烈主张从源头保证数据完整性,我们的意思是,任何提供可消费数据的源都,必须明确地描述其数据质量的标准,并确保这些标准。
不少公司为了短期快速实现数据决策支持能力,并未对数据源头进行很好的管控和治理。导致只能疯狂通过各类ETL技术,清洗,补偿数据以保证偏差不要太大。这样做的恶果只会放纵提供数据的系统更加无视数据质量,统统认为那是数据清洗应该干的事情。
就这样你会慢慢地获得一个庞大的数据清洗团队,以及很多没人说得清楚的处理逻辑。这个团队会成为你不可或缺的 “核心能力”。
请记住数据的治理在源头
,系统流程闭环才能保证数据链路完整。
在处理好源头前,谈那么多大数据,AI,其实听起来感觉更像是,(一)大(堆垃圾)数据, 人工(弱)智能。