1.1. 应在企业数据质量项目的规划阶段建立工具架构并选择相应工具
1.2. 工具可以提供部分规则集的启动工具包,但是组织需要在工具中创建适合自己特定语境的规则和动作
1.3. 数据剖析工具
1.3.1. 数据剖析工具生成高级别的统计信息,分析人员能够据此识别数据中的模式并对质量特征进行初始评估
1.4. 数据查询工具
1.4.1. 数据剖析只是数据分析的第一步,它有助于识别潜在问题。数据质量团队成员还需要更深入地查询数据,以回答分析结果提出的问题,并找到能够深入了解数据问题根源的模式
1.5. 建模和ETL工具
1.5.1. 用于数据建模和创建ETL过程的工具对数据质量有直接影响
1.6. 数据质量规则模板
1.6.1. 规则模板给予分析人员机会捕获客户对数据的期望,还有助于弥合业务团队和技术团队之间的交流鸿沟
1.6.2. 持续制定一致性的规则可以简化将业务需求转化为代码的过程,无论该代码是嵌入在规则引擎中还是数据分析工具的剖析组件或者数据集成工具中
1.7. 元数据存储库
1.7.1. 定义数据质量需要元数据,而高质量数据的定义是元数据的一种价值呈现方式
1.7.2. 数据质量团队应与管理元数据的团队密切合作,以确保数据质量要求、规则、测量结果和问题文档可供数据消费者使用
2. 方法2.1. 预防措施
2.1.1. 创建高质量数据的最佳方法是防止低质量数据进入组织
2.1.2. 预防措施可以阻止已知错误的发生,在事后对数据进行检查并不能提高其质量
2.1.3. 建立数据输入控制
2.1.3.1. 创建数据输入规则,防止无效或不准确的数据进入系统
2.1.4. 培训数据生产者
2.1.4.1. 确保上游系统的员工了解其数据对下游用户的影响,对数据的准确性和完整性进行激励或基础评估,让其不仅仅追求录入速度
2.1.5. 定义和执行规则
2.1.5.1. 创建一个“数据防火墙”,一个包含用于检查数据质量是否良好的所有业务数据质量规则的表,然后用于应用程序(如数据仓库)中
2.1.6. 要求数据供应商提供高质量数据
2.1.6.1. 检查外部数据供应商的流程,以检查其结构、定义、数据源和数据出处
2.1.6.2. 有助于防止使用未经授权的数据,或者未得到所有者许可而获取的数据
2.1.7. 实施数据治理和管理制度
2.1.7.1. 确保定义并执行以下内容的角色和责任:参与规则、决策权和有效管理数据和信息资产的责任
2.1.7.2. 与数据管理专员合作,修改数据生成、发送和接收的流程和机制
2.1.8. 制定正式的变更控制
2.1.8.1. 确保在实施之前对存储数据的所有变更进行定义和测试
2.1.8.2. 通过建立把关过程,防止在正常处理流程之外直接更改数据
2.2. 纠正措施
2.2.1. 问题发生并被检测到之后,实施纠正措施
2.2.1.1. 数据质量问题应系统地、从根本上解决,最大限度地降低纠正措施的成本和风险
2.2.1.2. “就地解决问题”是数据质量管理中的最佳实践,这通常意味着纠正措施应包括防止产生质量问题的原因再次发生
2.2.2. 自动修正
2.2.2.1. 自动更正技术包括基于规则的标准化、规范化和更正
2.2.2.2. 修改后的值是在没有人工干预的情况下获取或生成和提交的
2.2.2.3. 自动更正需要一个环境:具有定义良好的标准、普遍接受的规则和已知的错误模式等
2.2.3. 人工检查修正
2.2.3.1. 使用自动工具矫正和纠正数据,并在纠正提交到持久存储之前进行人工检查
2.2.3.2. 自动应用名称和地址修正、身份解析和基于模式的修正,并使用一些评分机制来提出修正的置信水平
2.2.4. 人工修正
2.2.4.1. 在缺乏工具、自动化程度不足或者确定通过人工监督能更好地处理变更的情况下,人工更正是唯一的选择
2.2.4.2. 手动更正最好通过带有控制和编辑的界面来完成,该界面为更改提供了审计跟踪
2.2.4.3. 在生产环境中直接进行更正和提交更新的记录方法非常危险,应避免使用此方法
2.3. 质量检查和审核代码模块
2.3.1. 创建可共享、可链接和可重用的代码模块,开发人员可以从存储库中拿到它们,重复执行数据质量检查和审计过程
2.3.2. 精心设计的代码块可以防止许多数据质量问题
2.4. 有效的数据质量指标
2.4.1. 管理数据质量的一个重要组成部分是开发度量指标,以告知数据消费者对其数据使用非常重要的质量特征
2.4.2. 可度量性
2.4.2.1. 数据质量指标必须是可度量的——它必须是可被量化的东西
2.4.3. 业务相关性
2.4.3.1. 虽然很多东西是可测量的,但并不能全部转化为有用的指标
2.4.4. 可接受性
2.4.4.1. 数据质量指标构成了数据质量的业务需求,根据已确定的指标进行量化提供了数据质量级别的有力证据
2.4.5. 问责/管理制度
2.4.5.1. 关键利益相关方(如业务所有者和数据管理专员)应理解和审核指标
2.4.6. 可控制性
2.4.6.1. 指标应反映业务的可控方面
2.4.6.2. 如果度量超出范围,它应该触发行动来改进数据
2.4.7. 趋势分析
2.4.7.1. 指标使组织能够在一段时间内测量数据质量改进的情况
2.4.7.2. 跟踪有助于数据质量团队成员监控数据质量SLA和数据共享协议范围内的活动,并证明改进活动的有效性
2.5. 统计过程控制
2.5.1. 统计过程控制(SPC)是一种通过分析过程输入、输出或步骤的变化测量值来管理过程的方法
2.5.2. SPC使用的主要工具是控制图
2.5.2.1. 是一个时间序列图,包括平均值的中心线(集中趋势的度量),以及描述测算的上下控制界限(围绕中心值的可变性)
2.5.2.2. SPC通过识别过程中的变化来衡量过程结果的可预测性
2.5.2.3. 过程有两种不同类型:流程内部固有的常见原因和不可预测或间歇性的特殊原因
2.5.3. 将SPC应用于数据质量度量是基于以下假设展开的,即数据和制造产品一样,是一个过程的产物
2.5.4. 将SPC应用于控制、发现和提升,第一步是对过程进行度量,以识别和消除特殊原因
2.5.4.1. 该活动建立对过程状态的控制
2.5.5. 第二步是尽可能早地发现异常变化,因为早期发现问题简化了对问题根源的调查过程
2.5.5.1. 对过程的度量也有助于减少常见变化原因的不必要影响,从而提高效率
2.6. 根本原因分析
2.6.1. 导致问题产生的根本原因一旦消失,问题本身也会消失
2.6.2. 根本原因分析是一个理解导致问题发生的因素及其作用原理的过程
2.6.3. 其目的是识别潜在的条件,这些条件一旦消除,问题也将消失
2.6.4. 常见的根因分析技术包括帕累托分析(80/20规则)、鱼骨图分析、跟踪和追踪、过程分析以及五个为什么等
3. 实施指南3.1. 即使数据质量改进工作是从数据治理计划中展开,并得到高级管理层的支持,提高组织内的数据质量也不是一项简单的任务
3.2. 混合方法最有效——自上而下持续地提供支持和资源,自下而上地发现实际存在的问题并逐步解决
3.3. 有关数据价值和低质量数据成本的指标
3.3.1. 为了提高组织对数据质量管理需求的认识,一种方法是通过指标描述数据价值和改进带来的投资回报
3.4. IT/业务交互的操作模型
3.4.1. 业务人员了解数据的意义及其重要性,IT数据管理人员了解数据存储的位置和方式,因此他们能很好地合作将数据质量的定义转换为查询命令或代码,以识别不符合要求的特定记录
3.5. 项目执行方式的变化
3.5.1. 项目监督必须确保项目资金覆盖与数据质量相关的步骤(如分析和评估、质量期望定义、数据问题补救、预防和纠正、构建控制和度量)
3.5.2. 谨慎的做法是确保尽早发现问题,并在项目中预先建立数据质量预期
3.6. 对业务流程的更改
3.6.1. 提升数据质量取决于改进生成数据的流程。团队应能够评估数据质量,并对影响数据质量的非技术(以及技术)过程的变更提出建议
3.7. 为补救和改进项目提供资金
3.7.1. 有些组织即使意识到了数据质量问题也不准备补救数据,但数据是不会自行修复的,应衡量好补救与改进项目的支出与收益
3.7.2. 只有如此,数据改进才会优先处理
3.8. 为数据质量运营提供资金
3.8.1. 维持数据质量需要持续操作,以监控数据质量、报告发现的问题,并在发现问题时继续管理问题
3.9. 就绪评估/风险评估
3.9.1. 管理层承诺将数据作为战略资产进行管理
3.9.1.1. 要获得管理层对数据管理的支持,就要明确高级管理人员能否理解数据在组织中扮演的角色
3.9.2. 组织对数据质量的当前理解
3.9.2.1. 大多数组织在开始其质量改进之旅之前,他们通常表示了解质量数据差的障碍和痛点
3.9.3. 数据的实际情况
3.9.3.1. 以客观的方式描述导致痛点的数据情况是改进数据的第一步
3.9.3.2. 通过剖析和分析,以及对已知问题和痛点的量化来度量和描述数据
3.9.4. 与数据创建、处理或使用相关的风险
3.9.4.1. 识别数据可能出现的问题以及质量不佳的数据对组织造成的潜在损害,为降低风险提供了基础
3.9.5. 可扩展数据质量监控的文化和技术就绪
3.9.5.1. 数据质量可能受到业务和技术流程的负面影响
3.9.5.2. 提高数据质量取决于业务和IT团队之间的合作,如果业务和IT团队之间的关系不是协作的状态,将很难取得进展
3.10. 组织与文化变革
3.10.1. 数据质量不是通过一些工具和口号就能改进的,而是要通过帮助员工和利益相关方树立不断行动的思维观念,同时要始终考虑数据质量和业务与客户的需求来改进
3.10.2. 让一个组织认真对待数据质量,通常需要进行重大的文化变革。这种变革需要领导者的远见和领导力
3.10.3. 提高数据对组织作用和重要性的认识
3.10.3.1. 有员工都必须负责任地处理并提出数据质量问题,从消费者的角度要求高质量的数据,并向他人提供质量信息
3.10.3.2. 每个接触数据的人都会影响数据的质量,数据质量不仅是数据质量团队或IT团队的职责
3.10.4. 培训应着重于
3.10.4.1. 导致数据问题的常见原因
3.10.4.2. 组织数据生态系统中的关系以及为什么提高数据质量需要全局方法
3.10.4.3. 糟糕数据造成的后果
3.10.4.4. 持续改进的必要性(为什么改进不是一次性的)
3.10.4.5. 要“数据语言化”,阐述数据对组织战略与成功、监管报告和客户满意度的影响
3.10.5. 培训还应包括对任何过程变更的介绍,以及有关变更如何提高数据质量的声明
4. 数据质量和数据治理4.1. 数据质量工作作为数据治理计划的组成部分时,效果更好
4.2. 将数据质量工作纳入整体治理工作,使数据质量方案团队能够与一系列利益相关方和推动者合作
4.3. 数据质量问题是建设企业范围数据治理的原因
4.4. 设定优先级
4.5. 确定和协调有权参与各种数据质量相关决定和相关活动的人
4.6. 制定和维护数据质量标准
4.7. 报告企业范围内数据质量的相关测量
4.8. 提供有助于员工参与的指导
4.9. 建立知识共享的沟通机制
4.10. 制定和应用数据质量和合规政策
4.11. 监控和报告绩效
4.12. 共享数据质量检查结果,以提高认识,确定改进机会,并就改进达成共识
4.13. 解决变化和冲突,提供方向性指导
4.14. 数据质量制度
4.14.1. 数据质量工作应有匹配的数据治理制度的支持
5. 度量指标5.1. 数据质量团队的大部分工作将集中于质量的度量和报告上
5.2. 数据质量的高阶指标
5.2.1. 投资回报
5.2.1.1. 关于改进工作的成本与改进数据质量的好处的声明
5.2.2. 质量水平
5.2.2.1. 测量一个数据集内或多个数据集之间的错误或不满足甚至违反需求情况的数量和比率
5.2.3. 数据质量趋势
5.2.3.1. 随着时间的推移(趋势),针对阈值和目标的质量改进,或各阶段的质量事件
5.2.4. 数据问题管理指标
5.2.4.1. 按数据质量指标对问题分类与计数
5.2.4.2. 各业务职能部门及其问题状态(已解决、未解决、已升级)
5.2.4.3. 按优先级和严重程度对问题排序
5.2.4.4. 解决问题的时间
5.2.5. 服务水平的一致性
5.2.5.1. 包括负责人员在内的组织单位对数据质量评估项目干预过程的一致性
5.2.6. 数据质量计划示意图
5.2.6.1. 现状和扩展路线图