读DAMA数据管理知识体系指南43大数据和数据科学概念

1. 业务驱动

1.1. 期望抓住从多种流程生成的数据集中发现的商机，是提升一个组织大数据和数据科学能力的最大业务驱动力

1.2. 大数据可以通过对更多、更大的数据集进行探索来激发创新，这些数据可用来定义预判客户需求的预测模型，并实现产品和服务的个性化展示

1.3. 数据科学可以提升运营水平

1.4. 机器学习算法可以将那些复杂且耗时的活动实现自动化，从而提升组织效率、削减成本、降低风险

2. 原则

2.1. 大数据的前景——它将提供一种别具一格的洞察力——取决于能否管理大数据

2.2. 组织应仔细管理与大数据源相关的元数据，以便对数据文件及其来源和价值进行准确的清单管理

3. 数据科学

3.1. 数据科学将数据挖掘、统计分析和机器学习与数据集成整合，结合数据建模能力，去构建预测模型、探索数据内容模式

3.2. 从数据中探究、研发预测模型、机器学习模型、规范性模型和分析方法并将研发结果进行部署供相关方分析的人，被称为数据科学家

3.2.1. 数据科学家提出了一个关于行为的假设，即特定的行为是可以在具体行动之前的数据中被观察到的

3.2.2. 数据科学家分析大量的历史数据，以确定假设在过去真实发生的频率，并从统计学上验证模型可能的准确性

3.3. 随着收集和分析大型数据集能力的提升，数据科学家已经从数学、统计学、计算机科学、信号处理、概率建模、模式识别、机器学习、不确定建模以及数据可视化等方面综合了各种方法，根据大数据集对行为进行预测，以获得更多的信息

3.3.1. 数据科学家已经找到了分析数据和从数据中获取价值的新方法

3.4. 开发数据科学解决方案，包括将数据源迭代地整合到开发洞察力的模型中

3.5. 数据科学依赖于

3.5.1. 丰富的数据源

3.5.1.1. 具有能够展示隐藏在组织或客户行为中不可见模式的潜力

3.5.2. 信息组织和分析

3.5.2.1. 用来领会数据内容，结合数据集针对有意义模式进行假设和测试的技术

3.5.3. 信息交付

3.5.3.1. 针对数据运行模型和数学算法，进行可视化展示及其他方式输出，以此加强对行为的深入洞察

3.5.4. 展示发现和数据洞察

3.5.4.1. 分析和揭示结果，分享洞察观点对比了传统的数据仓库/商务智能与基于数据科学技术实现的预测性分析和规范性分析的作用

3.6. 过程

3.6.1. 定义大数据战略和业务需求

3.6.1.1. 定义一些可衡量的、能够产生实际收益的需求

3.6.2. 选择数据源

3.6.2.1. 在当前的数据资产库中识别短板并找到数据源以弥补短板

3.6.3. 采集和提取数据资料

3.6.3.1. 收集数据并加载使用它们

3.6.4. 设定数据假设和方法

3.6.4.1. 通过对数据进行剖析、可视化和挖掘来探索数据源

3.6.5. 集成和调整数据进行分析

3.6.5.1. 模型的可行性部分取决于源数据的质量

3.6.6. 使用模型探索数据

3.6.6.1. 对集成的数据应用统计分析和机器学习算法进行验证、训练，并随着时间的推移演化模型

3.6.7. 部署和监控

3.6.7.1. 可以将产生有用信息的那些模型部署到生产环境中，以持续监控它们的价值和有效性

3.6.7.2. 通常，数据科学项目会转变成数据仓库项目

4. 大数据

4.1. 大数据和数据科学都是促使人们产生、存储和分析海量数据的重大技术变革

4.2. 人们可以使用数据来预测和干预行为，以及获得诸如医疗健康实践、自然资源管理和经济发展等一系列重要课题的洞察能力

4.3. 大数据不仅指数据的量大，也指数据的种类多（结构化的和非结构化的，文档、文件、音频、视频、流数据等），以及数据产生的速度快

4.4. 传统的商务智能(BI)提供“后视镜”式的报告，通过分析结构化的数据展示过去的趋势

4.4.1. BI模式被用来预测未来的行为，但它不具备高可信度

4.5. 数据分析一直依赖于采样或其他抽象方法的近似模式

4.6. 随着大数据被加载到数据仓库和商务智能环境中，数据科学技术被用来为组织提供前瞻性的视图（“挡风玻璃”）

4.7. 要想利用大数据，就必须改变数据的管理方式

4.7.1. 大多数数据仓库都基于关系模型，而大数据一般不采用关系模型组织数据

4.7.2. 大多数数据仓库依赖于ETL（提取、转换和加载）的概念

4.7.2.1. 大数据解决方案，如数据湖，则依赖于ELT的概念——先加载后转换

4.7.3. 数据的生产速度和容量带来了挑战，需要在数据管理的各个关键领域中采用不同的方法，如集成、元数据管理和数据质量评估

4.8. 3V来定义大数据含义的特征

4.8.1. 数据量大(Volume)、数据更新快(Velocity)、数据类型多样/可变(Variety)

4.9. V列表有了更多的扩展

4.9.1. 数据量大(Volume)

4.9.1.1. 大数据通常拥有上千个实体或数十亿个记录中的元素

4.9.2. 数据更新快(Velocity)

4.9.2.1. 指数据被捕获、生成或共享的速度

4.9.2.2. 大数据通常实时地生成、分发及进行分析

4.9.3. 数据类型多样/可变(Variety/Variability)

4.9.3.1. 指抓取或传递数据的形式

4.9.3.2. 大数据需要多种格式储存

4.9.3.3. 通常，数据集内或跨数据集的数据结构是不一致的

4.9.4. 数据黏度大(Viscosity)

4.9.4.1. 指数据使用或集成的难度比较高

4.9.5. 数据波动性大(Volatility)

4.9.5.1. 指数据更改的频率，以及由此导致的数据有效时间短

4.9.6. 数据准确性低(Veracity)

4.9.6.1. 指数据的可靠程度不高

4.10. 大数据的量非常大（通常大于100TB，在1PB～1EB范围内）

4.10.1. 在数据仓库和分析解决方案中，非常庞大的数据量对数据加载、建模、清理和分析构成了挑战，通常通过大规模并行处理或分布式并行处理数据方案来应对

4.10.2. 过大的数据集需要改变数据存储和访问的总体方式、数据的理解方式（如目前对数据的大部分思考方式都基于关系数据库结构），以及数据的管理方式

4.11. 大数据架构组件

4.11.1. 大数据和数据科学环境的选择、安装和配置需要相应的专业知识，必须针对现有的和新购置的数据探索工具开发和优化端到端的架构

4.11.2. DW/BI与大数据处理之间最大的区别

4.11.2.1. 在传统的数据仓库中，数据在进入仓库时进行整合（提取、转换、加载）

4.11.2.2. 在大数据环境中，数据在整合之前就进行接收和加载（提取、加载、转换）

4.11.3. ETL和ELT之间的差异对数据管理方式具有重要影响

4.12. 大数据来源

4.12.1. 由于人类的很多活动都是以电子的方式执行的，因此随着我们在世界各地旅行的脚步、彼此之间的相互交流以及进行的商务交易等，每天都会产生海量的数据，大数据会通过电子邮件、社交媒体、在线订单甚至在线视频游戏生成

5. 数据湖

5.1. 数据湖是一种可以提取、存储、评估和分析不同类型和结构海量数据的环境，可供多种场景使用

5.2. 数据科学家可以挖掘和分析数据的环境

5.3. 原始数据的集中存储区域，只需很少量的转换

5.4. 数据仓库明细历史数据的备用存储区域

5.5. 信息记录的在线归档

5.6. 可以通过自动化的模型识别提取流数据的环境

5.7. 数据湖可以作为Hadoop或其他数据存储系统、集群服务、数据转换和数据集成等数据处理工具的一种复合配置来实施

5.8. 数据湖的风险在于，它可能很快会变成数据沼泽——杂乱、不干净、不一致

5.8.1. 为了建立数据湖中的内容清单，在数据被摄取时对元数据进行管理至关重要

5.8.2. 为了理解数据湖中的数据是如何关联和连接的，数据架构师或者数据工程师通常使用单一键值或其他技术（语义模型、数据模型等），科学家和其他可视化开发人员通过这些技术数据即可知道如何使用数据湖中存储的信息

6. 基于服务的架构

6.1. 基于服务的体系结构(Services-Based Architecture, SBA)正在成为一种立即提供（如果不是完全准确或完整）数据的方法，并使用相同的数据源来更新完整、准确的历史数据集

6.2. SBA架构

6.2.1. 批处理层(Batch Layer)

6.2.1.1. 数据湖作为批处理层提供服务，包括近期的和历史的数据

6.2.1.2. 批处理层通常被称为随时间变化的结构组件（这里每个事务都是一个插入）

6.2.2. 加速层(Speed Layer)

6.2.2.1. 只包括实时数据

6.2.2.2. 在加速层（通常被称为操作型数据存储或ODS）中，所有事务都是更新的（或者只有在需要时才插入）

6.2.3. 数据被加载到批处理层和加速层中

6.2.4. 服务层(Serving Layer)

6.2.4.1. 提供连接批处理和加速层数据的接口

6.2.4.2. 服务层确定提供哪里的数据作为“服务”，并适当提供被需求的数据

7. 机器学习

7.1. 机器学习(Machine Learning)探索了学习算法的构建和研究，它可以被视为无监督学习和监督学习方法的结合

7.1.1. 通过编程使机器可以快速地从查询中学习并适应不断变化的数据集，从而在大数据中引入一个全新的领域，称为机器学习

7.2. 监督学习(Supervised learning)

7.2.1. 基于通用规则

7.2.2. 监督学习是基于复杂的数学理论，特别是统计学、组合学和运筹学

7.3. 无监督学习(Unsupervised learning)

7.3.1. 基于找到的那些隐藏的规律（数据挖掘）

7.3.2. 无监督学习通常被称为数据挖掘

7.4. 强化学习(Reinforcement learning)

7.4.1. 基于目标的实现（如在国际象棋中击败对手）

7.4.2. 即没有通过教师的认可就实现了目标优化，如驾驶车辆

7.5. 统计建模和机器学习已被用于对那些成本高昂的研究和开发项目进行自动化，通过对大量数据进行多次试错，重复试验并收集、分析结果来纠正错误

7.6. 虽然机器学习以新的方式利用数据，但它也存在很多伦理方面的问题，特别是在透明性原则方面

7.6.1. 深度学习神经网络(DLNN)算法卓有成效，它们能学习很多事情

7.6.2. 我们对它们究竟是如何学习的并不是很清楚

7.6.3. 随着驱动这些过程的算法变得更加复杂，它们也就变得更加不透明，像“黑盒子”一样工作

7.6.4. 算法也测试了人类解释机器的能力极限

7.6.5. 随着此功能的发展，对透明性的需求（能够看到如何做出决策的能力）可能会增加，并扩大投入使用的范围

8. 语义分析

8.1. 媒体监控和文本分析是从大量非结构化或半结构化数据（如事务数据、社交媒体、博客和Web新闻网站）中检索并获得见解的自动化方法，用于感知人们对品牌、产品、服务或其他类型主题的感觉和看法

8.2. 使用自然语言处理(NLP)分析短语或句子、语义察觉情绪，并揭示情绪的变化，以预测可能的情景

8.3. 情绪是不容易被准确地捕获的

9. 数据和文本挖掘

9.1. 数据挖掘(Data mining)是一种特殊的分析方法，它使用各种算法揭示数据中的规律

9.2. 最初是机器学习的一个分支，属于人工智能的一个子领域

9.3. 标准化的查询和报表工具能发现一些具体的问题，而数据挖掘工具通过揭示规律来帮助发现未知的关系

9.4. 数据挖掘是探索阶段的一项关键活动，因为它有助于快速识别需要研究的数据元素，识别以前未知、不清楚或未分类的新关系，并为所研究的数据元素提供分类的结构

9.5. 文本挖掘使用文本分析和数据挖掘技术来分析文档，将内容自动进行分类，成为工作流导向和领域专家导向的知识本体

9.6. 剖析(Profiling)

9.6.1. 剖析尝试描述个人、群体或人群的典型行为，用于建立异常检测应用程序的行为规范，如欺诈检测和计算机系统入侵监控

9.6.2. 剖析结果是许多无监督学习组件的输入

9.7. 数据缩减(Data reduction)

9.7.1. 数据缩减是采用较小的数据集来替换大数据集，较小数据集中包含了较大数据集中的大部分重要信息

9.7.2. 较小的数据集可能更易于分析或处理操作

9.8. 关联(Association)

9.8.1. 关联是一种无监督的学习过程，根据交易涉及的元素进行研究，找到它们之间的关联

9.9. 聚类(Clustering)

9.9.1. 基于数据元素的共享特征，将它们聚合为不同的簇

9.10. 自组织映射(Self-organizing maps)

9.10.1. 自组织映射是聚类分析的神经网络方法，有时被称为Kohonen网络或拓扑有序网络，旨在减少评估空间中的维度，同时尽可能地保留距离和邻近关系，类似于多维度缩放

10. 预测分析

10.1. 预测分析(Predictive Analytics)是有监督学习的子领域，用户尝试对数据元素进行建模，并通过评估概率估算来预测未来结果

10.2. 预测分析深深植根于数学，特别是统计学，与无监督学习拥有许多相同的组成部分，对预期预测结果进行测量时差异是可控的

10.3. 预测分析是基于可能事件（购买、价格变化等）与可变因素（包括历史数据）的概率模型开发

10.4. 触发因素是大量实时数据的累积，如大量的交易或服务请求，抑或环境的剧烈波动

10.4.1. 监视数据事件流包括在逐步构建的密集模型，直至达到在模型中定义的阈值

10.5. 预测模型在做出预测和被预测的事件发生之间提供的时间通常非常短

10.5.1. 投资于极低延迟的技术解决方案，如内存数据库、高速网络，甚至物理上接近数据源，都可以优化提升组织对预测做出反应的能力

10.6. 预测模型的最简单形式是预估(Forecast)

10.6.1. 平滑数据的最简单方法是通过移动平均值，甚至是加权移动平均值

11. 规范分析

11.1. 规范分析(Prescriptive Analytics)比预测分析更进一步，它对将会影响结果的动作进行定义，而不仅仅是根据已发生的动作预测结果

11.2. 规范分析预计将会发生什么，何时会发生，并暗示它将会发生的原因

11.3. 规范分析可以不断接收新数据以重新预测和重新规定

11.3.1. 该过程可以提高预测准确性，并提供更好的方案

12. 非结构化数据分析

12.1. 非结构化数据分析(Unstructured Data Analytics)结合了文本挖掘、关联分析、聚类分析和其他无监督学习技术来处理大型数据集

12.2. 监督学习技术也可用于在编程过程中提供方向、监督和指导，利用人为干预在必要时解决歧义问题

12.3. 扫描和标记是向非结构化数据添加“钩子”的一种方法，它允许对相关结构化数据进行链接和筛选

13. 运营分析

13.1. 运营分析(Operational Analytics)，也称为运营BI或流式分析，其概念是从运营过程与实时分析的整合中产生的

13.2. 运营分析包括用户细分、情绪分析、地理编码以及应用于数据集的其他技术，用于营销活动分析、销售突破、产品推广、资产优化和风险管理

13.3. 运营分析包括跟踪和整合实时信息流，根据行为预测模型得出结论，并触发自动响应和警报

13.3.1. 设计成功分析所需的模型、触发器和响应需要对数据本身进行更多的分析

13.3.2. 运营分析解决方案包括对行为模型预填充所需历史数据的准备

13.4. 一旦确定预测模型既有效果又有成本效益优势，则整合了历史和当前数据（包括实时和流数据、结构化和非结构化数据）的解决方案，就可以被用来填充预测模型并根据预测触发操作

13.5. 在预测金融市场行为时，经常使用历史价格信息和历史价格变动率提前进行预计算，以便及时响应触发事件

14. 数据可视化

14.1. 可视化(Visualization)是通过使用图片或图形表示来解释概念、想法和事实的过程

14.2. 数据可视化通过视觉概览（如图表或图形）来帮助理解基础数据

14.3. 数据可视化压缩并封装特征数据，使其更易于查看

14.4. 可视化一直是数据分析的关键

14.4.1. 传统BI工具包括诸多可视化选项，如表格、饼图、折线图、面积图、条形图、直方图和烛台图

14.4.2. 为了满足日益增长的理解数据的需求，可视化工具的数量不断增加，技术也得到了长足的进步

14.4.3. 随着数据分析的成熟，以新的方式可视化数据将具有战略优势

14.5. 业务分析部门将寻求具有可视化技能的数据专家，包括数据科学家、数据艺术家和数据视觉专家，以及传统的信息架构师和数据建模师

15. 数据混搭

15.1. 数据混搭(Data Mashups)将数据和服务结合在一起，以可视化的方式展示见解或分析结果

15.2. 在网页中，安全的数据混搭技术实现了跨供应商或提供者地共享个人或机密信息

玩酷网

读DAMA数据管理知识体系指南43大数据和数据科学概念

躺柒