大数据、小数据、旧数据、新数据……不管是什么数据,对于数据质量的要求都不会改变。
数据质量vs大数据
在从大数据和其他新数据资产获取业务价值的压力下,数据专业人员可以利用现有的技能、团队和工具来确保大数据的质量。
即便如此,仅仅因为你可以利用现有技术并不意味着这就是你应该做的。我们必须使现有技术适应当今时代的要求。
数据专业人员必须调整、优化和扩展数据质量和相关数据管理最佳实践,以满足大数据和类似现代数据集的业务和技术要求,从而保护传统企业数据的质量。除非组织同时做到这两点,否则它可能无法提供所有数据资产所期望的可信分析、运营报告、自助服务功能、业务监控和治理。
调整和优化使数据质量任务与大数据相关
好消息是,组织可以将当前的数据质量和其他数据管理功能应用于大数据。但是,组织仍然需要理解并进行一些调整和优化。熟悉的数据质量任务和工具功能与大数据和其他有价值的新数据资产(来自网络应用、社交媒体、数字供应链、SaaS应用和物联网)高度相关,如下所示。
标准化。许多用户希望依靠基于SQL的工具,以自助方式探索和使用大数据。数据质量标准化使大数据更适合临时浏览、可视化和查询。
删除重复数据。大数据平台最终总是会多次加载相同的数据。这将扭曲分析结果,使度量的计算不准确,并对操作过程造成严重损害。数据质量的各种匹配和重复数据消除方法可以弥补数据的冗余。
匹配:数据集之间的联系可能很难找到,尤其是当数据来自各种传统和现代的源系统时。数据质量的数据匹配功能有助于验证各种数据并确定数据集之间的依赖关系。
分析和监测。许多大数据源——电子商务、网络应用和物联网——缺乏一致的标准,并且在没有通知的情况下不可预测地开发它们的体系结构。无论是在开发中分析大数据,还是在生产中监控大数据,数据质量解决方案都可以在新的解决方案和异常出现时揭示出来。数据质量的业务规则引擎和新的智能算法可以大规模自动补救。
客户数据。维护传统企业客户数据的质量挑战似乎还不够。许多组织现在正在从智能手机应用、网站访问、第三方数据提供商、社交媒体以及不断增长的客户渠道和接触点列表中获取客户数据。对于这些组织来说,客户数据是新的大数据,所有成熟的数据质量工具都具有为客户领域设计的功能。这些工具中的大多数最近都进行了更新,以支持大数据平台和云,从而充分利用它们的速度和规模。工具自动化。大数据如此之大(规模、复杂性、来源和用途),以至于数据专业人员和分析师很难准确高效地将其工作扩展到大数据。此外,一些业务用户希望以自助方式大规模探索和分析数据,发现质量问题和机会,甚至自己修复数据。这两种情况都需要工具自动化。
数据质量工具长期以来一直支持业务规则来自动做出一些开发和补救决策。商业规则并没有消失——许多类型的用户仍然觉得它们有用,而且许多用户拥有庞大的规则库,所以他们不能放弃。
业务规则与新的自动化方法相结合,这些方法已经出现在各种数据管理工具中,包括数据质量工具。这些通常采取智能算法的形式,应用基于人工智能和机器学习的预测函数来自动确定数据状态、要应用的质量函数以及如何与开发人员和用户协调这些动作。
Minitab是质量改进和统计教育领域的领先软件和服务提供商。Minitab通过提供一套全面的一流统计分析和流程改进工具,帮助公司和机构发现趋势、解决问题并探索有价值的见解。
数据质量必须采用现代数据管理的新范式
必须改变数据质量实践(以及数据集成、元数据管理和客户视图的相关实践),以遵循不同的范例。请注意,在以下示例中,大多数范式转换对于满足大数据分析的新要求都是必要的。
尽早获得大数据。数据管理的最大趋势之一是更快地存储输入数据,以便运营报告和实时分析等对时间敏感的流程能够尽早访问大数据。在这些情况下,持久数据优先于提高数据质量。为了加快数据在存储中的持久性,在假设用户和流程在将来访问或重用大数据时可以做出这些改进的情况下,以前的数据转换或聚合被最小化或省略。
实时获得大数据的质量。这些范式转变的结果是,在阅读或分析时,数据聚合和质量改进在不断进行。这使得数据质量执行更接近实时。此外,动态大数据质量功能有时会嵌入到其他解决方案中,尤其是那些用于数据集成、报告和分析的解决方案。为了实现嵌入和实时性能,现代工具将大多数数据质量功能作为服务提供。幸运的是,今天的快速中央处理器、内存处理、数据管道和MPP数据架构提供了在大数据规模上立即执行数据质量所需的高性能。
将大数据保持在其到达(原始)状态,以备将来使用。新建立的大数据最佳实践是从源头上保留所有细节、结构、条件甚至异常情况。存储和保护大数据的到达状态为需要详细源信息的用例提供了一个巨大的数据存储区域(通常是一个数据湖)。用例包括基于挖掘、聚类、机器学习、人工智能和预测算法或模型的数据探索、数据发现和面向发现的分析。此外,详细的源数据存储可重复用于未来的分析应用,这些应用的数据需求无法提前知道。聚合、标准化和完全清除的数据不能像到达状态的数据那样灵活或广泛地重用。
并行数据质量。如今,Hadoop、数据湖和其他大数据环境的最佳实践是维护大量详细的原始数据存储作为源归档。用户不需要转换源,而是复制需要质量改进的数据子集,并将数据质量函数应用于子集。类似地,数据科学家和分析师已经创建了所谓的数据实验室和沙箱来改善数据分析。这种“并行数据质量”对于保存大数据的原始价值和通过成熟的数据质量功能创造另一种价值是必要的。
上下文相关的数据质量。如今,分析用户倾向于尽可能少地修改大的数据子集,因为大多数现代分析方法倾向于与原始的详细源数据结合使用,并且分析通常取决于所发现的异常情况。例如,非标准数据可能是欺诈的标志,而异常值可能是新客户群的预兆。作为另一个例子,可能需要详细的源数据来准确地量化客户概况、完整的视图和性能指标。
总之,不管是什么数据,对于数据质量的要求都不会改变。
(本文来源于网络,由千家智客进行整理编辑,如有侵权,请联系删除。)
参与评论 (0)