专家观点:AI应用中宽数据比大数据更有价值

在当今快节奏的数字世界中,数据的使用不断发展,以帮助企业更好地理解来自大量结构化和非结构化数据存储库的见解。然而,虽然大数据可以提供对业务至关重要的分析,但这些数据主要是用来展示过去时态发生了什么。在执行预测性和说明性分析时,越来越多地必须考虑广泛的数据。

这就是人工智能可以发挥作用的地方,也是大数据对人工智能的需求出现分歧的地方。大数据被定义为三个因素:容量、速度和多样性。体积是指可用数据的大小,速度是指数据到达和处理的速度。

然而,企业要想有效地将数据用于人工智能的预测目的,就需要各种数据。随着人工智能在各个领域的应用日益普及,访问不同数据集的能力至关重要,也是人工智能算法的催化剂。换句话说,不要让数据太过平淡无奇,而要让它更多样化。

我们将这种数据称为各种各样的“宽数据”(Wide Data),这些数据来自组织的内部、外部、结构化和非结构化数据。这一点至关重要,因为在全球化经济中,企业业绩取决于许多参数。

大数据应用的一个例子是看看在美国不同地区设计产品的两个制造工厂。这两家工厂的地理位置会对生产产生影响,尤其是在发生暴风雪等自然灾害的情况下。考虑天气和其他几个不同的外部因素,再结合内部数据来为人工智能算法提供数据,将会对每个制造组织的库存、供应链和需求做出更准确的预测。数据的多样性提供了更多的相关性,因此AI算法可以更好地学习,从而提供准确的结果。

为什么不是数据容量?

由于缺乏不同的因变量,数据量并不一定意味着算法的学习效果更好。虽然从理论上讲,拥有大量数据对人工智能应用很重要,但对于高效的算法而言,数据的多样性比数据的大小更重要。

举个例子,我们正在做一个预测癌症患者数据的项目。研究对象并不多,只生成了150行数据。这产生了相对较少的数据来筛选,它不被认为是大数据。这就提出了一个问题——人工智能算法是否有足够的数据来学习和预测癌症患者的后续情况?在这种情况下,答案是肯定的。因为虽然只有150行,但生物识别、生物传感器和症状数据却构成了数千列,这使它成为一个广泛的数据。

关键在于,对于人工智能应用而言,数据的多样性比数据量更重要。

宽数据的类型

如前所述,有不同类型的数据,当组合时,使其成为一个宽数据,如:

  • 内部结构化数据:位于软件应用程序(如 ERP、CRM 系统甚至财务系统)中的数据。
  • 内部非结构化数据:作为内部非结构化数据一部分的文档、图像、报告、图表和图表。
  • 外部数据:来自外部来源的数据,如天气、社会、经济数据、人口普查数据、证券交易所数据等。
  • 外部非结构化数据:来自组织防火墙外部的新闻、图像、视频等。

CUPP 框架:提供数据策略

为了成功采用人工智能,拥有最佳人工智能实践非常重要。一个这样的框架是 CUPP,它代表收集、统一、处理和呈现。部署这四个步骤是组织开始其 AI 之旅的典型方式。

可能没有数据战略或数据平台的传统企业将受益于创建像 CUPP 这样的框架。在确保准确性或数据准确性方面,框架也很重要。组织需要干净、高质量的数据来确定理想的结果,而准确性会显着加快这一过程。

以下是组织使用 CUPP 框架所经历的基本步骤:

1. 从数据普查开始

利用数据普查方法来发现组织内部和外部拥有的数据资产。

此规划过程的一部分是定位结构化和非结构化数据的来源。许多组织可能会对他们拥有多少非结构化数据感到惊讶,并且进行数据普查可以让他们盘点所有数据资产。

2. 了解您的数据资产

在建模之前,重要的是要了解组织已经拥有什么。这有助于开发 AI 最佳实践,但需要一点耐心。这将作为AI 应用采用的基础并提供能力投资回报率。

企业还需要研究其内部-外部结构化和非结构化数据的收集和统一策略。

3. 使用机器学习和自然语言处理以及机器学习来转换和理解非结构化内容

组织可以获取他们获取的非结构化数据并利用自然语言处理将其转换为结构化内容以训练您的数据。

组织也应该对非结构化内容感到鼓舞,而不是害怕它,因为现在有几种技术可用于对这些内容进行非常有意义的使用。

关于需要使用宽数据的关键要点

广泛的数据可以更快地启动 AI 之旅,并且对于帮助组织将来自各种大小、非结构化和结构化数据源的见解情境化至关重要。随着技术的发展和发展,没有企业可以忽视数据的作用和价值,都需要围绕获取和分析各种数据来制定数据策略。

本文作者:Anand Mahurkar是 Findability.Sciences 的首席执行官兼创始人