企业如何为GenAI定义数据安全和治理规则

Lemongrass联合创始人兼首席技术官 Eamonn O'Neill分享了企业在保护和管理生成式 AI 工具方面面临的挑战,并提出了整合现有数据治理政策的战略。

当前,许多企业在为保护 GenAI 工具和服务以及为其提供支持的数据而所采取的方法很混乱。

一些组织对将敏感信息暴露给 ChatGPT 等 GenAI 服务非常谨慎,以至于他们在公司网络上完全屏蔽了这些服务,但这通常是一种下意识的、无效的方法。想要使用这些服务的员工可以通过其他方式轻松访问它们,例如通过他们的个人通信设备。

在其他情况下,企业试图根据监管要求制定AI安全和治理策略。由于迄今为止全球对 GenAI 的监管指导很少,因此结果往往是混乱且不断变化的 AI 治理政策,这些政策可能与监管机构最终确定的授权一致,也可能不一致。

这里有更好的方法:使用现有的数据安全和治理政策作为管理组织内生成式 AI 服务的基础。这种方法对于保护生成式 AI 非常有效,以下是它在实践中的表现。

GenAI 治理的必要性

不可否认的是,企业需要为 GenAI 制定并执行明确的安全和治理政策。企业内部部署的此类服务可能会访问高度敏感的企业数据,这对数据隐私和安全具有重大影响。

例如,如果员工在提示中将专有业务信息输入 ChatGPT,理论上 ChatGPT 可以在此后的任何时候将这些数据泄露给竞争对手。由于企业无法控制 ChatGPT 的运作方式,因此企业无法控制 ChatGPT 在获取其数据后如何使用这些数据。

同样,没有办法从 GenAI 模型中“删除”敏感数据。一旦被摄取,它就会永远存在,或者至少直到模型停止运行。从这个意义上说,企业内部的 GenAI 提出了与企业控制私人信息生命周期的能力相关的深刻挑战。一旦你不再需要这些数据,你就不能简单地从 GenAI 模型中删除这些数据,就像你可以从数据库或文件系统中删除私人数据一样。

使这些挑战更加复杂的是来自不同供应商的 GenAI 服务数量众多。由于这种多样性,没有简单的方法来实现访问控制,定义哪些员工可以在企业可能采用的不同 GenAI 解决方案中执行哪些操作。像 Active Directory 这样的身份管理框架最终可能会发展到支持跨 GenAI 服务的统一访问控制集,但它们目前还没有实现。

出于这些原因,企业必须为 GenAI 定义安全和治理规则。具体来说,规则需要控制 GenAI 模型可以访问哪些数据、如何访问这些数据,以及必须实施哪些访问控制来管理员工与 GenAI 服务的交互。

数据治理作为GenAI治理的基础

大多数组织都认识到人工智能治理的重要性。然而,如前所述,实施有效的治理政策和控制对许多组织来说相当具有挑战性,主要是因为他们不知道从哪里开始。

解决这一挑战的一个实用方法是根据大多数企业早已实施的数据治理政策来制定 AI 治理规则。毕竟,GenAI 面临的许多隐私和安全问题最终都归结为数据隐私和安全问题。因此,数据治理规则也可以扩展到治理 AI 模型。

这在实践中意味着在 GenAI 服务中建立访问控制,根据企业已经制定的数据治理规则限制这些服务可以访问哪些数据。实施控制将有所不同,因为企业需要依赖支持生成式 AI 模型的访问控制工具,而不是数据库、数据湖等的访问控制。但结果是相同的,因为控制将定义谁可以对组织的数据做什么。

这种方法特别有效,因为它为采用 GenAI 服务作为访问和查询业务数据的新界面奠定了基础。只要你妥善管理和保护 GenAI 服务,就可以让员工依赖这些服务来询问有关你的数据的问题。而且,可以确信每位员工的访问级别都是适当的,这要归功于你构建的 AI 治理控制。

一种简单有效的数据治理和人工智能治理方法

归根结底,AI 治理方法不仅为决定企业 AI 服务用户可以访问和不能访问哪些数据提供了明确的基础(以数据治理规则的形式),还简化了数据治理本身,因为它最大限度地减少了为每个数据资源实施访问控制的需要。

当 GenAI 服务成为与数据交互的集中式界面时,企业只需通过 GenAI 即可实施数据治理。这比为组织内的每个数据资产建立不同的控制措施要容易得多,也更有效率。

因此,无需盲目制定企业 AI 治理政策,或者更糟的是,完全阻止 AI 服务并祈祷员工不会绕过企业的限制,而是需要评估现有的数据治理规则,并将其作为定义 AI 治理控制的务实基础。