最近我想到了数据治理,所以我决定通过输入提示来查询ChatGPT:“什么是数据治理?”,人工智能回应道:“数据治理是一套流程、政策、标准和指导方针,可确保在企业内适当地管理、保护和利用数据”,这是一个很好的开始,此时此刻,关于数据治理及其意义还有很多要说的。
GenAI时代的数据治理
数据治理涵盖了一系列学科,包括数据安全、管理、质量和编目,这种做法需要定义使用策略、创建主数据源、分析数据集、记录字典和监督数据生命周期。组织模型通常定义促进策略的首席数据官、制定数据集策略的数据所有者和负责改进数据质量的数据管理员的角色。
“数据治理是数据完整性的关键要素,使企业能够轻松地查找、理解和利用关键数据——从而实现准确的报告和明智的决策”,Precision的首席技术官TendüYogurtçu博士说,“它提供了对数据的含义、谱系和影响的理解,因此企业可以保持合规,并确保人工智能模型以可靠的数据为燃料,以获得可靠的结果。”
Yogurtçu说,数据治理曾经是一项专注于合规性的技术任务。她说:“随着人们越来越多地采用人工智能,数据已成为最重要的企业资产,数据治理应该成为整个企业的优先事项。”
对于许多尝试使用GenAI或使用大型语言模型(LLM)构建应用程序的企业来说,数据治理责任更大,员工使用AI工具的方式带来更多风险,非结构化数据带来新的范围。我咨询了几位专家,了解数据治理必须如何发展,以应对GenAI工具和能力所固有的机会和风险。
发展GenAI数据治理的4种方法
审查在GenAI工具和LLM中使用的数据策略
数据治理部门监督数据目录并传达数据使用策略,以帮助员工利用集中的数据集,并将其用于构建机器学习模型、仪表板和其他分析工具,这些部门现在正在更新政策,包括是否以及如何在土地管理系统和开放的GenAI工具中使用企业数据源。开发人员和数据科学家必须审查这些政策,并就使用数据集支持GenAI实验的任何问题咨询数据所有者。
Egnyte的联合创始人兼首席安全官克里斯·拉希里表示:“随着GenAI带来更多的数据复杂性,企业必须有良好的数据治理和隐私政策,以管理和保护用于训练这些模型的内容。企业必须格外关注这些人工智能工具使用了哪些数据,无论是OpenAI、Palm之类的第三方,还是公司内部可能使用的LLM。”
审查有关隐私、数据保护和可接受使用的GenAI政策,许多企业要求在将数据集用于GenAI用例之前提交请求和来自数据所有者的批准。在使用必须符合GDPR、CCPA、PCI、HIPAA或其他数据合规标准的数据集之前,请咨询风险、合规和法律部门。
在使用第三方数据源时,数据策略还必须考虑数据供应链和责任。EDB的首席产品工程官Jozef de Vries表示:“如果发生涉及在特定地区受保护的数据的安全事件,供应商需要明确他们和客户的责任,以适当地缓解这种情况,特别是如果这些数据打算用于AI/ML平台的话。”
对于那些对GenAI机会感到兴奋的人来说,通过了解他们企业的数据隐私、安全和合规政策,拥有优先事项的心态是很重要的。
加快数据质量计划
许多公司都提供数据质量解决方案,包括ATTACAMA、ColLibra、Experian、IBM、Informatica、Precision、SAP、SAS和Talend。2022年,全球数据质量工具市场规模超过40亿美元,预计每年增长17.7%。我预计现在有更高的增长,因为许多公司都在试验人工智能工具和LLM。
Piwik Pro的首席运营官马特兹·克雷姆帕表示:“由于人工智能的好坏取决于支持它的数据,因此与人工智能合作的诸多挑战都与数据质量有关,糟糕的数据质量可能会导致误导性或错误的见解,严重影响结果。”
克雷姆帕表示,数据质量挑战源于大数据的数量、速度和多样性,特别是因为LLM现在利用的是该企业的非结构化数据源。希望开发内部LLM的公司将需要扩展数据质量计划,以包括从文档、协作工具、代码库和其他存储企业知识和知识产权的工具中提取的信息。
Hakkoda的数据治理主管凯伦·梅本表示:“数据治理正在转变,不仅要向LLM系统提供海量数据,而且要明智、安全地这样做,重点是确保数据不仅是大的,而且是智能的 - 准确、可理解、隐私意识、安全,并尊重知识产权和公平的风险和影响。”
根据业务目标和数据类型的不同,可以使用不同的工具来提高数据质量。
- 传统数据质量工具可以对数据进行重复数据删除、标准化数据字段、根据业务规则验证数据、检测异常并计算质量指标。
- 主数据管理工具(MDM)可帮助企业连接多个数据源,并围绕客户和产品等业务实体创建真实来源。
- 客户数据平台(CDP)是用于集中客户信息并实现营销、销售、客户服务和其他客户交互的专用工具。
期待升级和新的数据质量工具,以改善对非结构化数据源的支持,并提高GenAI用例的数据质量能力。
Matillion的CISO Graeme Canu-Park的另一项建议侧重于数据谱系的重要性。“人工智能将需要一种完全不同的方式来看待治理优先事项和实践,以更好地了解为人工智能应用程序和模型提供支持的数据管道和数据谱系。”
数据沿袭有助于揭示数据的生命周期,并回答有关谁、何时、在哪里、为什么以及数据如何更改的问题。由于人工智能扩大了数据及其用例的范围,因此对企业中更多的人,包括从事安全和其他风险管理职能的人来说,了解数据谱系变得更加重要。
审查数据管理和管道体系结构
着眼于政策和数据质量之外,数据治理领导者必须将他们的影响力扩展到数据管理和架构功能。主动式数据治理支持一系列功能,使更多员工能够利用数据、分析以及现在的人工智能来完成工作并做出更明智的决策。如何存储、访问、生产、编目和记录数据都是组织能够以多快、多轻松、多安全的方式将其数据扩展到genAI用例中的所有因素。
Teradata的首席产品官希拉里·阿什顿建议了以下方法,让最令人兴奋的人工智能用例成为现实:
- 创建可重复使用的数据产品,或经过精心管理的已知良好数据集,以帮助企业更好地控制其数据并向其灌输信任。
- 尊重数据引力,让员工队伍中更多的人能够访问信息,而无需跨不同环境移动数据。
- 在考虑可伸缩性的情况下试点人工智能倡议,包括具有强大治理的AI/ML数据管道,该管道还支持开放和互联的生态系统。
数据团队的一个关键是确定易于使用并支持多种用例的框架和平台。Ensono的总经理兼副总裁肖恩·马奥尼说:“治理框架开始看起来更加灵活,使团队能够更快地响应技术进步的步伐”,他建议数据治理领导者也审查并参与到这些工具中来:
- 数据网状结构,用于将数据的管理委托给数据创建者。
- 矢量数据库,用于处理GenAI和LLMS固有的可伸缩性和复杂性。
- 实时监控工具,可在更多系统中扩展数据治理。
另一个需要考虑的问题是,数据治理、管理和体系结构如何要求了解有关数据存储的全球法规。EDB的De Vries建议:“企业应实施全球分布式数据库,以提升其数据治理实践,方法是将高度监管的数据保留在其区域内,同时在全球分发限制性较低的数据,以便在输入人工智能平台时实现灵活性。”
将数据治理扩展到GenAI工作流
数据治理功能还必须考虑如何使用GenAI工具和LLM需要策略和最佳实践,例如,在本文的开头,我明确引用了ChatGPT,以便读者知道响应来自GenAI来源。良好的数据治理要求对员工进行教育,使其了解提高透明度的程序、允许他们使用的工具以及将数据隐私问题降至最低的做法。
“我看到的最大的事情是,在保持隐私和真实性的同时,准确地利用、共享和学习数据的方法正在兴起”,PreThink的首席执行官迪恩·尼古拉斯说,“例如,像Perplexity这样基于LLM的搜索引擎总是引用它们的来源,或者像Private AI这样的数据编校技术,它允许你在摄取数据或将数据发送到LLMS之前对PIL进行清理和编校。”
数据治理领导者应该考虑的一个新的主动措施是创建提示库,员工可以在其中记录他们的即时用例,并在企业中共享它们,该规程扩展了许多数据治理团队已经在维护数据目录和数据字典方面所做的知识管理实践。
RelationalAI的Research ML副总裁Nikolaos Vasiloglou说:“LLMS的基础包括通常存储在知识图谱中的干净和精心策划的内容以及通常以提示库的形式存储的专家知识,虽然我们对知识图谱有良好的治理实践,但如何治理后者并不明显。”
我喜欢《蜘蛛侠》电影中流行的一句话:“力量越大,责任越大”,我们正在看到GenAI能力的快速演变,问题是数据治理团队是否会站在他们那一边。