您还未登录! 登录 | 注册 | 帮助  

您的位置: 首页 > 软件开发专栏 > 大数据 > 正文

DataOps,开启数据管理的新时代

发表于:2021-10-08 作者:陈峻 来源:51cto

最近的一项针对企业正在面临的大数据挑战的调查,揭露了一个有关数据使用的惊人事实:有38%的企业“缺乏”令人信服的合理方式,去使用他们持有的数据;34%的公司没有足够成熟的流程,去持续处理大数据;24%的公司甚至无法让大数据转换为可供最终用户使用的有价值信息!无论该调查是否有所夸大其词,至少它表明了许多企业并不知道自己可以对数据做什么、必须做什么、以及如何合理从客户处收集数据。

可以说,在以数据为驱动的竞争格局中,忽视数据的价值,甚至无法充分发挥其潜力,对于组织来说都只会意味着灾难性的结局。许多组织往往在收集大量数据的过程中,不知道如何使用适当的流程,来处理和转化数据。

当然,部分问题源自历史遗留的数据管道。伴随着数据在数据管道中从源头移至目标系统,每个阶段对于数据的含义,以及数据的使用,都可能产生不连贯的数据视图。这些会让数据管道变得脆弱且难以迭代,进而使得组织在面对变化时,出现反应上的迟缓。对此,我们值得采取的方式便是:DataOps。

什么是DataOps?

DataOps(即,数据运营的缩写)是一种协作式数据管理方法,强调的是组织内部各种数据管道的通信、集成和自动化。

与数据存储管理不同,DataOps并非主要关注数据的“存储”,而是数据的“交付”。也就是说,如何让所有数据需求者都能够轻松地获得、访问和使用数据。其管理的目标是:创建可预测的数据、模型、以及相关组件的交付和变更管理,以便在整个组织内和数据消费者中,更快地交付出有价值的信息。

为此,DataOps需要通过各项技术,来自动化数据的设计、部署、管理和交付,缩短数据分析的周期,进而改善其使用和提供的价值。在此基础上,DataOps能够大幅提高组织对于市场变化的响应速度,以及应对挑战的能力。

DataOps能够解决的挑战和问题

大数据给我们带来的最大好处莫过于,快速可靠的数据驱动和可实现的业务洞见。对此,各类组织和技术人员需要将DataOps与敏捷、DevOps和精益制造等方法实践相结合,以应对如下方面的数据挑战:

  • 速度

现代化的组织往往需要对来自不同源头、不同形式的数据,持续进行清理、改进和再利用。只有经过这样复杂且漫长的过程,组织才能够从那些快速发展的业务环境中,发掘出潜在的数据洞见。而DataOps恰好能够从根本上提高此类洞见的发掘速度。

  • 数据类型

有时,组织收集到的数据可能是非结构化的格式。而此类数据源极有可能为新兴的业务挑战提供线索。因此,组织仍然以结构化的格式,去处理数据的话,是远远不够的。鉴于此类数据洞见提取的难度,DataOps能够方便组织去更好地识别、收集和使用来自每个可用数据源的数据。

  • 数据孤岛

DataOps打破了组织内部数据过于集中的孤岛状态。同时,它能够通过构建弹性系统,为需要访问数据的每一方提供自助式的服务。也就是说,弹性系统能够随着组织的业务进行扩展,为数据用户提供一种可预测的方式,实现对数据的按需查找和使用。

DataOps的业务优势

对于数据驱动型企业而言,他们需要尽快将数据交付给数据工程师、数据科学家、机器学习(ML)工程师,甚至客户。而DataOps则能够为他们带来如下业务优势:

  • 最大限度地利用数据

DataOps为包括:分析师、管理层、以及客户在内的所有数据用户,提供自动化的数据交付,并在此过程中允许每个部门,从数据中提取最大的信息价值。显然,它能够提高组织的竞争力、面对变化的响应能力、以及更高的投资回报率。

  • 在正确的时间获得正确的洞见

目前,大数据需要关注的一个显著问题是,提供数据洞见的时效性。也就是说,过于延迟地提供正确的洞见,对于企业来说是没有意义的。而DataOps能够将数据快速地提供给需求方,以便更快地做出更明智的决策,使组织能够快速地适应市场的变化。

  • 提高数据生产力

DataOps会使用自动化工具,将数据以自助操作的服务方式予以交付。它不但消除了数据请求和数据访问之间的固有延迟,而且让团队能够据此做出以数据为驱动的决策。同时,由于DataOps摆脱了各种需要手动进行数据管道变更的管理流程,因此组织能够针对数据管道进行简化、快速、且自动化的变更。

  • 针对结果优化的数据管道

DataOps在数据管道中加入了一个反馈循环,允许各种数据消费者识别他们所需的特定数据,并从中获得定制的洞见。据此,每个团队都可以使用这些洞见,来进一步降低成本,发现新的机会,并提高组织的盈利能力。

DataOps的原则

在技​​术方面,DataOps能够在不影响数据分析的速度或质量的基础上,提高数据应用的可扩展性。由于借鉴了DevOps的经验教训与实践,因此DataOps在许多关键方面与DevOps高度重合。下面是DataOps的三个基本原则

  • 持续集成

由于DataOps能够动态地识别、整理、集成和提供来自不同源头的数据,因此新的数据会被DataOps自动集成到数据管道中,并使用AI/ML工具,提供给各个需求方。

DataOps的自动化完全简化了数据从被发现到转换、管理、洞察、以及定制的全过程。实际上,它可以将数据以实时流的形式,直接传输到预测算法中,以便向用户,特别是数据消费者提供即时的洞见。

这种经过优化的数据集成过程,确保了数据在被发现和利用的过程中,不会浪费过多的时间。

  • 持续交付

根据规模效应的理论,越多的人去访问组织持有的数据,从中提取的洞见就越具有参考价值。不过,数据的可访问性,取决于数据的治理。我们只有通过DataOps,在整个组织内实施数据治理,才能保证数据能够在安全、且保有隐私的前提下,提供可访问性。

为了保证数据能够以符合内部数据质量、以及数据屏蔽规则的协作方式,有目的性地交付给内、外部数据消费者,我们通常需要使用智能化的数据平台来实现。也就是说,只有当数据的质量、隐私和安全得到了保证时,各种相关方才有信心使用它,并从中获得准确的洞见,而不必担心数据治理所带来的影响。

  • 持续部署

如今,各种欺诈检测、AI聊天机器人、数字化销售、以及供应链管理等关键任务功能,都需要数据驱动型应用,实时地根据最新可用的数据,来进行决策。而持续部署正是保证用户与应用能够无缝访问数据的前提条件。

DevOps与DataOps

虽然DataOps借鉴了DevOps的基本概念和操作流程,但是两者之间仍然存在如下显着的差异

  • 人员条件

尽管DataOps的从业者可能非常精通技术,但是他们需要更加专注于,为数据用户创建算法、模型和视觉辅助等工具。同时,他们还应当具有可落地的软件工程思维。

  • 流程

虽然DevOps流程几乎不会涉及到编排(orchestration),但是DataOps流程则需要用到数据管道和分析开发的编排。

  • 测试

与DevOps不同,DataOps会高度依赖数据屏蔽,来开展测试。因此,测试数据的管理就显得至关重要了。此外,在部署之前,DataOps通常需要在数据管道和分析开发的过程中,测试和验证数据。

  • 工具

目前,DevOps已拥有成熟的工具生态系统,尤其体系在测试方面。而作为一种新的方法,DataOps通常需要团队从头开始构建工具,或根据其特殊目的去定制DevOps工具。

DataOps平台的演进

在数据分析的早期,ETL(提取、转换、加载)工具已经成为了管理大量导入数据的强大工具。然而,随着数据的多样性、准确性、以及体量的激增,人们对于可扩展性和实时数据分析的需求,变得更加迫切。ETL工具与云计算资源的结合,虽然加快了数据的分析速度,然而,数据访问的安全性仍然形式严峻。在此背景下,DataOps应运而生。通过采用民主化的数据访问(democratized data access)方式,所有数据需求方可以在组织数据治理策略的约束下,安全、优质地获取数据洞见。

原文标题:A Guide toDataOps: The New Age of Data Management,作者: Mir Alimanagement