最近的一项针对企业正在面临的大数据挑战的调查,揭露了一个有关数据使用的惊人事实:有38%的企业“缺乏”令人信服的合理方式,去使用他们持有的数据;34%的公司没有足够成熟的流程,去持续处理大数据;24%的公司甚至无法让大数据转换为可供最终用户使用的有价值信息!无论该调查是否有所夸大其词,至少它表明了许多企业并不知道自己可以对数据做什么、必须做什么、以及如何合理从客户处收集数据。
可以说,在以数据为驱动的竞争格局中,忽视数据的价值,甚至无法充分发挥其潜力,对于组织来说都只会意味着灾难性的结局。许多组织往往在收集大量数据的过程中,不知道如何使用适当的流程,来处理和转化数据。
当然,部分问题源自历史遗留的数据管道。伴随着数据在数据管道中从源头移至目标系统,每个阶段对于数据的含义,以及数据的使用,都可能产生不连贯的数据视图。这些会让数据管道变得脆弱且难以迭代,进而使得组织在面对变化时,出现反应上的迟缓。对此,我们值得采取的方式便是:DataOps。
什么是DataOps?
DataOps(即,数据运营的缩写)是一种协作式数据管理方法,强调的是组织内部各种数据管道的通信、集成和自动化。
与数据存储管理不同,DataOps并非主要关注数据的“存储”,而是数据的“交付”。也就是说,如何让所有数据需求者都能够轻松地获得、访问和使用数据。其管理的目标是:创建可预测的数据、模型、以及相关组件的交付和变更管理,以便在整个组织内和数据消费者中,更快地交付出有价值的信息。
为此,DataOps需要通过各项技术,来自动化数据的设计、部署、管理和交付,缩短数据分析的周期,进而改善其使用和提供的价值。在此基础上,DataOps能够大幅提高组织对于市场变化的响应速度,以及应对挑战的能力。
DataOps能够解决的挑战和问题
大数据给我们带来的最大好处莫过于,快速可靠的数据驱动和可实现的业务洞见。对此,各类组织和技术人员需要将DataOps与敏捷、DevOps和精益制造等方法实践相结合,以应对如下方面的数据挑战:
- 速度
现代化的组织往往需要对来自不同源头、不同形式的数据,持续进行清理、改进和再利用。只有经过这样复杂且漫长的过程,组织才能够从那些快速发展的业务环境中,发掘出潜在的数据洞见。而DataOps恰好能够从根本上提高此类洞见的发掘速度。
- 数据类型
有时,组织收集到的数据可能是非结构化的格式。而此类数据源极有可能为新兴的业务挑战提供线索。因此,组织仍然以结构化的格式,去处理数据的话,是远远不够的。鉴于此类数据洞见提取的难度,DataOps能够方便组织去更好地识别、收集和使用来自每个可用数据源的数据。
- 数据孤岛
DataOps打破了组织内部数据过于集中的孤岛状态。同时,它能够通过构建弹性系统,为需要访问数据的每一方提供自助式的服务。也就是说,弹性系统能够随着组织的业务进行扩展,为数据用户提供一种可预测的方式,实现对数据的按需查找和使用。
DataOps的业务优势
对于数据驱动型企业而言,他们需要尽快将数据交付给数据工程师、数据科学家、机器学习(ML)工程师,甚至客户。而DataOps则能够为他们带来如下业务优势:
- 最大限度地利用数据
DataOps为包括:分析师、管理层、以及客户在内的所有数据用户,提供自动化的数据交付,并在此过程中允许每个部门,从数据中提取最大的信息价值。显然,它能够提高组织的竞争力、面对变化的响应能力、以及更高的投资回报率。
- 在正确的时间获得正确的洞见
目前,大数据需要关注的一个显著问题是,提供数据洞见的时效性。也就是说,过于延迟地提供正确的洞见,对于企业来说是没有意义的。而DataOps能够将数据快速地提供给需求方,以便更快地做出更明智的决策,使组织能够快速地适应市场的变化。
- 提高数据生产力
DataOps会使用自动化工具,将数据以自助操作的服务方式予以交付。它不但消除了数据请求和数据访问之间的固有延迟,而且让团队能够据此做出以数据为驱动的决策。同时,由于DataOps摆脱了各种需要手动进行数据管道变更的管理流程,因此组织能够针对数据管道进行简化、快速、且自动化的变更。
- 针对结果优化的数据管道
DataOps在数据管道中加入了一个反馈循环,允许各种数据消费者识别他们所需的特定数据,并从中获得定制的洞见。据此,每个团队都可以使用这些洞见,来进一步降低成本,发现新的机会,并提高组织的盈利能力。
DataOps的原则
在技术方面,DataOps能够在不影响数据分析的速度或质量的基础上,提高数据应用的可扩展性。由于借鉴了DevOps的经验教训与实践,因此DataOps在许多关键方面与DevOps高度重合。下面是DataOps的三个基本原则:
- 持续集成
由于DataOps能够动态地识别、整理、集成和提供来自不同源头的数据,因此新的数据会被DataOps自动集成到数据管道中,并使用AI/ML工具,提供给各个需求方。
DataOps的自动化完全简化了数据从被发现到转换、管理、洞察、以及定制的全过程。实际上,它可以将数据以实时流的形式,直接传输到预测算法中,以便向用户,特别是数据消费者提供即时的洞见。
这种经过优化的数据集成过程,确保了数据在被发现和利用的过程中,不会浪费过多的时间。
- 持续交付
根据规模效应的理论,越多的人去访问组织持有的数据,从中提取的洞见就越具有参考价值。不过,数据的可访问性,取决于数据的治理。我们只有通过DataOps,在整个组织内实施数据治理,才能保证数据能够在安全、且保有隐私的前提下,提供可访问性。
为了保证数据能够以符合内部数据质量、以及数据屏蔽规则的协作方式,有目的性地交付给内、外部数据消费者,我们通常需要使用智能化的数据平台来实现。也就是说,只有当数据的质量、隐私和安全得到了保证时,各种相关方才有信心使用它,并从中获得准确的洞见,而不必担心数据治理所带来的影响。
- 持续部署
如今,各种欺诈检测、AI聊天机器人、数字化销售、以及供应链管理等关键任务功能,都需要数据驱动型应用,实时地根据最新可用的数据,来进行决策。而持续部署正是保证用户与应用能够无缝访问数据的前提条件。
DevOps与DataOps
虽然DataOps借鉴了DevOps的基本概念和操作流程,但是两者之间仍然存在如下显着的差异:
- 人员条件
尽管DataOps的从业者可能非常精通技术,但是他们需要更加专注于,为数据用户创建算法、模型和视觉辅助等工具。同时,他们还应当具有可落地的软件工程思维。
- 流程
虽然DevOps流程几乎不会涉及到编排(orchestration),但是DataOps流程则需要用到数据管道和分析开发的编排。
- 测试
与DevOps不同,DataOps会高度依赖数据屏蔽,来开展测试。因此,测试数据的管理就显得至关重要了。此外,在部署之前,DataOps通常需要在数据管道和分析开发的过程中,测试和验证数据。
- 工具
目前,DevOps已拥有成熟的工具生态系统,尤其体系在测试方面。而作为一种新的方法,DataOps通常需要团队从头开始构建工具,或根据其特殊目的去定制DevOps工具。
DataOps平台的演进
在数据分析的早期,ETL(提取、转换、加载)工具已经成为了管理大量导入数据的强大工具。然而,随着数据的多样性、准确性、以及体量的激增,人们对于可扩展性和实时数据分析的需求,变得更加迫切。ETL工具与云计算资源的结合,虽然加快了数据的分析速度,然而,数据访问的安全性仍然形式严峻。在此背景下,DataOps应运而生。通过采用民主化的数据访问(democratized data access)方式,所有数据需求方可以在组织数据治理策略的约束下,安全、优质地获取数据洞见。
原文标题:A Guide toDataOps: The New Age of Data Management,作者: Mir Alimanagement