2023 年已经到来,企业极为重视这一年。从初创企业到大型企业集团,每家公司都肩负着同样的使命进入新的一年,即通过提高运营效率、生产效率和韧性来推动增长。
由于在完成这一使命过程中数据发挥着关键作用,一些优秀的行业专家和供应商就未来几个月数据领域如何发展分享了自己的预测。
1. 首席信息官们将开始整合数据和简化架构
“在与其他首席信息官交谈时,我注意到,企业正在呈指数级发展,但没有制定计划来组织自己的数据。当一个公司考虑全力以赴扩大规模,却不对适合自己的技术进行投入以支持这种业务增长时,就会出现问题。”
“问题之一是,如今的首席信息官不得不管理太多的系统。过多彼此脱节的数据库会导致数据重复、孤立和被锁住,这不仅为管理和分析工作带来更高的时间和其他成本,而且还会导致产生安全问题。”
“对于一家公司来说,要真正推进数字化转型,他们需要将数据科学和数据分析相结合,并应从单一且可靠的来源提取数据。我们将看到更多的首席信息官会削减在供应商方面的开支,以简化自身的数据架构。对于那些已采用事后分析和预测分析架构来制定高效和智能解决方案的公司,他们最终将得到成功发展。”
- Databricks 公司首席信息官——Naveen Zutshi
2. 更广泛地使用数据合约
“为防止数据生成服务发生意外改变导致上游出现数据质量问题,数据合约变得非常受欢迎。为什么?由于软件工程师做出了一些更改,而无意中通过一些可影响下游数据管道的升级过程带来某些结果,并导致数据建模的兴起,(这些结果让)数据工程师可选择预先建模,然后将数据交付到数据仓库。2023 年,随着从业者尝试使用这些框架,我们将看到人们更广泛地使用数据合约。”
-Monte Carlo 公司联合创始人兼首席技术官 (CTO)——Lior Gavish
3. 可用性将是 2023 年的致胜关键
“近年来,我们学到的一个经验是,服务中断可能会对企业造成严重影响。在 2023 年,可用性将是区分赢家和输家的秘密武器。企业需要避免被锁定,同时要拥有扩大业务规模的灵活性。通过使其云环境多样化,企业将最大限度地减少服务中断对其业务持续运营能力的影响。”
- MariaDB 公司产品经理——Patrick Bossman
4. 2023 年将是数据应用程序之年
“在过去的十年里,我们看到了 web 应用程序和手机应用程序的崛起,但 2023年是数据应用程序之年。随着企业寻求新的解决方案来改善面向客户的应用程序和内部业务运营,可靠且高效的数据应用程序将是企业成功的关键工具。随着像Uber、Lyft 和 Doordash 等按需数据应用程序触手可及,对于客户来说,没有什么比陷入对一个应用程序的漫长等待和一个请求没有得到回应更糟糕的了。在实时分析技术的支持下,我们将看到数据应用程序承受越来越大的压力,其不仅要做到实时响应,而且要做到无故障。”
- Rockset 公司联合创始人兼首席技术官——Dhruba Borthakur
5. 数据处理协议 (DPA) 的兴起
“企业如何在内部系统中处理数据,历来是一个受到严格管控的过程,需要周密的设计和使用大量的保护措施。然而,当我们使用如今的 SaaS 数据基础设施时,跨部门、跨地区和跨公司进行数据共享和访问变得前所未有的简单。考虑到这一点,以及由于数据本地化/主权法规的不断完善,与如何访问、处理和报告数据使用情况的相关规则需要通过合同协议(也称为数据处理协议)来界定。”
“在 2023 年,我们将看到数据处理协议成为 SaaS 合同和数据共享谈判的一个标准要素。企业如何处理这些合同将从根本上改变他们构建数据基础设施的方式,并将定义其数据的商业价值。因此,在 2023 年及以后,完全接受数据处理协议将给数据主管们带来最大利益。这些文件将非常冗长且复杂,但数据处理协议的数字化和法律团队的参与将使这些文件更容易理解和实施。”
- Immuta 公司联合创始人兼首席执行官——马特·卡罗尔 (Matt Carroll)
6. 无副本的数据交换将占主导地位
“2023 年,随着数据共享业务持续增加,以及数据和 IT 团队疲于应对这方面的业务增长,无副本数据交换将成为新的标准。随着企业将其现代数据堆栈产品化,数据集的大小和数量将出现爆炸性增长。在数据分享之前先进行复制,已不再可行。在 2023 年,企业将涌向成熟的平台(如 Snowflake 公司的数据交换平台和 Databricks 公司的 Delta Sharing 协议),以更容易地共享数据和利用数据盈利。”
- Immuta 公司联合创始人兼首席执行官——马特·卡罗尔 (Matt Carroll)
7. 用于非结构化数据管理的人工智能自动化将获得关注
“随着自适应机器学习和人工智能自动化技术可以合理地引导完成数据放置、生命周期管理、搜索和移动操作,文件和对象数据的管理正变得日益复杂。解决方案可根据客户的成本状况、数据状况和目标配置进行调整,并随着时间的推移了解更多情况以提出更好的建议。例如,人工智能算法可用于主动识别敏感的数据集(如含有与财务文档相关的扩展名或标签的文件),这些文件不按照规定进行保存——如保存在首席营销官的目录中,而不是保存在首席财务官管理的只读目录中。”
- Komprise 公司首席执行官兼联合创始人——库马尔·戈斯瓦米 (Kumar Goswami)
8. 合成数据将加快推进 AI 创新
“2023 年,在加快推进人工智能发展和部署,以及防止出现算法偏见方面,合成数据将成为游戏规则改变者。发展人工智能技术所面临的一个重大挑战是获取适当数量和多样性的数据来训练基于机器学习技术的算法。这些算法需要大量的数据,而这些数据代表着使用数据的不同的人以及使用数据的一些背景信息。”
“获取这种具有广度和深度的数据非常困难,极为耗时且需付出很高成本。数据合成技术使人工智能公司可以快速增加其现有的数据集,并能模拟在现实环境中难以发生的场景。”
“例如,在汽车行业,合成数据工具可使用驾驶员的一个源图像,在使用不同光照条件或不同头部运动情况下,创建一些合成的变化。这些工具甚至可以模拟驾驶员在驾驶过程中睡着的场景,而这些数据在现实生活中很少见,而且非常危险。部署合成数据工具非常重要,其不仅可以解决在数据收集方面所面临的这些复杂难题,而且还可通过数据集所具有的真正多样性来防止出现算法偏见。”
- Smart Eye 公司副首席执行官——Rana el Kaliouby 博士
9. 在多云的环境中,对象存储是主要的存储方式
“如今,数据库正趋向于将对象存储作为其主要的存储解决方案。这是由性能、可扩展性和开放表格式所推动。开放表格式(Iceberg、Hudi、Delta)兴起的一个关键优势是,其允许多个数据库和分析引擎共存。因此,这又带来了人们在任何地点都能运行的需求——这恰好非常适合现代的对象存储。”
“初期的迹象已非常明显;Snowflake 公司和微软公司都将在 2023 年底推出外部表功能。如今,企业将能够针对任何数据库使用对象存储,而不再需要将这些对象直接移入数据库;企业可以就地查询。”
- MinIO 公司联合创始人兼首席执行官——Anand Babu Periasamy
10. 数据收集将成为人们关注的焦点
“数据收集是当今业内最大的隐秘之一。2022 年有 144 亿个连接点,企业正坐在数据宝藏之上,而没有真正使用这些数据。人们的想法是,他们能够在未来以不同于如今的方式来使用这些数据。”
“随着技术的不断进步,每条数据也在变得更大。一切东西都变得更加先进,例如更高分辨率的相机、更高质量的麦克风等——所有这些都需要占用大量的空间。我希望企业和消费者都能开始关注他们无意中开始收集的数据。”
- VAST Data 公司创始人兼首席执行官——Renen Hallak
11. “自带数据库”(BYODB) 混合云部署的兴起
“将某些数据驱动的项目迁移到云端的好处是毋庸置疑的——可以更快的部署,减少基础设施和维护成本,提供配套的技术支持和服务等级协议 (SLA),以及在需要时可以立即进行业务扩展。然而,总会有一些用例合同要求将数据保存在企业内部,包括工作数据、安全数据、法规遵从信息、本地开发数据和实体隔离硬件(仅举几例)。对于现代数据供应商而言,一个更灵活的解决方案是支持‘自带数据库’的混合云部署,以及支持更常见的企业内部部署方案和完全托管的云服务方案。”
“这种新方法将在未来几年内流行起来,其允许数据保存在原地且不被更改,并可远程连接到位于附近数据中心顶层的 SaaS 服务。这就带来了云端的所有好处,同时仍对公司的最宝贵资源——数据——拥有完全的主权和控制权。”
- Directus 公司首席执行官兼联合创始人——本·海恩斯 (Ben Haynes)
12. 管道将变得更复杂
“数据管道是指数据从其原始来源进入数据仓库的方式。由于存在如此多新的数据类型,以及数据不断涌入,这些管道不仅变得更为重要,而且可能变得更加复杂。在 2023 年,用户应期待数据仓库供应商来提供新的且更好的方法,以提取、转换、加载、建模、测试和部署数据。供应商在做这方面工作时,应侧重于整合和易用性。”
- Ocient 公司首席执行官兼联合创始人——克里斯·格拉德温 (Chris Gladwin)
13. 矢量数据库占据主导地位,释放非结构化数据的未利用价值
“随着企业步入人工智能时代,并试图在生产中充分利用人工智能的优势,由此,各种形式的非结构化数据大幅飙升,而人们需要了解这些数据。为了应对从非结构化数据中获取有形价值所面临的这些挑战,矢量数据库(一种新型数据库管理技术,专门用于处理非结构化数据)正在兴起,并将在未来几年内占据主导地位。”
- Zilliz 公司运营总监——Frank Liu
14. 数据可观察性将成为一个重要产业
“在如今的经济形势下,不断计算投资回报率,并优先考虑那些花小钱办大事的方法,这是至关重要的。我相信工程团队可以精益求精,努力提高公司成功发展的能力。”
“我预测,我们将越来越多地看到工程师和数据团队成为推动者,通过构建基础设施和为其他团队(特别是非技术团队)高效工作提供所需的工具,使公司能够基于数据做出决策。他们开启这种转变的方式之一是帮助团队了解如何独立地访问他们的数据,而非始终在回答各种问题。我希望数据团队不要雇佣更多的数据专家,而是要更多地发挥数据工程的作用,以构建可长期使用的基础设施,使所有业务人员能独立回答问题。”
- Amplitude 公司工程高级副总裁——Shadi Rostami