世界靠数据运转。数据科学家组织并理解大量信息,综合并翻译这些信息,以便人们能够理解它。他们推动了许多组织的创新和决策过程。但他们使用的数据质量会极大地影响他们发现的准确性,这直接影响业务成果和运营。这就是数据科学家必须遵循强有力的质量保证实践的原因。
什么是质量保证?
在数据科学中,质量保证确保产品或服务符合要求的标准。它指的是验证数据是否准确、完整和一致。数据必须没有不一致、错误和重复,科学家必须妥善组织和记录。
2019 年的一项调查发现,组织的 IT 预算中约有 23%用于质量保证和测试。尽管自 2015 年以来这一数字已从 35% 下降,但质量保证仍然是数据科学最关键的方面之一。清晰的数据治理和文档记录提高了数据分析的效率,有助于提高调查质量及其生成的见解。
数据科学家应遵循的质量保证实践
数据科学家必须遵循几个重要步骤来确保他们使用的数据的质量。
1. 明确目标
在开始数据分析项目之前,科学家必须为他们想要实现的目标定义明确的目标。此过程有助于确定必要的数据类型、使用的来源和使用的方法。清楚地了解目标还有助于确保数据相关且有价值。
首先,创建所有数据资产和管道的地图、数据沿袭分析和质量分数会很有帮助。它标识数据源及其在分析管道中的变化方式。现代数据目录可以自动化和简化流程。
2.验证数据源
数据从何而来?数据分析管道很复杂,系统中最多可能存在三种类型的数据。质量保证中最重要的步骤之一是验证数据源——它们必须可靠、准确和适当。
数据沿袭解决方案有助于识别分析管道中任何一点的质量问题,防止对下游产生负面影响。这就是为什么许多组织都采用这项技术的原因。
3. 进行数据清洗
识别和纠正数据中的不一致、错误和不准确的过程称为数据清理。它涉及删除重复项、结构错误、不需要的观察结果和异常值。数据清理还需要填写不完整的数据、修复拼写错误以及一致地格式化数据。数据科学家必须在进行分析之前执行此步骤,以确保数据准确无误。
4.巩固数据治理实践
管理数据可用性、可用性、完整性和安全性称为数据治理。建立良好的数据治理流程有助于确保数据科学家使用准确和一致的信息。
为了创建这些实践,数据科学家可以制定数据访问、存储和共享的策略。例如,拥有元数据存储策略可以让人们快速找到他们的数据集。他们还可以创建数据审计和质量控制程序。
将此过程的大部分自动化很重要,因为过于依赖手动盘点和修复数据可能会导致失败。自动化数据治理有助于数据科学家以适当的速度和规模处理比以往更多的数据。
5.建立服务水平协议
与数据提供商建立服务水平协议 (SLA)可能很有用。SLA 应该定义数据源、格式和质量,主题专家应该在应用转换和将数据放入他们的系统之前进行评估。
6. 验证分析结果
算法有其用武之地,但并非万无一失。数据科学家必须验证每个完整分析的结果以确保准确性。他们可能需要用不同的测试方法或参数来测试结果,将结果与其他数据源进行比较,或者检查他们的结果是否有错误。
这项工作不仅仅适用于 IT 部门。企业的所有级别都应该能够访问数据,从而消除孤岛并让每个人都参与分析。在整个组织中建立重视讨论、观察和改进的数据驱动文化非常重要。
7.寻求额外的反馈
外部观察员可以发现错误并提出改进建议。第三方反馈有助于确保数据分析实用、相关且准确。分析完成后,数据科学家可以向利益相关者和主题专家寻求反馈。
处理数字
由于数据科学家在众多行业中扮演着如此重要的角色,因此如果他们生成不准确的数据,就会面临很大的风险。他们的分析结果会影响医疗保健、计算机科学、政府等领域的决策。质量保证实践帮助数据科学家确保他们提供的数据准确且相关。在信息泛滥的世界中,这比以往任何时候都更加重要。