数据是人类的发明。人类定义了他们想要测量的现象,设计系统收集数据,在分析之前进行清理和预处理,最后选择如何解释结果。即使使用相同的数据集,两个人也可以得出截然不同的结论。这是因为数据本身并不是“地面真实”——能够反应客观现实的、可观察的、可证明的数据。
你如何概念化一个现象,确定要测量什么,并决定如何测量,将影响你收集的数据。你利用AI解决问题的能力很大程度上取决于你如何表述你的问题,以及你是否能建立无歧义的”地面真实“。如果你的标准本身是错误的,那么结果不仅是错误的,而且可能对你的业务有害。
除非你直接参与定义和监视原始的数据收集目标、工具和策略,否则你可能无法掌握那些能帮你发现错误处理、解释和使用这些数据的关键知识。大多数被我们成为“数据”的东西可能是些仅仅是用来支持某种议程的测量、与事实无关的信息集合、或者来自看起来合理、但是带有偏见的收集工作。
下面是一个关于九个常见统计错误的速成班,每个管理者都应该熟悉:
不明确的目标:
未能确定收集数据的原因,意味着你将错过阐明假设和确定收集内容的机会。结果是你可能会收集错误的数据或不完整的数据。
大数据的一个共同趋势是企业收集大量信息而不了解他们为什么需要它,以及他们如何使用它。收集庞大而混乱的数据量只会阻碍你未来的分析,因为你将不得不通过更多的垃圾来寻找你真正想要的东西。
定义错误:
假设你想知道你的客户上个季度花了多少钱在你的服务上。即使是这样一个简单的目标也需要在你得到你想要的信息之前定义一些假设。
首先,你如何定义“顾客”?取决于你的目标,你可能不想把每个人都放到一个桶里。您可能希望通过购买行为细分客户,以便相应地调整营销动作或产品特性。如果是这样的话,那么你需要确保你包含了关于客户的有用信息,例如人口信息或支出历史。
还有一些战术上的考虑,比如你如何定义宿舍。你会使用财政季度或日历季度吗?许多组织的财政年度与日历年不符。财政年度也在国际上有所不同,澳大利亚的财政年度从7月1日开始,印度的财政年度从4月1日开始。你还需要制定一个策略来解释回报或交换。如果顾客在第一季度买了你的产品,但又把它退回去了呢?如果他们对你提出了质量投诉并得到退款怎么办?你把这个事件归到哪个季度?所以定义不是那么简单。你将需要讨论你的期望,并设置适当的参数,以收集你真正想要的信息。
捕获错误:
一旦确定了希望收集的数据类型,就需要设计一种机制来捕获它。这里的错误可能导致捕获不正确的或偶然的、有偏见的数据。例如,如果你想测试产品A是否比B产品更吸引人,但你总是在你的网站上显示产品A,那么用户可能不会频繁地看到或购买B产品,从而导致你得出错误的结论。
测量误差:
当你捕获数据的软件或硬件出错时,或无法捕获可用数据或产生虚假数据时,就会出现测量错误。例如,使用日志与服务器不同步,则可能丢失移动应用程序上的用户行为信息。同样,如果你使用像麦克风这样的硬件传感器,你的录音可能会捕捉到背景噪音或其他电信号的干扰。
加工误差:
许多企业拥有几十年前的数据,原来能够解释数据决策的团队早已不在了。他们的许多假设和问题很可能没有文档化,这将取决于你推断,这可能是一项艰巨的任务。
你的团队可能会做出与原始数据收集过程中不同的假设,并得出截然不同的结果。常见的错误包括缺少一个特定的过滤器,使用不同的会计标准,并简单地犯方法错误。
覆盖误差:
覆盖误差指,目标受访者都没有足够的机会参与数据调查的情况。例如,如果你正在收集老年人的数据,但只提供网站调查,那么你可能会错过许多答卷人。
你的营销团队可能有兴趣预测所有移动智能手机用户的行为与未来的产品的关系。然而,如果您只提供iOS应用程序而不是Android应用程序,iOS用户数据将使你对Android用户的行为有有限的了解。
抽样误差:
当你分析一个较小的样本时,就会发生抽样误差。当数据只存在于某个群体中时,这是不可避免的。结论:你得出的代表性样本可能不适用于整体。
推理错误:
当统计和机器学习模型从已有数据中做出不准确的判断后,它们之后的推理结果也可能是错误的。如果你有一个非常干净的“地面真实”数据库,那么就可以用它去检测数据模型得出的推理是否正确,但实际上,大多数数据库是充满噪音的,所以你通常很难确定AI推论的错误点在哪里。
未知错误:
现实是难以捉摸的,你不能总是轻易地建立事实。在许多情况下,比如使用数字产品,你可以捕获大量用户在平台上的行为数据,而不是他们对这些行为的动机。你可能知道一个用户点击了一个广告,但你不知道他们对它有多恼火。除了已知的许多类型的错误之外,还有一些未知,它们在以数据代表的现实和现实本身之间留下了一个缺口。
没有数据科学或机器学习背景的管理人员通常会犯这九大错误,但许多更微妙的问题也会阻碍AI系统的性能。