本文转载自公众号“读芯术”(ID:AI_Discovery)。
在数据科学领域找到一份好工作是项艰巨任务,挑战重重。尽管数据科学正在迅速发展,但是对这一领域感兴趣或由于高薪而加入的人数正在成倍增加。因此,尽管对优秀数据科学家的需求很大,但是找到相关工作却非常困难。为了找到工作,你需要在数百名(甚至数千名)应聘者中脱颖而出。
一名优秀的数据科学家有很多方面的标准,有些涉及技术,有些则不是。作为数据科学家,需要拥有优秀的作品集,才能清楚地展示其技术技能及软技能。最重要的是,作品集需要证明你渴望学习。
数据科学是一个非常广阔的领域,“数据科学”作为统称涵盖许多主题,包括机器学习、计算机版本、人工智能和自然语言处理的所有子领域。尽管主题众多,但要证明作为数据科学家的价值,只需要展示自己具备数据科学核心概念中的能力即可。
本文讨论了4种类型的数据科学项目,有了这些项目可以在求职者的作品集脱颖而出,丰富技能,并增加获得理想工作的机会。
数据清洗
数据科学家可能将花费近80%的时间来清洗数据,在不干净且混乱的数据集上无法建立可靠有效的模型。
清洗数据时,可能需要花费大量时间才能弄清楚数据集中各列的用途。有时,在经过数小时甚至数天的清洗之后,会发现所分析的数据集并不真正适合要实现的目标!然后需要重新开始该过程。
清洗数据是一个令人沮丧和艰巨的任务。但是,它是每份数据科学工作中非常重要的组成部分,为了使其不那么艰巨,需要不断进行练习。有专门用于练习数据清洗的数据集。在为数据清洗项目寻找合适的候选数据集时,需要确保:
- 数据集分布在多个文件中。
- 有很多细微差别、空值和许多可能的清洗方法。
- 需要大量研究才能完全理解。
- 最重要的是,它需要尽可能接近实际应用程序。
收集和汇总数据集的网站上经常可以找到优质的数据集用于清洗(或者笔者称之为非常混乱的数据集)。这些网站从各种来源收集数据而不会吞掉它们,这使得这些数据集成为数据清洗项目的首选。
此类网站包括:
- Data.world.
- Data.gov.
- Reddit datasets.
探索性数据分析
数据清洗和整理后,将需要进行探索性数据分析(EDA)。EDA是每个数据科学项目中的重要步骤之一。执行EDA有很多好处,例如:
- 最大化数据集见解。
- 揭示基本模式和结构。
- 提取重要信息。
- 检测异常。
可以遵循许多技术来执行有效的EDA,其中大多数技术本质上都是图形化的。其背后的原因是,最好以视觉方式显示数据中的模式和异常。EDA任务中特定图形技术用途非常简单,例如:
- 绘制原始数据以获得初步见解。
- 在原始数据上绘制简单统计数据,例如均值图和标准偏差图。
- 将分析集中于数据的特定部分,以获得更好的结果。
可以从许多资源中学习EDA的基础知识,并培养出一种探索数据模式的直觉。最喜欢的一大主题课是约翰霍普金斯大学在Coursera上开设的课程。
数据可视化
数据科学家创建任何一种数据科学项目通常是为了揭露秘密或获取信息,它们以某种方式帮助改进或理解数据。在大多数情况下,这是以学术或商业为导向的。每个数据科学家必须开发的技能之一就是能够用其数据讲述一个引人入胜的故事。
讲故事的最好方法是可视化。可以使用许多公开可用的数据集来进行数据可视化,创建仪表板并使用数据讲述故事。笔者最喜欢的一些数据集包括:FiveThirtyEight、Google的Dataset Search、Data is Plural,当然,谈论数据集时还不能不提及Kaggle。
为了脱颖而出,需要成为一个会讲故事的人。数据需要进行有效的可视化。幸运的是,有许多资源可以学习和练习数据可视化技能。可以阅读有关可视化的文章,或参加好的可视化课程。
机器学习
机器学习的流畅性决定从事数据科学工作的成败。有时,当新手加入该领域时,往往会跳过基础知识而直接学习该领域更高大上的知识。
但在深入探讨此类进阶知识之前,需要确保已建立机器学习基础知识的坚实基础。掌握基础知识不仅会夯实技能基础,还提供必要的知识,使你可以更快、更轻松地掌握任何新概念和高阶知识。
确保参与过涵盖所有机器学习基础知识的项目,例如回归(线性回归、逻辑回归等),分类算法和聚类算法。笔者最喜欢的有关机器学习基础的资源包括《The Deep Learning Book》的机器学习基础章节和CodeAcademy的机器学习课程。以下是一些简单但功能强大的机器学习项目:
- 使用贷款预测数据集进行贷款预测。
- 使用房价预测数据集进行房价预测。
- 音乐体裁分类。
- 使用个性预测数据集进行人的个性预测。
- 手写字符识别。
- 语音转文本或者文本转语音。
在数据科学领域找到好工作可能会非常具有挑战性。为了在众人中脱颖而出,求职者的作品集需要体现本人具备数据科学基本概念的坚实基础。强大的基础意味着游刃有余的学习状态、轻松实施和适应新的模型和算法。
本文列举的项目可证明扎实的数据科学基础。但是,做过这些项目不足以找到工作。求职者还需要提高自己的软技能,例如沟通能力、叙事能力和基本的业务模型理解能力。一些高水平项目也可显示具体知识掌握情况。祝你顺利得到心动的offer!