如果你是一个数据科学的求职者,那么你一定想知道在你的简历上应该写些什么技能会有更大的概率接到面试。如果你想进入这个领域,你可能已经多次想要知道哪些技术可以成为一个有吸引力的候选人。
本篇将告诉你答案。
Python现在是数据科学的首选语言
有很多人争论:Python和R,哪个是数据科学的首选语言。 市场需求报告告诉我们Python是现代的领导者。同样值得注意的是,R比SAS更少提及。因此,如果您正在考虑进入数据科学,可以将你的学习重点放在Python上。而SQL作为数据库语言,是数据科学家第二重要的语言。 由于数据科学家职业的广泛性,其他语言也扮演着重要角色。
总的来说,数据科学家的主要语言是:Python,SQL,Scala,Lua,Java,SAS,R,C ++和Matlab。
机器学习工程师所需的语言更加多样化
作为热门语言,Python成为机器学习工程师的首选语言并不令人惊讶。此外,由于需要从头开始实现算法并在大数据环境中部署ML模型,因此C ++和Scala等相关语言也很重要。 总的来说,与其他两个角色相比,语言的需求似乎更加分散。
总的来说,机器学习工程师的主要语言是:Python,Scala,Java,C ++,Lua,SQL,Javascript,Matlab,CSS和C#。
成为一名数据工程师,SQL是必须的技能
数据工程师常常处理数据库,而SQL是数据库的语言,所以SQL是数据工程师必备的语言。Python虽然很重要,但对于数据工程师而言,Scala和Java更为重要,因为这些语言可以帮助他们处理更大的数据。
总的来说,数据工程师的主要语言是:SQL,Scala,Java,Python和Lua。
Scala是数据科学中第二大进口语言
当我们对比不同的角色时,惊奇的发现,Scala不是第二个就是第三个。 所以我们可以说数据科学中的前三种语言是Python,SQL和Scala。 如果你正在考虑学习一门新语言,也可以考虑使用Scala。
Spark是除数据工程师之外的首选大数据技能
仅对于数据工程师而言,Hadoop比Spark更多,但总的来说,Spark绝对是首先应该学习的大数据框架。Cassandra对工程师而言比科学家更重要,而Storm似乎只与数据工程师有关。
总的来说,数据科学的大数据技术是:Spark,Hadoop,Kafka,Hive。
TensorFlow是深度学习的王者
数据工程师的职位描述中几乎没有提到深度学习框架,因此该角色几乎是不需要DL框架的。而更多使用DL框架的是机器学习工程师,这表明了机器学习工程师更多地是处理机器学习建模,而不仅仅是部署模型。另外,TensorFlow在深度学习的领域中是占据着主导地位的。尽管Keras作为高级深度学习框架在数据科学家中也是非常受欢迎的,但它几乎与机器学习工程师没什么关系,这也表明ML从业者们大多都使用较低级别的框架,比如TensorFlow。
总的来说,数据科学中最重要的几个深度学习框架是:TensorFlow,Torch,Caffee,MXNet。
AWS是云计算平台的主导
计算机视觉是机器学习中大部分需求的来源
对于一般数据科学家而言,自然语言处理是最大的ML应用领域,其次是计算机视觉,语音识别,欺诈检测和推荐系统。但对于机器学习工程师而言,最大的需求却来自计算机视觉,而自然语言处理则一直是第二。另一方面,不论是计算机视觉还是自然语言处理,与数据工程师都没什么关系。
如果你想成为一个数据科学家,可以选择各种类型的项目,根据你想要进入的领域展示专业知识,但对于机器学习工程师而言,计算机视觉则是最佳选择。
Tableau是必会的可视化工具
可视化工具主要是数据科学家所需要的,很少会有人提到数据工程师和机器学习工程师。 尽管如此,Tableau可是说是所有角色的首选。但对于数据科学家而言,Shiny,Matplotlib,ggplot和Seaborn也同样得重要。
每个人都必须会Git,而Docker仅适用于工程师
下面,我们将使用词云来探索上面提到的每个角色最常用的一些关键词,然后结合相应的技能为所有数据科学角色构建理想的描述。
数据科学家:更关注机器学习
数据科学家一直被视为需要统计,分析,机器学习和商业知识的全方位专业。然而,现在从词云比重看来,数据科学家们更多地关注机器学习而不是其他的一些东西。
机器学习工程师:研究,系统设计和构建的
与数据科学家相比,机器学习工程师会有一个更集中的组合,包括研究,设计和工程。显然,解决方案,产品,软件和系统是主要的主题。当然,伴随着这些,有研究,算法,ai,深度学习和计算机视觉。从词云看出,商业,管理,客户等术语也很重要,这可以在项目的进一步迭代中进一步研究。
数据工程师才是真正的专家
与机器学习工程师相比,数据工程师拥有更加专注的产品组合。显然,重点是通过设计和开发pipelines来支持产品,系统和解决方案。 对于数据工程师来说,比较高的要求包括了专业技能,数据库,测试,环境和质量。机器学习也同样很重要,因为pipelines主要用于支持机器学习模型部署数据需求。
这就是数据科学技能分析的全部了。希望本篇可以帮助你了解招聘者更注重什么技能,最重要的是可以帮助你做出有关如何定制简历和学习哪些技术的决策。