您还未登录! 登录 | 注册 | 帮助  

您的位置: 首页 > 软件开发专栏 > 大数据 > 正文

数据科学50年,数据科学家是否依然是21世纪最性感的职业?

发表于:2020-05-31 作者:IT168企业级 来源:今日头条

在如今的数据智能时代,几乎所有人都相信“数据的真实价值就像漂浮在海洋中的冰山,第一眼你只能看到冰山一角,而绝大部分则隐藏在表面之下。”当数据的价值依然在冰山之下隐藏,外面的世界便弥漫着对数据的渴望。

数据科学50年,数据科学家是否依然是21世纪最性感的职业?

一些新的职业成为数据海洋里的新星,“数据科学家”无疑是最亮的之一,它被誉为21世纪最性感的职业,但是近年来随着平民数据科学家的发展,有人指出数据科学家将要消失,也有国外相关人士建议不要去选数据科学家这个职业,数据科学家还是21世纪最性感的职业吗?

数据科学五十年仍是少年

数据科学家泛指数据科学的从业者,追溯数据科学家的源头可以到数据科学诞生的1966年,当时Peter Naur提出"数据科学"(“DataScience”起初叫"datalogy "),用来代替"计算机科学"。1996年,International Federation of Classification Societies (IFCS)国际会议召开。数据科学一词首次出现在会议(Data Science, classification, and related methods)标题里。

在2000年代中期数据科学家职位开始出现,2009年Natahn Yau指出数据科学家是是采用科学方法、运用数据挖掘工具寻找新的数据洞察的工程师,数据科学家集技术专家与数量分析师的角色于一身。

实际上大数据和数据科学在内的整个数据行业最初都是由Google、Facebook、Twitter等互联网巨头驱动,现在仍然如此。总部位于欧洲的JetBrains是国际知名软件开发工具提供商,其产品经理Andrey Cheptsov认为互联网巨头能够推动数据行业的发展首先有所需求、并有能力进行大规模有效处理数据,其主要业务模型从核心上取决于自身处理大规模数据的效率。

随着大数据行业的发展,数据科学家成为了职场新星,更是被财富杂志誉为21世纪最性感的职业。但是数据科学家在初期成长也并非一帆风顺,根据商业智能公司SiSense在2012 年左右的一项报告,在接受调查的全球400位数据科学家和数据分析人士中,59%的数据科学家在从业六年后都另谋高就。尽管该职业的报酬丰厚,其中超过半数表示对职业安全性的担忧。

彼时麦肯锡等咨询公司力挺数据科学家,坚信数据科学家是当今和未来稀缺的资源。随着智能手机的普及移动互联网的发展,数据价值越发凸显,数据科学家水涨船高。LinkedIn 发布的《2017 年美国新兴工作岗位报告》中指出,“自 2012 年以来,数据科学家的职位增长了 650% 以上”且“数百家企业都在招聘这些职位”。

国内近几年也有互联网公司近几年开始逐步设立独立的数据科学(DataScience)团队,推动公司向数据驱动发展。进入21世纪20年代,数据科学家成为更稀缺的资源,很多人也依然相信它还是21世纪最性感的职业。

不过荣誉傍身的新星也有“暗淡”的一面,2017年有研究指出数据科学家成为离职率最高的职位之一,通常他们每周都会花费一定的时间寻找新工作。日前仍然有数据科学家从业者劝谏后来者不要入坑,可谓是冰火两重天,何以至此?

数据科学五十年依旧是少年模样,就如同“AI”这个名词在1956年出现到如今60多年才有初步落地,数据科学是一个综合性的学科,国内外很多从业者认为数据科学依然是探索性的工作,管理层对 “数据科学” 的含义往往没有达成共识。

虽然已经经过至少10多年的发展,现在可能受限于业务,没有办法生搬硬套一个角色框架给数据科学家,企业也容易将数据科学家和数据工程师混淆。JetBrains产品经理Maria Khalusova认为“数据科学家”和“数据工程师”这两种职位角色在行业中还是相当新的,也正因此,通常没有明确的职责划分。“我们看到在某些公司中由数据科学家承担的职责,在其他公司中这些职责却由数据工程师承担。另一个越来越常见的新角色是机器学习工程师,但也是同样的情况,他们也经常与数据工程师发生重叠。”Maria Khalusova在接受IT168采访时指出。

数据科学家VS数据工程师

新的技术融入产业和社会必然会带来一场职业的辞旧迎新,这个过程并没有那么快速。

“从技术角度来看,数据科学在某些情况下的实践似乎还不如传统软件开发成熟。企业可能会面临以下挑战:建立可重现的机器学习管道,对数据和模型进行版本控制以进行审核,与快速发展的技术保持同步。”Maria Khalusova指出。

数据科学家和数据工程师的角色两者有许多共同的特点和共技能。这些重叠的技能包括处理和操作大数据集、应用数据的编程技能、数据分析技能以及对系统操作的总体熟练程度。不过两者还是有很大的不同。在笔者之前翻译的文章中也强调了数据科学家和数据工程师不可能合二为一,为了从数据中获得价值,大多数企业组织都需要数据科学和数据工程,由于相关技能有很大差异,二者合体也不太现实。企业组织可能需要多个数据科学家和数据工程师,但两者之间的比例很少是1:1。对于大多数企业组织来说,拥有更多的数据工程师比数据科学家更有意义。因为数据科学家已经学会处理大量的干净数据,但是从许多不同系统获得大量的干净数据更难也更具挑战。与抽象数据模型和对数据集运行分析相比,移动和清理数据的工作量更大。

从技能需求方面也有很大的差异,Maria Khalusova认为,广义上来讲,数据工程师通常必须熟悉那些为分布式数据处理而设计的工具,例如Apache Spark、Apache Hadoop、Apache Ignite等。他们要具备数据仓库和数据湖方面的经验,因为他们需要能够熟练地使用Java、Scala和Kotlin等JVM语言,并且必须能够创建和维护大多数数据基础架构。

数据科学家则需要了解Python语言、R语言或两者兼具,并且能够获取数据(例如使用SQL或Spark)、整理数据、分析数据、训练预测模型并将数据驱动的洞察提供给利益相关者。他们需要在统计方法和机器学习方法(包括深度学习)方面有扎实的基础。在某些公司中,数据科学家也会参与机器学习模型的部署。

尽管现在很多企业对于数据科学家和数据工程师职位的划分还不是那么明确,但是未来更加精细化的分工是大势所趋。当然这并不会一蹴而就,新职位不是凭空而来,需要一个渐进的过程和角色转化,国内某头部互联网公司两年前正式组建了数据科学团队,而团队成员以前散落在集团各业务部门,其中有数据分析师也有大数据专家,而数据科学团队成立以来,让数据驱动业务运营,更加高效。

国内另一家头部直播平台正在招聘数据科学家职位,从招聘信息描述来看,数据科学家属于其数据分析部,其工作职责包括分析和挖掘海量数据,发现用户行为模式与规律,优化用户体验,提升社区粘性,通过数据分析和经济运筹模型优化,为公司不同的运营团队制定目标和策略,关注落地结果等。而职业技能要求需要熟练使用SQL、Python或R语言进行数据分析、可视化呈现,具有统计学和概率论基础,擅长数据分析,了解常见规统计机器学习模型及使用等,其需求与Maria Khalusova所说基本一致。

有分析称近来对AI、机器学习(ML)、非ML预测分析和“大数据”的应用,使得数据科学家的需求有了显著的增长。不过从这一点来看数据科学是不是21世纪最性感的职业还为时尚早,公民数据科学家的到来让不少人为此打上了大大的问号。

全民数据科学家时代到来?

早在2013年就有专家指出对数据科学家的“炒作”该结束了,他们认为大数据走入了一个新的阶段。企业用户利用直觉和互动的UI来从大数据中获取价值,从而避免依赖于数据科学家,应该让大数据变得更加民主。

市场竞争加剧,外部环境和技术飞速变化,需要业务和技术更高效联动更及时有效了解用户需求,明确企业自身现状,为企业决策提供帮助。随着大数据技术不断走向成熟,技术应用的门槛也不断降低,复杂的数据统计可能仍限于数据科学家,一些可视化分析工具和敏捷的大数据工具可以让业务人员能够轻松上手,大数据民主化也催生出了公民数据科学家这个概念。

根据Gartner 的定义,公民数据科学家(Citizen Data Scientist )“能够创建或生成采用高级诊断分析或预测和规范功能的模型,但本职工作并不属于统计和分析领域”,近两年关于公民数据科学家概念也异常火爆。

有人指出公民数据科学家发展预示着全民数据科学家时代的到来,数据科学家可能会退出舞台,也有人认为数字化智能时代,数据的增长和数据价值的重要性日益凸显,企业对数据科学家和数据分析人员需求不断扩大,而人才缺口较大,公民数据科学家是暂时填补供需之间不平衡的一个方案,数据科学家仍然是最亮的星。

可以看到近两年技术民主化成了热点,不只是公民数据科学家,还有公民开发者,在Gartner的定义中公民开发者是指在传统IT渠道之外的创建应用程序的业务用户,低代码/零代码的发展促使了全民开发者时代的到来。公民开发者无法替代开发者,同样的公民数据科学家也无法替代数据科学家。术业有专攻,数据科学家会向着更高阶和更专业的数据分析方向发展,正如Gartner所说,公民数据科学家可以弥合企业用户采用的主流自助型分析和数据科学家掌握的高级分析技术之间的鸿沟。

目前,越来越多的企业构建数据文化,将自身打造成数据驱动的组织。“由于技术公司蕴含的技术文化,也使他们(互联网企业)自然地在数据工程和数据科学方面更加领先。今天,我们看到越来越多的公司开始接受技术文化,因为这已成为竞争优势所在。与此同时,同样的事情也发生在传统产业。今天,各行各业的许多公司都开始尝试将其业务转到互联网上。可以这样说,未来所有公司迟早都会成为互联网公司,也都会更加注重技术文化。”Andrey Cheptsov指出,与此同时软件开发越来越多地涉及到数据,这意味着软件不再仅仅是一组算法,而是一组经过数据训练的模型。收集和处理这些数据,并进行建模和部署机器学习(ML)模型,已成为软件开发的一部分。

技术不断迭代进化,新的职位也会出现,员工与企业组织都面临着新的挑战与机遇。很多人都愿意相信数据科学家未来可期,只是不要把职业角色和应该掌握的技能标签化,毕竟需求是动态变化的,是需要个体与时代彼此适应的。