清华大学金融科技研究院孵化
金融科技与金融创新全媒体

扫描分享

本文共字,预计阅读时间

越来越多的企业关注AI,企业组织也意识到拥有相关人才和技能的重要性。特别是最近AI、机器学习(ML)和非ML预测分析的发展,以及“大数据”的应用,让社会对数据科学家的需求有了显著增长,未来这还将继续。事实上,对数据科学家的巨大需求导致许多企业和组织出现了人才短缺,然而,80%的AI项目与数据准备和数据工程有关,也许企业组织应该寻找更多的数据工程师而不是数据科学家?

数据,无处不在,我们只会得到更多的数据。在过去的5-10年里,数据科学吸引了无数新人。

但如今数据科学的招聘状况是怎样的呢?

数据比语言更有说服力。所以我决定对2012年以来从Y-Combinator孵化出来的每家公司所招聘的数据岗位做了一个分析,涉及的问题包括:

  • 公司最常招聘的数据职位是什么?
  • 我们常说的传统数据科学家的需求量有多大?
  • 掀起数据革命的那些技能在今天还适用吗?

方法论

我选择对那些宣称将某种数据工作作为其部分价值主张的YC公司进行分析。

为什么要关注YC?首先,他们提供了一个易于搜索的公司目录。

YC作为一个特别有远见的孵化器,十多年来资助了来自世界各地不同领域的公司,我觉得他们为我的分析提供了一个有代表性的市场样本。不过,您也可以对我的分析持保留意见,因为超大型科技公司并不在本次分析之列。

我搜罗了2012年以来每家YC公司的主页URL,建立了一个包含1400家企业的初始池。

为什么选2012年?2012年是AlexNet赢得ImageNet比赛的一年,就此掀起了我们现在所经历的机器学习和数据建模浪潮,孕育了一些最早的数据优先公司。

从这个初始池中,我进行了关键字过滤,以减少必须查看的相关公司的数量。特别是我只考虑那些网站至少包含以下术语(AI、CV、NLP、自然语言处理、计算机视觉、人工智能、机器、ML、数据)之一的公司。我也不考虑那些网站链接失效的公司。

这是否产生偏差?当然有,但我试图尽可能地优先考虑高查全率,对各个网站的相关角色进行更精细的人工检查。

有了这个筛选后的库,我查看了每一个网站,找到他们发布招聘广告的地方(通常是职业、工作或正在招聘的页面),我注意到每一个标题中包含数据、机器学习、NLP或简历的角色。这给我提供了一个大约70个不同的公司招聘数据角色的池子。

这里需要注意的是:我漏掉了一些公司的招聘信息,因为有些网站的信息非常少(通常是那些不声张网站)。此外,还有一些公司没有正式的招聘页面,但要求潜在的候选人直接通过电子邮件联系。我没有联系他们,而是忽略了这两类公司,所以他们不在本次分析之列。

另一点在于,这项研究的大部分是在2020年的最后几周完成的。随着公司定期更新页面,开放职位可能会发生变化。但我认为这不会很大地影响所得出的结论。

数据从业人员负责什么?

在深入研究结果之前,值得花一些时间明确每个数据职位通常担负什么职责。以下是我们将花时间研究的四个职位:

  • 数据科学家:使用统计和机器学习中的各种技术来处理和分析数据。通常负责建立模型,以探究可以从某些数据源中学习到什么,尽管通常是在原型而不是生产层面。
  • 数据工程师:开发一套稳健和可扩展的数据处理工具/平台。必须熟悉SQL/NoSQL数据库的处理和构建/维护ETL流程。
  • 机器学习(ML)工程师:通常负责训练模型和生产模型。需要熟悉一些高级的ML框架,还必须熟悉为模型构建可扩展的训练、推理和部署流程。
  • 机器学习(ML)科学家:从事前沿研究。通常负责探索可以在学术会议上发表的新想法。在交给ML工程师进行生产化之前,往往只需要对新的最先进的模型进行原型设计。

数据职位有多少?

那么,当我们绘制企业招聘的每个数据职位的频率时,趋势是什么?这个图看起来是这样的:

很明显可以看出,与传统的数据科学家相比,开放数据工程师的职位多了很多。在这种情况下,原始统计对应的是,公司招聘数据工程师的数量大概比数据科学家多55%,机器学习工程师的数量和数据科学家的数量大致相同。

但我们可以做得更多。如果你看看各种职位的名称,似乎有一些重复。

我们只能通过职位整合来提供粗粒度的分类。换句话说,我把描述大致相当的职位,整合到一个名称下。

其中包括以下一组等价关系:

  • NLP工程师 ≈ CV工程师 ≈ ML工程师 ≈ 深度学习工程师(虽然领域可能不同,但责任大致相同)
  • ML科学家 ≈ 深度学习研究员/approx ≈ ML实习生(描述看起来非常注重研究的实习生)。
  • 数据工程师 ≈ 数据架构师 ≈ 数据主管 ≈ 数据平台工程师

如果我们不喜欢处理原始计数,这里有一些百分比可以让我们参考:

我也许可以把ML研究工程师归入ML科学家或ML工程师的某一栏,但考虑到这是一个略综合性的角色,我还是把它保留了下来。

总的来说,合并后,差异更加明显了。数据工程师比数据科学家的职位多了约70%。此外,ML工程师比数据科学家职位多了约40%。ML科学家与数据科学家职位的数量也只有约30%。

总结

与其他数据驱动的职业相比,数据工程师的需求越来越大。从某种意义上说,这代表了更广泛领域的发展。

5-8年前,当机器学习变得炙手可热的时候,公司决定需要能在数据上做分类器的人。但后来Tensorflow和PyTorch等框架变得非常好用,使深度学习和机器学习的入门能力民主化。这使得数据建模技能商品化。

如今,帮助企业将机器学习和建模的洞察力转化为生产力的瓶颈在于数据问题。你怎么注释数据?你如何处理和清理数据?你如何将它从A转移到B?如何尽快地完成每天的工作?所有这些都要求拥有良好的工程技能。

这听起来可能很无聊,但老派的软件工程处理数据可能是我们现在真正需要的。多年来,由于酷炫的演示和媒体的炒作,我们已经迷恋上了数据专家的想法,他们为原始数据注入了生命。但是,你上一次看到科技媒体上关于ETL流程的文章是什么时候?

如果没有别的原因,我相信在数据科学工作培训或教育计划中,对扎实的工程强调得还不够。除了学习如何使用 linear_regression.fit(),也要学习如何编写单元测试。

那么,这是否意味着你不应该学习数据科学?不,这意味着竞争会更加激烈。对于市场上大量受过数据科学培训的新人来说,可选择的职位会越来越少。总是需要能够有效分析并从数据中提取可操作的见解的人,但他们必须是优秀的。从 Tensorflow 网站上下载一个 Iris 数据集的预训练模型,可能已经不足以获得这份数据科学工作了。

但很明显,随着ML工程师的大量空缺,企业往往需要一个混合型的数据从业者:一个可以构建和部署模型的人。或者说得更简洁一些,一个既能使用Tensorflow,又能从源头构建的人。

这里的另一个洞见是,ML研究岗位就是不多。

机器学习研究往往被炒作得很厉害,因为所有尖端的东西都是在那里发生的,比如AlphaGo和GPT-3什么的。

但对于许多公司来说,尤其是处于早期阶段的公司,可能不再那么需要尖端的先进技术。获得一个90%的模式,但能扩展到1000多个用户,对他们来说往往更有价值。

这并不是说机器学习研究没有重要的地位,绝对不是。

在那些有能力长期承担资本密集型赌注的行业研究实验室中,你可能会找到更多这样的角色。但在早期阶段的创业公司,不是试图向投资者证明产品与市场的契合度的时候。

如果没有其他原因,我认为让数据领域新人的期望值合理化、标准化是很重要的。我们必须承认,现在的数据科学已经不同了。我希望这篇文章能够对今天这个领域的状况有所启发。只有当我们知道自己在哪里,我们才知道需要去哪里。

[Source]

本文系未央网专栏作者发表,属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!首图来自图虫创意。

本文为作者授权未央网发表,属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!首图来自图虫创意。

本文版权归原作者所有,如有侵权,请联系删除。首图来自图虫创意。

评论


猜你喜欢

扫描二维码或搜索微信号“iweiyangx”
关注未央网官方微信公众号,获取互联网金融领域前沿资讯。