加入收藏 | 设为首页 | 会员中心 | 我要投稿 PHP编程网 - 湛江站长网 (https://www.0759zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

被挤爆的数据科学行业!五年前“最性感的职业”怎么了?

发布时间:2019-03-10 06:22:35 所属栏目:教程 来源:veekaybee 编译:刘佳玮、Stats熊、蔡婕、张弛、
导读:副标题#e# 大数据文摘出品 来源:veekaybee 编译:刘佳玮、Stats熊、蔡婕、张弛、Aileen 数据科学刚刚度过了它的黄金五年。 自2012年以来,这个行业发展迅速。它几乎完整经历了Gartner技术成熟度曲线的每个阶段。 度过了初期使用阶段、有关AI和偏见的负面新

正如许多博客文章指出的那样,你未必在第一次尝试时就能找到理想工作。 因此,就业市场相当艰难,对于大量入门者来说更加困难重重。

Hinton对于机器学习领域现状的想法:

数据科学存在有误导性的工作需求

第二个问题是,一旦这些初学者进入市场,他们会对数据科学的工作模式产生不切实际的期望。每个人都认为他们将进行机器学习、深度学习和贝叶斯模拟。

这并不是他们的错,这正是一些数据科学课程和技术媒体们一直以来强调的内容。自从很久之前我第一次过分乐观地浏览Hacker News 上逻辑回归的帖子以来,情况并没有发生多大变化。

现实情况是,“数据科学”从未像机器学习那样关注数据清洗,数据转换以及将数据从一个地方移动到另一个地方。

我最近进行的极其非科学的调查问卷证实了这一点:

作者2019年1月在推特上做的调查温暖:

许多行业专家发送的推文也是如此:

伴随着数据清洗,当炒作周期继续发挥着它的效应时,更加清晰的是,数据工具和将模型投入生产变得比在一台机器上从头开始构建ML算法更加重要,特别是随着云资源可用性的爆炸式增长。

显而易见的是,在炒作周期的后期阶段,数据科学将逐渐接近工程学,而数据科学家需要的技能不再主要基于可视化和统计学,而是更符合传统的计算机科学课程:像单元测试和持续集成这样的概念,很快就成了术语,并被用作数据科学家和从事ML工程的数值科学家常用的工具集。

这也导致了几件事的发生:首先是“机器学习工程师”这个头衔的崛起,在过去的3-4年里,它带来了更多的声望和更高的收入潜力。

其次,它导致了数据科学家职称的严重缩水。由于数据科学家职称的声望,像Lyft这样的公司会招聘这类职位,但要求拥有数据分析师的技能,这就造成了别扭的情况——数据科学的职位究竟需要做什么,又有多少职位提供给新入职的工作者。

我们作为资深从业者、记者、经理、行业会议发言人、撰写工作要求的人力资源经理,仍然不能很好地解决这个重要的难题。

给新数据科学家的建议

因此,本着继续为初学者提供建议的精神,我将给任何在2019年向我咨询如何进入数据科学领域的人发送这封邮件。

这是一个两步计划:

  • 不要一味追求数据科学的工作
  • 为成为数据科学家做好准备,而不是单单为了数据科学。调整你的技能组合。

这些听起来真是令人沮丧!但是,让我来详细说明这两个问题,希望它们看起来不那么黯淡。

1. 谨慎选择数据科学

鉴于每个初级岗位有50或100或200个人投简历,因此不要与那些人竞争。不必攻读数据科学学位,不必参加训练营(边注:我见过的大多数训练营都是效率低下的,他们在很短的时间内让求职者处理太多的信息,使得求职者无法有效地对数据科学有所了解,在这里我就不细说了)。

不要做别人正在做的事情,因为这样不能使你脱颖而出。你是在和一个堆积如山、过度饱和的行业竞争,这只会让事情变得更困难。在我之前提到的那份PWC报告中,数据科学职位的数量估计为5万。数据工程职位的数量为50万。而数据分析师的数量是12.5万。

通过“后门”进入数据科学和技术的职位要容易得多,比如从做初级开发人员开始,或者从DevOps、项目管理开始,以及从事最相关的数据分析师、信息管理员等类似职位,而不是直接申请其他人也同时竞争的5个岗位。这将花费更长的时间,但是在你从事数据科学工作的同时,也在学习对你的整个职业生涯至关重要的IT技能。

2. 了解当今数据科学所需的技能

下面是一些你在数据空间中实际需要处理的问题:

  • 创建Python包
  • 将R语句投入实际生产
  • 优化Spark工作,使其更有效地运行
  • 版本控制数据
  • 使模型和数据可复制
  • 版本控制SQL
  • 在数据湖中建立和维护干净的数据
  • 大规模时间序列预测工具
  • 扩展Jupyter笔记本的共享
  • 考虑清洗数据的系统
  • 大量的JSON

虽然在数据科学中有许多有趣的统计问题需要考虑,但这些博客链接都没有解决它们。尽管调整模型、可视化和分析占据了你作为数据科学家的部分时间,但数据科学一直主要的工作是如何得到可以直接使用的干净数据。

所有这些博客文章有什么共同之处?那就是良好的数据背景下的各个工程技能。

你该如何准备解决这些问题,并为工作做好准备?学习以下三种技能,它们都是基础技能,并且相互之间有关联,从入门到精通。

所有这些技能的真正关键之处在于,它们对于数据科学之外的软件开发也是基础和重要的,这意味着如果你找不到数据科学相关的工作,也可以快速地过渡到软件开发或devops。我认为这种灵活性与针对特定数据相关任务的培训同样重要。

(1) 学习SQL

首先,我建议无论目标是成为数据工程师、ML专家还是AI 专家,每个人都需要学习SQL。

SQL并不吸引人,它也不是我刚才列出的问题的解决方案。但实际上,为了理解如何访问数据,你极有可能在某个地方遇到需要编写一些SQL查询并获得答案的数据库。

(编辑:PHP编程网 - 湛江站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!