细数数据科学团队中的十大关键角色

2020/09/28 09:07

细数数据科学团队中的十大关键角色

应用数据科学是一项高度跨学科的团队工作，需要用多样性的角度看问题。事实上，比起专业知识和经验，观点和态度的重要性也不容小觑。以下是我对数据科学团队构成的看法。

1. 数据工程师

首先在进行数据分析之前，我们需要获取数据。如果是处理小型数据集，数据工程则有点类似在电子表格中输入数字；如果是处理更复杂的数据时，那么数据工程本身就构成了一门复杂的学科。首先你的团队中需要数据工程师获取数据，从而其他人员能够在此基础上进行分析和处理。

2. 决策者

在聘请数据科学家之前，请确保团队中有充分了解数据驱动决策的角色。决策者需要分辨哪些决策需要数据支持，并根据对业务的潜在影响确定分析程度。同时决策者需要深思熟虑，在做决定前进行全方位的思考，考虑到问题的方方面面。

3. 数据分析师

每个人都能查看数据，并从中得出见解，唯一可能缺少的是相关软件的使用技能。

学习使用R和Python等工具是对数据可视化的升级，这些工具功能更丰富，从而能够查看更多种类数据集。

1934年，"尼斯湖水怪"图

要记住，你不应该得出数据之外的结论，这需要专业培训。就像根据上面的图片，你只能说“这就是我的数据集中的内容”，而不能轻率的得出结论，尼斯湖水怪是真实存在的。

4. 专家分析师

专家分析师需要更快地查看分析数据。这里注重的是分析数据、探索和发现等技能，而不是严谨地得出结论。专家分析师能够帮助团队注意更多的数据，从而决策者能够更清晰地做出判断。

但最好不要让能编写强大代码的工程师担任这个角色，因为在这方面速度就是一切，需要尽快得出更多分析结论。因此对代码要求过高的人很难胜任这个角色。

5. 统计学家

到这个阶段，团队中已经有人对数据进行大胆探索了，下面需要有人能在探索中加入理性分析，避免团队得出无根据的结论。

例如，如果你的机器学习系统能应用于某个数据集，那么你能得出结论，在该数据集中这个系统是奏效的。那么能顺利用于生产中吗？能够进行发行吗？这时就需要其他技能来处理这些问题，即统计技能。

如果我们想在可观事实不够的情况下做出决定，那么就需要放慢速度并采取谨慎的态度，这部分就需要统计学家。

6. 机器学习工程师

应用人工智能/机器学习工程师的价值不是在于理解算法的运行原理，而是能运用这些算法而不是构建它们(那是研究人员要做的)。他们需要整理代码，从而让其运行在现有的算法和数据集中。

除此之外，机器学习工程师要能够应对失败。大多数时候你不知道自己在做什么，你通过大量的算法运行数据，在得到预期结果前会经历多次的失败，因此需要能积极地应对失败。

完美主义者很难成为机器学习工程师，因为要处理的业务问题不像课堂中那样，你无法事先把握情况，而无法马上得出预期的结果。你所做的只能反复迭代，尝试各种解决方案。

数据是机器学习工程师工作的先决条件，因此在打造数据分析团队早期，聘请数据分析师是很有必要的。

机器学习工程师在分析过程中还需要进行评估，比如解决方案是否真的适用于新的数据。同时出色的机器学习工程师要明确采用不同方法分别需要多少时间。

7. 数据科学家

数据科学家在前三个角色都能达到专家级别，具有比较全面的能力。因此在数据科学团队中数据科学家的薪资比较高。对于企业而言，如果在预算内，雇佣数据科学家是不错的选择。但如果预算不够，那么可以培养现有团队中担任单一角色的人员。

8. 数据分析经理/数据科学负责人

数据分析经理兼备了数据科学家和决策者的作用，在团队中担任领导型作用，能够保持团队不会迷失方向。

数据分析经理对团队有很大的促进作用，但是这方面的人才很少。他们经常思考的问题有“如何设计正确的问题；如何做出决定；如何最好地分配人员；什么值得做；技能和数据是否符合要求；如何确保良好的输入数据”等。如果你有幸雇用到了数据分析经理，请留住他。

9. 定性专家/社会科学家

团队中的决策者会是杰出领导者、影响者或导航者......但在决策的艺术性和科学性方面并不够。这时可以让定性专家促进决策者的工作，并补充他们的技能。

定性专家通常具有社会科学和数据背景，能够帮助决策者理清想法，多角度进行分析，并将模棱两可的直觉转化为经过深思熟虑的指令，以便团队的其他成员轻松执行。比起数据科学家，他们通常更有能力将决策者意图转化为具体的指标。

10. 研究人员

许多招聘者认为，在打造数据科学团队一开始就应该聘用研究人员，但并非如此。在团队没有成型时，即使雇佣研究人员也可能并没有合适的环境来发挥其价值。最好等到团队发展到一定程度，有合适的设备资源时再加入研究人员打造新的工具。

其他角色

除了以上提到的角色，数据科学团队中还可以加入以下角色：

· 领域专家

· 伦理学家

· 软件工程师

· 可靠性测试工程师

· UX设计师

· 交互式可视化/图形设计师

· 数据收集专家

· 数据产品经理

· 项目经理

除了前面提到的十大角色，许多数据科学项目还需要以上人员的参与。他们都有自己主攻的专业领域，在团队中是很好的补充。

大团队还是小团队？

看到这里你可能会感到压力，但在具体构建数据科学团队时，可以根据企业的自身情况而定。

这里可以把应用机器学习类比为开餐厅，如果你想开一家制作创新披萨的大型披萨店，那么就需要大型团队。你要决定做什么菜（角色2），使用哪些食材（角色3和4），在哪里获得食材（角色1），如何定制菜单（角色6），以及如何对菜品进行测试（角色5）。但如果你的目标只是制作普通的披萨，则不需要这么复杂，采用已测试过的菜单，加上食材就可以开始了。