从优秀到顶尖，你的数据科学家之路还差这13个技能|Pig处理非结构化数据_在线学习

领英上有这样一个提问：优秀数据科学家和顶尖数据科学家之间的区别是什么

在领英上的提问

这一提问收到了许多来自各行各业顶尖数据科学家们的回答，所有的回答也几乎囊括了成为顶尖数据科学家所要具备的技能。

事实上，优秀数据科学家和顶尖数据科学家之间是存在差别的。一个数据科学家不可能具备本文提到的所有技能。但正是这些技能，让顶尖数据科学家从众多优秀的数据科学家中脱颖而出。

1.教育

数据科学家们的受教育水平偏高，88%的数据科学家都拥有硕士学位，46%拥有博士学位。当然，肯定有些例外。要成为一名数据科学家，需要很高的受教育水平以拓展必要的知识深度。要成为一名数据科学家，可以考取计算机科学、社会科学、物理科学和统计学的学士学位。最常见的研究领域是数学和统计学（32%），其次是计算机科学（19%）和工程学（16%）。这些学位能让你掌握处理和分析大数据所需的技能。

除了课堂学习，还可以通过创建一个应用程序、写博客或探索数据分析来实践课堂所学，从而掌握更多知识。

只要有能力完成工作，硕士或博士学位只是可选选项。在大多数行业工作范围内，只要能够解决业务问题，就不需要研究并采用新奇前沿的机器学习模型。

免费电子书资源：成为专业数据科学家的74个秘诀

2.R语言编程

对至少一种分析工具有深入的了解，就数据科学而言，R语言编程通常是首选。R语言专为数据科学的需要而设计，可用来解决数据科学领域中遇到的任何问题。事实上，43%的数据科学家都用R来解决统计问题。然而R编程的学习曲线较为陡峭。

如果你已经掌握了一门编程语言，那么R语言就会变得很难学。尽管如此，网上仍有很多资源可以让你入门R语言，如Simplilearn的R编程语言数据科学培训，对有抱负的数据科学家来说，这是一个很好的资源。

3.Python编程

Python是数据科学界最常见编程语言，当然还有Java、Perl、或C/C++。对于数据科学家来说，Python是最棒的数据编程语言。这就是为什么40%的O’Reilly受访者都将Python作为主要编程语言。

由于其通用性，Python可用于数据科学进程的所有步骤中；也可以采用各种格式的数据，轻轻松松就能将SQL表导入代码中；还可以创建数据集，在谷歌上搜索到所需的任何类型数据。

阅读以下书籍了解更多Python的基础知识以及它在数据科学中的应用：

·Python数据科学手册

·用于数据分析的Python

·学习Python

4.Hadhoop平台

尽管这不是必须的平台，但很多情况下，这是首选平台。有Hive或Pig的经验是一个很好的卖点。熟悉AmazonS3等云工具也有好处。由CrowdFlower进行的一项面向3490个领英数据科学职位的研究显示，有49%的人将ApacheHadhoop列为数据科学家要掌握的第二个重要的技能。

数据科学家可能会遇到这样一种情况：拥有的数据量超过了系统的内存，或需要将数据发送到不同的服务器。这就是Hadhoop的作用所在，Hadoop可以将数据快速传输到系统上的各个点，这还只是冰山一角，Hadoop还可以进行数据探索、数据过滤、数据采样和汇总。

5.SQL数据库/编程

尽管NoSQL和Hadoop是数据科学的重要组成部分。但仍期望候选者能够用SQL编写或执行复杂的查询。SQL（结构化查询语言）是一种编程语言，可以帮助执行添加、删除以及从数据库中提取数据等操作，还可以协助执行分析功能和转换数据库结构。

6.ApacheSpark

ApacheSpark正在成为全球最流行的大数据技术，正如Hadoop的大数据计算框架，唯一的差别就是Spark比Hadoop更快，因为Hadoop需要读取和写入磁盘，速度会变慢，Spark则将计算结果缓存在内存中。

ApacheSpark能防止数据科学中的数据丢失，速度和平台是它的优势，能够轻松实施数据科学项目。有了ApacheSpark就可以执行从数据接收到分布式计算的分析。

7.机器学习和人工智能

大部分数据科学家都不精通机器学习领域和技术，包括神经网络、强化学习和对抗性学习等。想要脱颖而出，就需要了解如监督机器学习、决策树和逻辑回顾等机器学习技术。这些技术可以帮助解决基于主要组织结果预测的不同数据科学问题。

数据科学需要处理海量数据集，你可能想要精通机器学习以处理这些数据集。

8.数据可视化

商界会不断产生大量数据，这些数据需要转化成易于理解的版本。和原始数据相比，人们更容易理解图表形式的图片，“一图胜千言”。

数据可视化给机构提供了直接处理数据的机会。他们能够迅速洞察数据以抓住商机，在竞争中遥遥领先。

9.非结构化数据

由于非结构化数据的复杂性，大多数人将其称为“黑暗分析”。非结构化数据有助于阐明对决策有用的见解。作为一名数据科学家，必须具备理解和操作不同平台的非结构数据的能力。

10.求知欲

我没有什么特殊的才能，只有强烈的好奇心。阿尔伯特·爱因斯坦

11.商业头脑

要成为一名数据科学家，需要对自己所在的行业有一个坚实的了解，以及了解公司有哪些待解决的问题。就数据科学而言，除了利用其数据确定业务的新方法外，能够辨别哪些问题能够解决业务也是至关重要的。

要做到这一点，必须要了解解决的问题会如何影响业务。了解企业的运作，才能朝着正确的方向努力。

12.沟通技巧

寻找卓越数据科学家的公司正在招聘这样的人，他能够清晰流畅的将技术发现传达给如市场或销售部门等的非技术团队。除了需要理解非技术部门同事的需求以便恰当的讨论数据外，数据科学家还必须确保企业所做的决定有高质量的见解支撑。

交流时，注意分析数据的结果和值。大多数雇主并不想知道你分析了什么，他们感兴趣的是这些数据会对业务产生什么积极影响。学会通过沟通传递价值和建立持久关系。

13.团队合作

数据科学家不能孤军奋战。必须和公司高管一起研究战略，与产品经理和设计师携手研发新产品，和营销人员一起开展更好的转换活动，与客户端和服务器软件开发人员并肩作战以创建数据管道和改进工作流。必须和公司里的每一个人一起工作，包括你的客户。

THE END

从优秀到顶尖，你的数据科学家之路还差这13个技能

数据分布检验利器：通过QQ图进行可视化分布诊断异常检测插值正态分布

图解大数据Hive与HBase详解@海量数据库查询

大数据分布式计算Hadoop

大数据处理论文

互联网数据挖掘与分析方法考核试卷.docx

从优秀到顶尖，你的数据科学家之路还差这13个技能

金融咨询网

大数据技术汇总十篇

常见非结构数据库包括什么?Worktile社区

大数据hadooppighiveMahouthbase菜菜920

大数据技术及应用

pig的原理及特点是什么

ApachePig概述ApachePig教程

干货：大数据分析平台架构(BigDataAnalyticsPlatform)

数据处理论文