大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了。
大数据分析的理论核心就是数据挖掘算法,各种数据挖掘的算法基于不同的数据类型和格式才能更加科学的呈现出数据本身具备的特点,也正是因为这些被全世界统计学家所公认的各种统计方法(可以称之为真理)才能深入数据内部,挖掘出公认的价值。另外一个方面也是因为有这些数据挖掘的算法才能更快速的处理大数据,如果一个算法得花上好几年才能得出结论,那大数据的价值也就无从说起了。
大数据分析最终要的应用领域之一就是预测性分析,从大数据中挖掘出特点,通过科学的建立模型,之后便可以通过模型带入新的数据,从而预测未来的数据。
大数据分析离不开数据质量和数据管理,高质量的数据和有效的数据管理,无论是在学术研究还是在商业应用领域,都能够保证分析结果的真实和有价值。大数据分析的基础就是以上五个方面,当然更加深入大数据分析的话,还有很多很多更加有特点的、更加深入的、更加专业的大数据分析方法。
要明白分析什么数据,大数据要分析的数据类型主要有四大类:
分析师的专业知识和技能。有些工具的目标受众是新手用户,有的是专业数据分析师,有的则是针对这两种受众设计的。
这3个职业是如何定位的?
1,计算机科学
2,数学、统计、数据挖掘等
除了数学、统计方面的素养之外,还需要具备使用SPSS、SAS等主流统计分析软件的技能。其中,面向统计分析的开源编程语言及其运行环境“R”最近备受瞩目。R的强项不仅在于其包含了丰富的统计分析库,而且具备将结果进行可视化的高品质图表生成功能,并可以通过简单的命令来运行。此外,它还具备称为CRAN(TheComprehensiveRArchiveNetwork)的包扩展机制,通过导入扩展包就可以使用标准状态下所不支持的函数和数据集。
3,数据可视化(Visualization)
信息的质量很大程度上依赖于其表达方式。对数字罗列所组成的数据中所包含的意义进行分析,开发Web原型,使用外部API将图表、地图、Dashboard等其他服务统一起来,从而使分析结果可视化,这是对于数据科学家来说十分重要的技能之一。
对于大数据工程师的要求都是希望是统计学和数学背景的硕士或博士学历。缺乏理论背景的数据工作者,更容易进入一个技能上的危险区域(DangerZone)—一堆数字,按照不同的数据模型和算法总能捯饬出一些结果来,但如果你不知道那代表什么,就并不是真正有意义的结果,并且那样的结果还容易误导你。只有具备一定的理论知识,才能理解模型、复用模型甚至创新模型,来解决实际问题。
2,计算机编码能力
实际开发能力和大规模的数据处理能力是作为大数据工程师的一些必备要素。因为许多数据的价值来自于挖掘的过程,你必须亲自动手才能发现金子的价值。举例来说,现在人们在社交网络上所产生的许多记录都是非结构化的数据,如何从这些毫无头绪的文字、语音、图像甚至视频中攫取有意义的信息就需要大数据工程师亲自挖掘。即使在某些团队中,大数据工程师的职责以商业分析为主,但也要熟悉计算机处理大数据的方式。
3,对特定应用领域或行业的知识
大数据工程师这个角色很重要的一点是,不能脱离市场,因为大数据只有和特定领域的应用结合起来才能产生价值。所以,在某个或多个垂直行业的经历能为应聘者积累对行业的认知,对于之后成为大数据工程师有很大帮助,因此这也是应聘这个岗位时较有说服力的加分项。
1、懂业务。从事数据分析工作的前提就会需要懂业务,即熟悉行业知识、公司业务及流程,最好有自己独到的见解,若脱离行业认知和公司业务背景,分析的结果只会是脱了线的风筝,没有太大的使用价值。
2、懂管理。一方面是搭建数据分析框架的要求,比如确定分析思路就需要用到营销、管理等理论知识来指导,如果不熟悉管理理论,就很难搭建数据分析的框架,后续的数据分析也很难进行。另一方面的作用是针对数据分析结论提出有指导意义的分析建议。
5、懂设计。懂设计是指运用图表有效表达数据分析师的分析观点,使分析结果一目了然。图表的设计是门大学问,如图形的选择、版式的设计、颜色的搭配等等,都需要掌握一定的设计原则。
首先,各个公司对数据科学家的定义各不相同,当前还没有统一的定义。但在一般情况下,一个数据科学家结合了软件工程师与统计学家的技能,并且在他或者她希望工作的领域投入了大量行业知识。
大约90%的数据科学家至少有大学教育经历,甚至到博士以及获得博士学位,当然,他们获得的学位的领域非常广泛。一些招聘者甚至发现人文专业的人们有所需的创造力,他们能教别人一些关键技能。
因此,排除一个数据科学的学位计划(世界各地的著名大学雨后春笋般的出现着),你需要采取什么措施,成为一个数据科学家