1、高级大数据人才培养丛书之一,大数据挖掘技术与应用何光威主编郑志蕴梁英杰朱琼琼副主编BIGDATA刘鹏张燕总主编大数据可视化第四章数据可视化的常用方法of4624.14.2统计图表可视化方法4.3图可视化方法4.4可视化分析方法的常用算法视觉编码4.5可视化方法的选择习题4.1视觉编码第四章数据可视化的常用方法选择可视化方法之前,需要掌握视觉感知(VisualPerception)和视觉认知(VisualCognition)的概念。视觉感知是指客观事物通过人的视觉器官在人脑中形成的直接反映,人类只有通过“视觉感知”,才能达到“视觉认知”。通常而言,人类的视觉感知
2、器官最灵敏,感知外在事物的效率和效果都优于其他感知器官。of4634.1.1视觉感知4.1视觉编码of4644.1.2视觉通道视觉通道:用于控制几何标记的展示特性,包括标记的位置、大小、形状、方向、色调、饱和度、亮度等。视觉通道分为两大类:定性(分类)的视觉通道,如形状、颜色的色调、空间位置;定量(连续、有序)的视觉通道,如直线的长度、区域的面积、空间的体积、斜度、角度、颜色的饱和度和亮度等。第四章数据可视化的常用方法of4654.1.3数据分类对于信息可视化中数据类型的划分,从数据可视化类型出发研究可视化过程,可以参考基于任务分类学的数据类型(TTT,dataTypebyTa
3、skTaxonomy)。TTT定义了7种基本任务:总览、缩放、过滤、按需细化、关联、历史和提取;并将数据分为7类:一维线性数据、二维数据、三维数据、多维数据、时态数据、树型数据和网状数据。4.1视觉编码第四章数据可视化的常用方法of4664.1.4常用的复杂数据处理方法通过实验测量、计算机仿真、网络数据传输和文件输入/输出等方法获取数据之后,通常要对复杂数据进行预处理,常见数据操作包括:合并、采样、降维、特征子集选择、特征生成、离散化与二值化、属性变换。4.1视觉编码第四章数据可视化的常用方法第四章数据可视化的常用方法of4674.14.2统计图表可视化方法4.3图可视化
5、常用方法4.2.1柱状图2、三维柱状图三维柱状图的可视化效果更佳直观,而且能够在第三个坐标轴显示三维数据。三维柱状图采用柱体来量化数据,同时对柱体可以采用不用的颜色编码,来表述不同的变量。4.2统计图表可视化方法of4610第四章数据可视化的常用方法4.2.2条形图排列在工作表的列或行中的数据可以绘制到条形图中。条形图显示各个项目之间的比较情况。4.2.3折线图折线图适用于二维大数据集,尤其是那些趋势比单个数据点更重要的场合。4.2.4饼图饼图适用于一维数据可视,尤其是能反映数据序列中各项大小、总和和相互之间比例大小。4.2.5散点图散点图适用于三维数据集,但其中只有两维需要比较
6、。4.2.6气泡图气泡图是散点图的一种变形,通过每个点的面积大小,反应第三维。4.2.7雷达图雷达图适用于多维数据(四维以上),且每个维度必须可以排序。4.2统计图表可视化方法of4611第四章数据可视化的常用方法第四章数据可视化的常用方法of46124.14.2统计图表可视化方法4.3图可视化方法4.4可视化分析方法的常用算法视觉编码4.5可视化方法的选择习题4.3图可视化方法of4613第四章数据可视化的常用方法4.3.1图的类型1、关系图可视化最重要的作用之一,便是能够表达关系。这些关系组成了已经定义的世界或系统。图能够使得我们以一种非常容易理解的方式来描述和表达世
7、界。2、分层对于分层数据中获取信息,图也是一个很好的选择。分层图常被称树。树有一个根父节点,其链接分支到第二个节点,第二级节点还可能再次分支,以此类推,直到到达没有子节点的叶子节点,根节点的每个后代节点都只有一个父节点。4.3图可视化方法of4614第四章数据可视化的常用方法4.3.2图论可视化图论(GraphTheory)是数学的一个分支。它以图为研究对象。图论中的图是由若干给定的点及连接两点的线所构成的图形,这种图形通常用来描述某些事物之间的某种特定关系,用点代表事物,用连接两点的线表示相应两个事物间具有这种关系。4.3图可视化方法of4615第四章数据可视化的常用方法4.3.
8、3思维导图思维导图(MindMap),即借助图表来分析问题、理清思路。常见的思维图有八种:CircleMap圆圈图、TreeMap树状图、BubbleMap气泡图、DoubleBubbleMap双重气泡图、FlowMap流程图、Multi-flowMap多重流程图、BraceMap括号图,和BridgeMap桥型图。第四章数据可视化的常用方法of46164.14.2统计图表可视化方法4.3图可视化方法4.4可视化分析方法的常用算法视觉编码4.5可视化方法的选择习题4.4可视化分析方法的常用算法of4617第四章数据可视化的常用方法4.4.1可视化分析
9、方法1、沙盒分析法沙盒分析的关键能力主要有:认知、自动处理模型范本、想法的解读。运用网络服务界面和协议,整合了高级计算机语言功能。4.4可视化分析方法的常用算法of4618第四章数据可视化的常用方法4.4.1可视化分析方法2、认知作业分析法认知作业分析是人们对完成特定任务的思维过程信息,这些信息包括如何去处理所获取的信息和下一步该做什么。3、顺序模式法顺序模式被用来发现离散事件同时发生的概率。随着计算机的发展,我们能处理更庞大的数据并且获得大量的顺序模式。每个顺序模式包含一个最小概率,其意义为这个模式发生的百分比。其优点是快速地显示数据的结构与分布、显示单个事件的发生频率、准确性高;应用
13、,先将距离最小的变量归为一类,再将它们合并,合并后将新类计算相互间的距离,再将距离最小的新类合并,直到所有变量归为一类为止。距离的定义有:最短距离法、最长距离法、中心法、类平均法、中间距离法、离差平法和法等。(2)动态聚类法能较好地解决系统聚类当样本数量大时计算量大的问题。动态聚类先设定好数值K,然后将所有样本分成K类作为聚核,再计算每个样本到聚核的距离,与聚核距离最小的样本归为一类,这样样本被分为K类;然后依次继续进行分类,并按一定的标准停止分类。4.4可视化分析方法的常用算法of4625第四章数据可视化的常用方法4.4.6因子分析因子分析是从假定的因子模型出发,把复杂数据视为由公共因
15、可视化方法4.4可视化分析方法的常用算法视觉编码4.5可视化方法的选择习题4.5可视化方法的选择of4627第四章数据可视化的常用方法为数据选择正确的图表和图的时候,除了要依据格式塔原则之外,还要参照可视化模型,遵循各种方法的优势,优秀的可视化作品总是精挑细选方法之后,选择多种方法联合呈现数据。因此,在研究的初期阶段,更重要的是要从不同的角度观察数据。4.5可视化方法的选择of4628第四章数据可视化的常用方法在可视化图表工具的表现形式方面,图表类型表现的更加多样化,丰富化。除了传统的饼图、柱状图、折线图等常见图形,还有气泡图、面积图、省份地图、词云、瀑布图、漏斗图等酷炫图表,甚至
16、还有GIS地图。这些种类繁多的图形能满足不同的展示和分析需求。下图总结了根据需求分析可采用的统计可视化方法。4.4可视化方法的选择of4629第四章数据可视化的常用方法4.5可视化方法的选择of4630第四章数据可视化的常用方法4.5.1实时人流检测如图展示上海市区域内,通过热力图的方式来反映各商圈的人流信息,人数越多的地方越好。为了获得更具体的人流数据,我们还加入信息点,通过地图覆盖物实现。当鼠标悬浮到信息点的时候,会显示该商圈具体人流情况,我们使用了哪些数据,就显示出来。4.5可视化方法的选择of4631第四章数据可视化的常用方法4.5.2百度地图开发百度地图是百度提供的一
17、项网络地图搜索服务,覆盖了国内近400个城市、数千个区县。在百度地图里,用户可以查询街道、商场、楼盘的地理位置,也可以找到离您最近的所有餐馆、学校、银行、公园等等。4.5可视化方法的选择of4632第四章数据可视化的常用方法4.5.3城市人流走势Echarts是一个纯JavaScript的图标库,可以流畅的运行在PC和移动设备上,兼容当前绝大部分浏览器(IE8/9/10/11,Chrome,Firefox,Safari等),底层依赖轻量级的Canvas类库ZRender,提供直观、生动、可交互,可高度个性化定制的数据可视化图表。4.5可视化方法的选择of4633第四章数据可视化的常用
18、方法4.5.4全球海底电缆可视化如图是一个基于地图的2014年全球海底电缆可视化展示,可以从这里查看到分布在世界各地的信息,数据是从维基百科和谷歌里获取,并采用D3.js库进行可视化展示。4.5可视化方法的选择of4634第四章数据可视化的常用方法4.5.5D3.js和Echarts选择上的建议在图表制作的JavaScript库中,有前面提到的Echarts,d3.js,这里在介绍一个highcharts.js,Highcharts和echarts是一类东西,但跟d3.js维度不同。假如前面两个能解决你的需求,那么就可以先不考虑d3。英语好选highcharts,英语不好选echart