Web页挖掘。随着Internet的迅速发展及Web的全球普及,使得Web上的信息量无比丰富,通过对Web的挖掘,可以利用Web的海量数据进行分析,收集政治、经济、政策、科技、金融、各种市场、竞争对手、供求信息、客户等有关的信息,集中精力分析和处理那些对企业有重大或潜在重大影响的外部环境信息和内部经营信息,并根据分析结果找出企业管理过程中出现的各种问题和可能引起危机的先兆,对这些信息进行分析和处理,以便识别、分析、评价和管理危机。
商业目标
业务理解:数据名称《汽车销售.csv》。该案例所用的数据是一份关于汽车的数据,该数据文件包含销售值、订价以及各种品牌和型号的车辆的物理规格。订价和物理规格可以从edmunds.com和制造商处获得。定价为美国本土售价。如下:
表1:数据视图
数据准备
第一步,我们使用统计节点审核数据的质量,从审核结果中我们发现存在缺失的数据,如下图所示:
第二步,对缺失的数据进行处理,我们选择使用缺失填充节点删除这些记录。配置如下:
建模
再使用饼图查看每个类的大小,结果如下:
cluster_0、cluster_1、cluster_2的样本数分别为:50、9、93。
执行后输出树状/冰柱图,可以从上往下看,一开始是一大类,往下走就分成了两类,越往下分的类越多,最后细分到每一个记录是一类,如下所示:
THE END