这是一本由LanWitten和EibeFrank编写的教材。
在这本书的序言中,作者是这样作序的:
在这本书的第一章中,作者是这样写的:
这是由韩家炜(美国伊利诺伊大学香槟分校计算机系正教授)和MuchelineKamber编写的教材。
这本教材的序言是这样的:
这里和知识发现的定义有一点点不错,在我看来主要是涉及这一领域的一些准则。我相信一个更能被人接受的KDD定义是被称作数据集中的知识发现。
在教材的第一章中,作者概括了知识发现的过程(在书本的7到8页):
l数据整合:把多个数据源的数据进行组合。
l知识展示:通过可视化操作和知识展现的方法给用户展示通过挖掘得出的信息。
还有:
作者在一张含有一个函数实体的箱子,以及这个过程里箱子被转化为箱子的图片提供了一个很好的归纳。下面是这样归纳的:我一般对于使用图片来解释说明都抱有谨慎的态度,不好意思,如果这个时候正式出版就比较困难了。
第一步:选择(从数据中找到目标数据)。
第二步:预处理过程(对目标数据进行处理)。
第三步:转换(把预处理过的数据进行转化处理)。
第五步:从知识的角度分析和评估这个模型。
这个过程很简单,而且我喜欢把这个模型用到我遇到的问题中。
从大量数据中提取有用的知识的过程
明白其中的应用领域和这个过程的目标。
对所以可行的数据建立一个数据集子集。
挖掘模型的解释是为了能让用户更好的明白其中的结果,诸如采用归纳和可视化操作的方法。
在已发现的知识上进行操作,诸如报告和决策。
我喜欢在这个过程中看到信息。这应了我的需要去明白使用这个过程的目的,以及可以持续的运行一个算法从而选出可以与这个目的匹配的模型。
THE END