实际的数据挖掘任务是对大量数据进行半自动或自动分析,以提取以前未知的、有趣的模式,例如数据记录(通过聚类分析)、数据的异常记录(通过异常检测)和数据之间的关系(通过关联规则挖掘、顺序模式挖掘)。这通常涉及数据库技术,如空间索引。这些潜在信息可通过对输入数据处理之后的总结来呈现,并且可以用于进一步的分析,比如,用于机器学习和预测分析。举个例子,进行数据挖掘操作时可能要把数据分成多组,然后这些组可以使用决策支持系统用来获得更准确的预测结果。不过数据收集、数据预处理以及结果解释和撰写报告都不算数据挖掘的步骤,而是作为附加步骤属于整个KDD进程。
类似术语“数据疏浚”、“数据捕捞”和“数据探测”指的是使用数据挖掘方法来采样,这些数据集(或可能太小)太小,以致无法对发现的任何模式的有效性作出可靠的统计推断。然而,这些方法可以用于创建新的假设来检验更大的数据总体。
数据库知识发现(KDD)过程通常分为以下几个阶段:
但是这个过程并不是一成不变的,例如数据挖掘的跨行业标准过程(CRISP-DM),它定义了六个阶段:
或者可以简化为更简单的过程,例如(1)数据预处理,(2)数据挖掘和(3)结果评估。
从数据中发现知识的最后一步是验证数据挖掘算法产生的模式是否适用在更广泛的数据集中。数据挖掘算法找到的模式并非都是有效的。数据挖掘算法通常会在训练集中找到通用数据集中不存在的模式,这叫做过度拟合。为了克服这一问题,评估数据挖掘算法时使用了一组未经数据挖掘算法训练的测试数据。将学习到的模式应用于该测试集,并将结果输出与期望输出进行比较。例如,一个试图区分“垃圾邮件”和“合法”电子邮件的数据挖掘算法将在一组训练样本电子邮件上进行训练。一旦经过训练,所学的模式将被应用于未经训练的电子邮件测试集。这些模式的准确性可以通过它们正确分类的电子邮件数量来衡量。许多统计方法可以用来评估算法,例如ROC曲线。
如果所学习的模式不符合期望的标准,则有必要重新评估和改变预处理以及数据挖掘步骤。如果所学的模式确实符合期望的标准,那么最后一步就是解释所学的模式并将其转化为知识。
关于数据挖掘的计算机科学会议包括:
数据挖掘主题也出现在许多数据管理/数据库会议上,如ICDE会议、SIGMOD会议和VLDB会议-国际超大型数据库会议。
已经有一些为数据挖掘过程定义标准的工作,例如1999年欧洲跨行业数据挖掘标准过程(CRIS-DM1.0)和2004年Java数据挖掘标准(JDM1.0)。在2006年,这些过程(CRISP-DM2.0andJDM2.0)开始了后续发展,但此后一直停滞不前。JDM2.0在未达成最终草案的情况下被撤回。
如今,只要有可用的数据,就可以使用数据挖掘。数据挖掘的显著例子可以在商业、医学、科学和监视技术中找到。
欧洲有相当严格的隐私法,并且正在努力进一步加强消费者的权利。然而,美国和欧盟的安全港原则目前将欧洲用户暴露在美国公司的隐私剥削之下。由于EdwardSnowden披露了全球监控信息,撤销该协议的讨论越来越多,尤其是数据将完全暴露给美国国家安全局,而达成协议的尝试已经失败。
美国的信息隐私立法,如HIPAA和《家庭教育权和隐私权法案》(FERPA),仅适用于每项此类法律所涉及的特定领域。美国大多数企业对数据挖掘的使用不受任何法律的控制。
以下应用程序在免费/开源许可证下可用。也可以公开访问应用程序源代码。
以下应用程序在专有许可证下可用。
一些研究人员和组织对数据挖掘工具进行了审查,并对数据挖掘者进行了调查。这些识别软件包的一些优点和缺点。它们还概述了数据挖掘者的行为、偏好和观点。其中一些报告包括: