数据挖掘工具有:1.Smartbi(思迈特软);2.Hadoop;3.Storm;4.RapidMiner;5.IBMSPSSModeler;6.OracleDataMining;7.Teradata;8.Rattle;9.KNIME;10.Python;11.Orange;12.SASDataMining。
Smartbi(思迈特软)通过深度数据建模,为企业提供预测能力,支持多种高效实用的机器学习算法,包含了分类、回归、聚类、预测、关联,5大类机器学习的成熟算法。其中包含了多种可训练的模型:逻辑回归、决策树、随机森林、朴素贝叶斯、支持向量机、线性回归、K均值、DBSCAN、高斯混合模型。除提供主要算法和建模功能外,SmartbiMining数据挖掘平台还提供了必不可少的数据预处理功能,包括字段拆分、行过滤与映射、列选择、随机采样、过滤空值、合并列、合并行、JOIN、行选择、去除重复值、排序、增加序列号、增加计算字段等。内置5大类机器学习成熟算法,支持文本分析处理,支持使用Python扩展挖掘算法,支持使用SQL扩展数据处理能力。
Hadoop是一个可以分布式处理大量数据的软件框架,以可靠、高效、可伸缩的方式处理。Hadoop并行工作,通过并行处理加快处理速度;Hadoop可以处理PB级数据,用户可以在Hadoop上轻松开发和运行处理海量数据的应用。Hadoop按位存储和处理数据的能力值得信赖;Hadoop可以在节点之间动态移动数据,保证每个节点的动态平衡,因此处理速度非常快;Hadoop可以自动保存多个数据副本,并自动重新分配失败的任务。
从日益增多的数据中挖掘有价值的数据,帮助企业找到发展方向,通过有价值的数据支持帮助企业名列前茅做出决策,而数据挖掘是通过算法从大量数据中搜索隐藏在数据中的有价值数据的过程。
RapidMiner,原名YALE又一个学习环境,是一个用于机器学习和数据挖掘实验的环境,用于研究和实际的数据挖掘任务。毫无疑问,这是世界名列前茅的数据挖掘开源系统。该工具以Java编程语言编写,通过基于模板的框架提供高级分析。
它使得实验可以由大量的可任意嵌套的操作符组成,这些操作符在XML文件中是详细的,并且是由快速的Miner的图形用户界面完成的。较好的是用户不需要编写代码。它已经有许多模板和其他工具,让我们可以轻松地分析数据。
IBMSPSSModeler工具工作台非常适合处理文本分析等大型项目,其可视化界面非常有价值。它允许您在不编程的情况下生成各种数据挖掘算法。它也可以用于异常检测、贝叶斯网络、CARMA、Cox回归以及使用多层感知器进行反向传播学习的基本神经网络。
作为“高级分析数据库”选项的一部分,Oracle数据挖掘功能允许其用户发现洞察力,进行预测并利用其Oracle数据。您可以构建模型来发现客户行为目标客户和开发概要文件。
OracleDataMinerGUI使数据分析师、业务分析师和数据科学家能够使用相当优雅的拖放解决方案处理数据库内的数据。它还可以为整个企业的自动化、调度和部署创建SQL和PL/SQL脚本。
Teradata分析平台提供了优异功能和名列前茅引擎,让用户能够针对不同类型的数据,可以大规模利用他们选择的工具和语言。这是通过以下几步来实现的:让分析工具贴近数据,无需移动数据,并允许用户以更高的速度和准确度对更庞大的数据集运行分析。
Rattle是一个用于数据挖掘的R的图形交互界面(GUI),可用于快捷的处理常见的数据挖掘问题。
Rattle可以提供数据的统计和可视化汇总,将数据转换为可以轻松建模的表单,从数据中构建无监督模型和监督模型,以图形方式呈现模型的性能,并对新数据集进行评分。它是一个使用Gnome图形界面在统计语言R编写的免费的开源数据挖掘工具包,运行在GNU/Linux,MacintoshOSX和MS/Windows下。
Rattle易学易用,不要求很多的R语言基础,被广泛的应用于数据挖掘实践和教学之中,在澳大利亚,有至少15个政府部门采用Rattle作为标准的数据挖掘工具
Konstanz信息采集器是一个用户友好、可理解、全面的开源数据集成、处理、分析和探索平台,可以迅速在其中部署、扩展和熟悉数据。它有一个图形用户界面,帮助用户方便地连接节点进行数据处理。KNIME还通过模块化的数据流水线概念集成了机器学习和数据挖掘的各种组件,并引起了商业智能和财务数据分析的注意。
作为一种免费且开放源代码的语言,Python通常与R进行比较,以方便使用。与R不同的是,Python的学习曲线往往很短,因此成了传奇。许多用户发现,他们可以开始构建数据集,并在几分钟内完成极其复杂的亲和力分析。只要您熟悉变量、数据类型、函数、条件和循环等基本编程概念,最常见的业务用例数据可视化就很简单。
Orange是一个开源数据可视化、机器学习和数据挖掘工具包。它有一个可视化编程前端,可用于探索性数据分析和交互式数据可视化。Orange是一个基于组件的可视化编程软件包,用于数据可视化、机器学习、数据挖掘和数据分析。Orange组件称为窗口组件,范围广泛:从简单的数据可视化、子集选择和预处理,到学习算法和预测建模的评估,不一而足。Orange的可视化编程通过界面来进行,其中工作流程通过连接预定义或用户设计的窗口组件来创建,而高级用户可以将Orange用作Python库,以便操纵数据和更改窗口组件。
使用SASDataMining商业软件发现数据集模式。其描述性和预测性建模提供了更好的理解数据的见解。他们提供了一个易于使用的GUI。他们拥有自动化的数据处理工具,集群到最终可以找到正确决策的优异结果。作为一个商业软件,它还包括可升级处理、自动化、强化算法、建模、数据可视化和勘探等先进工具。
延伸阅读
数据挖掘(DataMining,DM)又称数据库中的知识发现,是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的,先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能,机器学习,模式识别,统计学,数据库,可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。
数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示3个步骤。
2.规律寻找:是用某种方法将数据集所含的规律找出来;
3.规律表示:是尽可能以用户可理解的方式(如可视化)将找出的规律表示出来。
数据挖掘能够解决的一些常见问题如下:
1.分类问题
2.聚类问题
聚类与分类不同,聚类的类别预先是不清楚的。聚类就是要去发现这些类别,适合一些不确定的类别场景。
3.回归问题
简单来说,回归问题可以看作解线性方程,最大的特点就是生成的结果是连续的,而分类和聚类的结果是分散的。通过使用回归的方法构建一个模型拟合已知的数据,然后测量因变量的结果。