预测分析是高级分析的一个分支,用于对未来未知事件进行预测。预测分析使用数据挖掘,统计,建模,机器学习和人工智能等多种技术来分析当前数据,以预测未来!那么下面将为大家简单介绍一下以下的20多款工具!
1.RSoftwareEnvironment
2.Dataiku
3.OrangeDatamining
OrangeDatamining是一个开源的数据可视化和分析工具。数据挖掘是通过可视化编程或通过Python脚本完成的。Orange会记住这些选择,提供最常用的组合,并智能地选择要使用的小部件之间的通信通道。可以利用情节,条形图,树状图,网络和热图来进行可视化。有机器学习的组件,可用于生物信息学和文本挖掘。该解决方案包含了用于数据分析的功能,并且在Orange中有超过100个小部件。
4.RapidMiner
RapidMiner可作为数据分析的独立应用程序使用,也可作为集成到专有产品中的数据挖掘引擎。RapidMiner提供数据挖掘和机器学习程序,包括数据加载和转换,数据预处理,可视化,建模,评估和部署。RapidMiner是用Java编程语言编写的。它采用的学习计划和归属来自于Weka的机器学习环境,统计建模方案来自RProject。可用于文本挖掘,多媒体挖掘,功能设计,数据流挖掘的集成方法的发展,以及分布式数据挖掘。
RapidMinerv6.0仍然是开源的。RapidMiner的最新版本现在仅作为试用版或商业许可证提供。
5.Anaconda
Anaconda是一个由Python支持的开放式数据科学平台。Anaconda的开源版本是Python和R的高性能版本,包括超过100种用于数据科学的最受欢迎的Python,R和Scala软件包。还可以访问超过720个软件包,可以使用包含在Anaconda中的conda,包,从属关系等。
6.KNIME
KNIME桌面版是开源的,是用户友好的数据访问,数据转换,初步调查,预测分析,可视化和报告的图形工作台。开放的集成平台提供了1000多个模块或节点。KNIME还提供了基于数据信息开发报告的能力,并将新见解的应用自动化回到生产系统。KNIME产品有KNIMEDesktop,KNIMEProfessional,KNIMETeamSpace,KNIMEServer和KNIMEClusterExecution。KNIMEDesktop可以自由下载到桌面。基于Eclipse平台的,并且有双重许可证。非开源产品中的功能包括共享存储库,身份验证,远程执行,调度,SOA集成和Web用户界面。
7.DMWay
这个创新的解决方案是通过使用专家系统方法而不是“机器人”方法来实现的,模仿有经验的数据科学家关于构建大规模预测模型的方式。DMWay评分引擎是为企业寻求协助部署由分析引擎提供的预测分析结果而推荐的工具。
8.HPHavenPredictiveAnalytics
HPDistributedR是R语言的开源,可扩展和高性能平台,可加速大规模机器学习,统计分析和图形处理。HavenPredictiveAnalytics为HPVertica提供数据加速和原生SQL支持。与市场领先的列式MPP数据库的本地集成将总体数据访问性能提高了5倍,并提供了一整套经过验证的开箱即用的并行算法,以成熟的标准R算法生成准确一致的结果。是预测分析免费,完全兼容开源R语言和工具,并得到惠普企业的支持,并按每个节点定价。HPHavenPredictiveAnalytics由HPVertica和DistributedR提供支持。DistributedR是基于与HPLabs开发的开放源代码R语言的高性能分析引擎,可满足要求最苛刻的大数据预测分析任务。分布式R提高了性能,并允许用户分析比以前流行的R统计编程语言更大的数据集。
9.GraphLabCreate
GraphLabCreate是一个为开发人员和数据科学家构建的机器学习平台,具有函数式编程技巧和对数据科学的一些基本理解。能够轻松地实现从想法到生产的原型和规模。示例服务包括推荐系统,欺诈检测或客户流失预测器。开发人员和数据科学家能够快速部署并轻松与其他应用程序集成。Discover版本提供免费的开发者许可证,并提供社区论坛支持。
10.Lavastorm分析引擎
11.ActianVectorExpress
12.Scikit-learn
scikit-learn是简单高效的数据挖掘和数据分析工具。它是Python中的机器学习库,建立在NumPy,SciPy和matplotlib之上,它也是开源的。其特点包括分类,回归,聚类,降维,模型选择和预处理。
13.微软R
R是强大的,用于统计计算,机器学习和图形的首选编程语言,并得到用户,开发者的繁荣的社区支持。R家族包括,服务器,客户端,SQLServer等服务。支持各种大数据统计,预测建模和机器学习功能,RServer支持基于开源R的全方位的分析探索,分析,可视化和建模。MicrosoftR客户端是免费的社区支持。
14.H2O.ai
H2O是一个开源的预测分析平台。H2O用户可以轻松地从微软Excel和RStudio中探索和建模大数据,并将其与来自HDFS,S3,SQL和NoSQL数据源的数据连接起来。H2O讲述了数据科学的语言,支持R,Python,Scala,Java和强大的RESTAPI。业务应用程序由H2O的NanoFastTM评分引擎提供支持。包括:分布式算法和回归树,如GBM,随机森林(RF),广义线性模型(GLM),k-均值和主成分分析(PCA)。
15.WekaDataMining
Weka是用于数据挖掘任务的机器学习算法的集合。算法可以直接应用于数据集,也可以从Java代码调用。Weka包含用于数据处理,分类,回归,聚类,关联规则和可视化的工具。它也非常适合开发新的机器学习方案。Weka是用Java编写的,由新西兰怀卡托大学开发。
16.ApacheSpark
ApacheSpark是用于大规模数据处理的快速且通用的引擎。Spark需要一个集群管理器和一个分布式存储系统。对于集群管理,Spark支持独立(本地Spark集群),HadoopYARN或ApacheMesos。对于分布式存储,Spark能与各种各样的,包括Hadoop分布式文件系统(HDFS),MAPRA文件系统(FS-MAPRA),Cassandra,OpenStackSwift,亚马逊S3,Kudu,或自定义解决方案实现对接。
17.Octave
Octave是数字计算的高级解释语言。它提供了数据可视化和操纵的线性,非线性问题和图形的解决方案。有许多可用于公共数值线性代数解决问题的工具,寻找非线性方程的根,集成普通功能,操纵多项式,及整合的普通微分和代数微分方程。
18.Tanagra
Tanagra是一个用于学术和研究目的的免费数据挖掘软件,它具有探索性数据分析,统计学习,机器学习和数据库等多种数据挖掘方法的功能。支持标准的数据挖掘任务,如:可视化,描述性统计,实例选择,特征选择,功能建设,回归,影响因子分析,聚类,分类和关联规则的学习。
19.PredictionIO
20.ApacheMahout
ApacheMahout提供可扩展的机器学习算法,主要集中在协作过滤,聚类和分类。许多实现使用ApacheHadoop平台,包括成熟的HadoopMapReduce算法,Scala,Spark和H2O算法。协同过滤:基于用户的协同过滤,基于项目的协同过滤,矩阵分解与ALS,矩阵分解与隐式反馈和加权矩阵分解,SVD+ALS。