简而言之,机器学习就是训练机器去学习,而不需要明确编程。机器学习作为AI的一个子集,以其最基本的形式使用算法来解析数据、学习数据,然后对现实世界中的某些内容做出预测或判断。
换句话说,机器学习使用算法从输入到机器学习平台的数据中自动创建模型。典型的程序化或基于规则的系统获取程序化规则中的专家知识,但当数据发生变化时,这些规则可能会变得难以更新和维护。机器学习的优势在于,它能够从越来越多输入算法的数据中学习,并且可以给出数据驱动的概率预测。这种在当今大数据应用中快速有效地利用和应用高度复杂算法的能力是一种相对较新的发展。
机器学习系统的性能取决于一些算法将数据集转换为模型的能力。不同算法适用于不同问题和任务,而这些问题的解决和任务的完成也取决于输入数据的质量以及计算资源的能力。
机器学习采用两种主要技术,将算法的使用划分为不同类型:监督式、无监督式以及这两种技术的组合。监督式学习算法使用已标记数据,无监督式学习算法在未标记数据中找规律。半监督式学习混合使用已标记和未标记数据。增强学习训练算法,基于反馈更大限度地利用奖励。
监督式机器学习(也称为预测分析)使用算法来训练模型,以在包含标签和特征的数据集中找规律。然后,它使用经过训练的模型预测新数据集的特征标签。
监督式学习可以进一步分为分类和回归。
其他分类示例包括:
回归可估算目标结果标签与一个或多个特征变量之间的关系,以预测连续数值。在下面的简单示例中,线性回归用于根据房屋面积(特征)估算房价(标签)。
回归的其他示例包括:
监督式学习算法包括:
在聚类中,算法通过分析输入示例之间的相似性将输入分为不同类别。聚类的一个示例是,为了更好地定制产品和服务,公司希望对其客户进行细分。客户可以按人口统计数据和购买记录等特征进行分组。为了得到更有价值的结果,通常将无监督式学习聚类与监督式学习聚类相结合。
其他聚类示例包括:
关联或频繁模式挖掘可以在大型数据项集合中发现频繁同时发生的关联(关系、依赖关系)。一个同时发生的关联示例是经常一起购买的产品,例如有名的啤酒和纸尿裤。对购物者行为的分析发现,购买纸尿裤的男性通常也会买啤酒。
无监督式学习算法包括:
机器学习对企业的好处是多种多样的,包括:
NVIDIA提供预训练模型和软件解决方案,可大幅简化ML应用程序。例如,NVIDIAMetropolis平台让开发者能够构建ML应用程序,以改进零售库存管理、增强损失预防措施,并简化消费者的结账体验。
作为一个实际示例,沃尔玛利用NVIDIA的技术来管理员工工作流程,并确保某些商店的肉类和农产品的新鲜度。同样地,宝马采用NVIDIA的先进AI解决方案,在其制造厂中自动进行光学检查。中国移动运营着超大无线网络,利用NVIDIA的平台通过5G网络提供AI功能。
企业越来越受数据驱动:感知市场和环境数据,并使用分析和机器学习来识别复杂模式、检测变化,并做出直接影响利润的预测。数据驱动型公司使用数据科学来管理和理解海量数据。
在企业间运行分析和机器学习需要大量的基础设施。《财富》500强企业扩展计算能力,并投资数千台CPU服务器以构建大量数据科学集群。CPU横向扩展不再有效。每年,全球数据量都会翻倍,而随着摩尔定律的终结,CPU计算也遭遇了瓶颈。GPU拥有一个大规模并行架构,当中包含数千个高效小核心,专为同时处理多重任务而设计。类似于科学计算和深度学习如何转向NVIDIAGPU加速,数据分析和机器学习也将受益于GPU并行化和加速。
RAPIDS库使用的数据完全存储在GPU显存中。这些库以针对分析优化的数据格式(即ApacheArrow)使用共享GPU显存访问数据。这样一来,无需在不同库之间传输数据。它还支持通过ArrowAPI实现与标准数据科学软件和数据提取的互操作性。在高速GPU显存上运行完整的数据科学工作流程,以及并行处理GPU核心的数据加载、数据操作和ML算法,将端到端数据科学工作流程的速度提高50倍。
RAPIDS专注于分析和数据科学的常见数据准备任务,提供了一个熟悉的DataFrameAPI,与scikit-learn和各种机器学习算法集成,无需支付典型的序列化成本。这可加速端到端流程(从数据准备到机器学习,再到深度学习(DL))。RAPIDS还包括对多节点、多GPU部署的支持,大大加快了对更大规模数据集的处理和训练。
DataFrame-cuDF–这是一个基于ApacheArrow的GPU加速DataFrame操作库。它专为实现模型训练的数据管理而设计。核心加速、低级别CUDAC++内核的Python绑定反映了PandasAPI,可以从Pandas顺利上手过渡。
MachineLearningLibraries-cuML是一个GPU加速的机器学习库集合,最终将提供scikit-learn中所有机器学习算法的GPU版本。
GraphAnalyticsLibraries-cuGRAPH是一个图形分析库集合,可无缝集成到RAPIDS数据科学平软件套件
深度学习库–RAPIDS提供原生CUDAarray_interface以及DLPak支持。这意味着,ApacheArrow中存储的数据可以无缝推送到接受TensorFlow、PyTorch和MxNet等array_interface的深度学习框架。
可视化库–RAPIDS将包括基于ApacheArrow的紧密集成的数据可视化库。原生GPU内存数据格式可提供高性能、高FPS数据可视化,即使存储非常大的数据集。
随着ML和DL越来越多地应用于更大的数据集,Spark已成为一种常用工具,能够在准备机器学习的原始输入数据时执行所需的数据预处理任务。