什么是机器学习?数据科学NVIDIA术语表

简而言之,机器学习就是训练机器去学习,而不需要明确编程。机器学习作为AI的一个子集,以其最基本的形式使用算法来解析数据、学习数据,然后对现实世界中的某些内容做出预测或判断。

换句话说,机器学习使用算法从输入到机器学习平台的数据中自动创建模型。典型的程序化或基于规则的系统获取程序化规则中的专家知识,但当数据发生变化时,这些规则可能会变得难以更新和维护。机器学习的优势在于,它能够从越来越多输入算法的数据中学习,并且可以给出数据驱动的概率预测。这种在当今大数据应用中快速有效地利用和应用高度复杂算法的能力是一种相对较新的发展。

机器学习系统的性能取决于一些算法将数据集转换为模型的能力。不同算法适用于不同问题和任务,而这些问题的解决和任务的完成也取决于输入数据的质量以及计算资源的能力。

机器学习采用两种主要技术,将算法的使用划分为不同类型:监督式、无监督式以及这两种技术的组合。监督式学习算法使用已标记数据,无监督式学习算法在未标记数据中找规律。半监督式学习混合使用已标记和未标记数据。增强学习训练算法,基于反馈更大限度地利用奖励。

监督式机器学习(也称为预测分析)使用算法来训练模型,以在包含标签和特征的数据集中找规律。然后,它使用经过训练的模型预测新数据集的特征标签。

监督式学习可以进一步分为分类和回归。

其他分类示例包括:

回归可估算目标结果标签与一个或多个特征变量之间的关系,以预测连续数值。在下面的简单示例中,线性回归用于根据房屋面积(特征)估算房价(标签)。

回归的其他示例包括:

监督式学习算法包括:

在聚类中,算法通过分析输入示例之间的相似性将输入分为不同类别。聚类的一个示例是,为了更好地定制产品和服务,公司希望对其客户进行细分。客户可以按人口统计数据和购买记录等特征进行分组。为了得到更有价值的结果,通常将无监督式学习聚类与监督式学习聚类相结合。

其他聚类示例包括:

关联或频繁模式挖掘可以在大型数据项集合中发现频繁同时发生的关联(关系、依赖关系)。一个同时发生的关联示例是经常一起购买的产品,例如有名的啤酒和纸尿裤。对购物者行为的分析发现,购买纸尿裤的男性通常也会买啤酒。

无监督式学习算法包括:

机器学习对企业的好处是多种多样的,包括:

NVIDIA提供预训练模型和软件解决方案,可大幅简化ML应用程序。例如,NVIDIAMetropolis平台让开发者能够构建ML应用程序,以改进零售库存管理、增强损失预防措施,并简化消费者的结账体验。

作为一个实际示例,沃尔玛利用NVIDIA的技术来管理员工工作流程,并确保某些商店的肉类和农产品的新鲜度。同样地,宝马采用NVIDIA的先进AI解决方案,在其制造厂中自动进行光学检查。中国移动运营着超大无线网络,利用NVIDIA的平台通过5G网络提供AI功能。

企业越来越受数据驱动:感知市场和环境数据,并使用分析和机器学习来识别复杂模式、检测变化,并做出直接影响利润的预测。数据驱动型公司使用数据科学来管理和理解海量数据。

在企业间运行分析和机器学习需要大量的基础设施。《财富》500强企业扩展计算能力,并投资数千台CPU服务器以构建大量数据科学集群。CPU横向扩展不再有效。每年,全球数据量都会翻倍,而随着摩尔定律的终结,CPU计算也遭遇了瓶颈。GPU拥有一个大规模并行架构,当中包含数千个高效小核心,专为同时处理多重任务而设计。类似于科学计算和深度学习如何转向NVIDIAGPU加速,数据分析和机器学习也将受益于GPU并行化和加速。

RAPIDS库使用的数据完全存储在GPU显存中。这些库以针对分析优化的数据格式(即ApacheArrow)使用共享GPU显存访问数据。这样一来,无需在不同库之间传输数据。它还支持通过ArrowAPI实现与标准数据科学软件和数据提取的互操作性。在高速GPU显存上运行完整的数据科学工作流程,以及并行处理GPU核心的数据加载、数据操作和ML算法,将端到端数据科学工作流程的速度提高50倍。

RAPIDS专注于分析和数据科学的常见数据准备任务,提供了一个熟悉的DataFrameAPI,与scikit-learn和各种机器学习算法集成,无需支付典型的序列化成本。这可加速端到端流程(从数据准备到机器学习,再到深度学习(DL))。RAPIDS还包括对多节点、多GPU部署的支持,大大加快了对更大规模数据集的处理和训练。

DataFrame-cuDF–这是一个基于ApacheArrow的GPU加速DataFrame操作库。它专为实现模型训练的数据管理而设计。核心加速、低级别CUDAC++内核的Python绑定反映了PandasAPI,可以从Pandas顺利上手过渡。

MachineLearningLibraries-cuML是一个GPU加速的机器学习库集合,最终将提供scikit-learn中所有机器学习算法的GPU版本。

GraphAnalyticsLibraries-cuGRAPH是一个图形分析库集合,可无缝集成到RAPIDS数据科学平软件套件

深度学习库–RAPIDS提供原生CUDAarray_interface以及DLPak支持。这意味着,ApacheArrow中存储的数据可以无缝推送到接受TensorFlow、PyTorch和MxNet等array_interface的深度学习框架。

可视化库–RAPIDS将包括基于ApacheArrow的紧密集成的数据可视化库。原生GPU内存数据格式可提供高性能、高FPS数据可视化,即使存储非常大的数据集。

随着ML和DL越来越多地应用于更大的数据集,Spark已成为一种常用工具,能够在准备机器学习的原始输入数据时执行所需的数据预处理任务。

THE END
1.一分钟告诉你,什么是机器学习导语:机器如何能像人类一样学习? 点击喇叭图标可取消静音 科普中国 是中国科协为深入推进科普信息化建设而塑造的全新品牌,旨在以科普内容建设为重点,充分依托现有的传播渠道和平台,使科普信息化建设与传统科普深度融合,以公众关注度作为项目精准评估的标准,提升国家科普公共服务水平 扫一扫 即刻关注 动动手指,分享知识https://www.shkp.org.cn/articles/2024/12/if440189.html
2.机器学习实战:从理论到应用机器学习已经成为推动现代科技进步的重要引擎,广泛应用于图像识别、语音处理、推荐系统等领域。本篇文章以实战为主线,系统讲解机器学习的核心理论、常用算法、数据预处理、模型优化及典型应用案例,并附带可运行代码示例,帮助读者将理论转化为实际能力。 一、机器学习概述 https://blog.csdn.net/qq_20245171/article/details/144352589
3.什么是机器学习?MicrosoftAzure机器学习在不同行业中的运用 各行各业的企业都在以多种方式使用机器学习。下面是机器学习在主要行业的一些运用示例: 银行和金融 风险管理和欺诈预防是机器学习为金融业提供巨大价值的关键领域。 医疗保健 机器学习可帮助改善病人护理,例如诊断工具、患者监测和预测疾病暴发。 https://azure.microsoft.com/zh-cn/resources/cloud-computing-dictionary/what-is-machine-learning-platform/
4.机器学习机器学习(ML)是计算机系统为了有效地执行特定任务,不使用明确的指令,而依赖模式和推理使用的算法和统计模型的科学研究。它被视为人工智能的一个子集。机器学习算法构建一个基于样本数据的数学模型,称为“训练数据”,以便在没有明确编程来执行任务的情况下进行预测或决策。[1][2]机器学习算法用于各种应用,例如电子邮件https://wuli.wiki/assets/sogou/1157.%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%20-%20%E6%90%9C%E7%8B%97%E7%A7%91%E5%AD%A6%E7%99%BE%E7%A7%91.html
5.一文看懂机器学习「3种学习方法+7个实操步骤+15种常见算法」机器学习研究和构建的是一种特殊算法(而非某一个特定的算法),能够让计算机自己在数据中学习从而进行预测。 所以,机器学习不是某种具体的算法,而是很多算法的统称。 机器学习包含了很多种不同的算法,深度学习就是其中之一,其他方法包括决策树,聚类,贝叶斯等。 https://easyai.tech/ai-definition/machine-learning/
6.机器学习机器之心机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可https://www.jiqizhixin.com/graph/technologies/1a0e9c5e-6502-4cd7-8683-6b5ca6c48be2
7.机器学习《机器学习》是计算机科学与人工智能的重要分支领域。本课程面向硕士研究生,系统性地教授机器学习(ML)的发展背景、主要理论、技术及其最新发展趋势,并开展课堂研讨充分调动学生学习主动性,使学生深入了解该领域的研究对未来社会发展的重要影响, 掌握机器学习的最新理论、方法的基本原理和初步应用,激发人工智能领域创新创业的https://i.study.uestc.edu.cn/06ML/menu/home
8.什么是机器学习机器学习简介机器学习的优势以及应用嘲机器学习的核心思想是让计算机通过数据来学习,从而自动发现数据中的规律和模式,并用这些规律和模式来做出预测或决策。 机器学习模型有哪些? 监督式学习 一种使用带标签的训练数据(结构化数据)将特定输入映射到输出的机器学习模型。简单来说,要训练算法识别猫的图片,则向其提供标记为猫的图片。 https://cloud.tencent.com/developer/techpedia/1501
9.机器学习(豆瓣)清华社人工智能系列(共41册), 这套丛书还有 《集成学习实战》《深度学习模式与实践》《机器学习项目成功交付》《人工智能算法图解》《Python机器学习和图像处理实战 面部识别、目标检测和模式识别》 等。 喜欢读"机器学习"的人也喜欢的电子书· ··· 支持Webhttps://book.douban.com/subject/26708119/
10.斯坦福大学公开课机器学习课程[5] 【斯坦福大学公开课】机器学习课程( 1918播放 25:28 [6] 【斯坦福大学公开课】机器学习课程( 1956播放 25:27 [7] 【斯坦福大学公开课】机器学习课程( 2074播放 24:26 [8] 【斯坦福大学公开课】机器学习课程( 974播放 24:30 https://open.163.com/newview/movie/free?pid=RHKF3R9TR&mid=CHKF3RD4C