什么是机器学习?数据科学NVIDIA术语表

简而言之,机器学习就是训练机器去学习,而不需要明确编程。机器学习作为AI的一个子集,以其最基本的形式使用算法来解析数据、学习数据,然后对现实世界中的某些内容做出预测或判断。

换句话说,机器学习使用算法从输入到机器学习平台的数据中自动创建模型。典型的程序化或基于规则的系统获取程序化规则中的专家知识,但当数据发生变化时,这些规则可能会变得难以更新和维护。机器学习的优势在于,它能够从越来越多输入算法的数据中学习,并且可以给出数据驱动的概率预测。这种在当今大数据应用中快速有效地利用和应用高度复杂算法的能力是一种相对较新的发展。

机器学习系统的性能取决于一些算法将数据集转换为模型的能力。不同算法适用于不同问题和任务,而这些问题的解决和任务的完成也取决于输入数据的质量以及计算资源的能力。

机器学习采用两种主要技术,将算法的使用划分为不同类型:监督式、无监督式以及这两种技术的组合。监督式学习算法使用已标记数据,无监督式学习算法在未标记数据中找规律。半监督式学习混合使用已标记和未标记数据。增强学习训练算法,基于反馈更大限度地利用奖励。

监督式机器学习(也称为预测分析)使用算法来训练模型,以在包含标签和特征的数据集中找规律。然后,它使用经过训练的模型预测新数据集的特征标签。

监督式学习可以进一步分为分类和回归。

其他分类示例包括:

回归可估算目标结果标签与一个或多个特征变量之间的关系,以预测连续数值。在下面的简单示例中,线性回归用于根据房屋面积(特征)估算房价(标签)。

回归的其他示例包括:

监督式学习算法包括:

在聚类中,算法通过分析输入示例之间的相似性将输入分为不同类别。聚类的一个示例是,为了更好地定制产品和服务,公司希望对其客户进行细分。客户可以按人口统计数据和购买记录等特征进行分组。为了得到更有价值的结果,通常将无监督式学习聚类与监督式学习聚类相结合。

其他聚类示例包括:

关联或频繁模式挖掘可以在大型数据项集合中发现频繁同时发生的关联(关系、依赖关系)。一个同时发生的关联示例是经常一起购买的产品,例如有名的啤酒和纸尿裤。对购物者行为的分析发现,购买纸尿裤的男性通常也会买啤酒。

无监督式学习算法包括:

机器学习对企业的好处是多种多样的,包括:

NVIDIA提供预训练模型和软件解决方案,可大幅简化ML应用程序。例如,NVIDIAMetropolis平台让开发者能够构建ML应用程序,以改进零售库存管理、增强损失预防措施,并简化消费者的结账体验。

作为一个实际示例,沃尔玛利用NVIDIA的技术来管理员工工作流程,并确保某些商店的肉类和农产品的新鲜度。同样地,宝马采用NVIDIA的先进AI解决方案,在其制造厂中自动进行光学检查。中国移动运营着超大无线网络,利用NVIDIA的平台通过5G网络提供AI功能。

企业越来越受数据驱动:感知市场和环境数据,并使用分析和机器学习来识别复杂模式、检测变化,并做出直接影响利润的预测。数据驱动型公司使用数据科学来管理和理解海量数据。

在企业间运行分析和机器学习需要大量的基础设施。《财富》500强企业扩展计算能力,并投资数千台CPU服务器以构建大量数据科学集群。CPU横向扩展不再有效。每年,全球数据量都会翻倍,而随着摩尔定律的终结,CPU计算也遭遇了瓶颈。GPU拥有一个大规模并行架构,当中包含数千个高效小核心,专为同时处理多重任务而设计。类似于科学计算和深度学习如何转向NVIDIAGPU加速,数据分析和机器学习也将受益于GPU并行化和加速。

RAPIDS库使用的数据完全存储在GPU显存中。这些库以针对分析优化的数据格式(即ApacheArrow)使用共享GPU显存访问数据。这样一来,无需在不同库之间传输数据。它还支持通过ArrowAPI实现与标准数据科学软件和数据提取的互操作性。在高速GPU显存上运行完整的数据科学工作流程,以及并行处理GPU核心的数据加载、数据操作和ML算法,将端到端数据科学工作流程的速度提高50倍。

RAPIDS专注于分析和数据科学的常见数据准备任务,提供了一个熟悉的DataFrameAPI,与scikit-learn和各种机器学习算法集成,无需支付典型的序列化成本。这可加速端到端流程(从数据准备到机器学习,再到深度学习(DL))。RAPIDS还包括对多节点、多GPU部署的支持,大大加快了对更大规模数据集的处理和训练。

DataFrame-cuDF–这是一个基于ApacheArrow的GPU加速DataFrame操作库。它专为实现模型训练的数据管理而设计。核心加速、低级别CUDAC++内核的Python绑定反映了PandasAPI,可以从Pandas顺利上手过渡。

MachineLearningLibraries-cuML是一个GPU加速的机器学习库集合,最终将提供scikit-learn中所有机器学习算法的GPU版本。

GraphAnalyticsLibraries-cuGRAPH是一个图形分析库集合,可无缝集成到RAPIDS数据科学平软件套件

深度学习库–RAPIDS提供原生CUDAarray_interface以及DLPak支持。这意味着,ApacheArrow中存储的数据可以无缝推送到接受TensorFlow、PyTorch和MxNet等array_interface的深度学习框架。

可视化库–RAPIDS将包括基于ApacheArrow的紧密集成的数据可视化库。原生GPU内存数据格式可提供高性能、高FPS数据可视化,即使存储非常大的数据集。

随着ML和DL越来越多地应用于更大的数据集,Spark已成为一种常用工具,能够在准备机器学习的原始输入数据时执行所需的数据预处理任务。

THE END
1.人工智能51CTO.COM算法 自然语言处理 语音识别 人脸识别 机器视觉 知识图谱 无人驾驶 机器人 开发 云计算 开源 大数据 网络 安全 全部话题 关注该话题的人还关注了 机器学习 2011内容 算法 1605内容 深度学习 1675内容 机器视觉 64内容 知识图谱 70内容 自然语言处理 109内容 机器人 914内容 人脸识别 460内容 我关注的话题 相关https://ai.51cto.com/
2.算法网站:6个非常适合学习编程/算法的网站,选一个你喜欢的吧本文推荐了6个适合学习和练习编程算法的网站,包括HackerRank、TopCoder、Geekforgeeks、LeetCode、Daily Coding Problem和Exercism.io,涵盖了从基础到高级的算法题,适合不同水平的开发者提升技能,部分网站还提供在线编程环境和代码性能评估。 摘要由CSDN通过智能技术生成 https://blog.csdn.net/qq_42366672/article/details/123920105
3.推荐几个算法可视化网站,从此轻松学算法!大家好,我是大彬~ 很多初学者在学习数据结构与算法的时候,都会觉得很难,很大一部分是因为数据结构与算法本身比较抽象,不好理解。对于这一点,可以通过一些可视化动画来帮助理解。 下面大彬推荐几个学习数据结构和算法的可视化工具。 Data Structure Visualizations 这是https://m.nowcoder.com/feed/main/detail/6ecdab56f00b44bfacf3cb854929059e
4.腾讯实验室推荐一些优秀的算法学习网站机器学习算法与Python实战 重磅干货,第一时间送达 作者: 腾讯安全联合实验室 链接: https://www.zhihu.com/question/20368410/answer/726247443 算法是程序的灵魂。 以下从在线题库、在线提交程序源代码等维度推荐一些优秀的网站,希望能对大家有所帮助。一、在线题库算法学习,本质上是学习一门语言。 学习语言的要领https://dy.163.com/v2/article/detail/ELF75C9Q0519EA27.html
5.全网最全程序员学习网站汇总,还不赶快收藏摘要:程序员是一个需要不断学习的职业。幸运的是,在这个互联网时代,知识就在那里,等着我们去获取。作为一个“收藏从未中止,学习从未开始”的博主,秉承着好东西不能独享的态度,把收藏的学习网站整理分享出来,希望大家不要学我,肯定要好好学习,天天进步,升职加薪?。好了,下面开始上货,因为博主是个Java程序员, https://www.songma.com/news/txtlist_i66992v.html
6.码上去学海南公司:算法推荐,必读的13本经典神书《百面机器学习:算法工程师带你去面试》这本书收录了100多道机器学习算法工程师的面试题目和解答,其中大部分源于美国著名视频网站Hulu算法研究岗位的真实场景。本书不仅介绍了机器学习的基础知识,而且还有成为优秀算法工程师的相关技能。以上就是本次分享的全部内容,想学习更多编程技巧,欢迎持续关注码上去学海南公司https://baijiahao.baidu.com/s?id=1814576886625465818&wfr=spider&for=pc
7.九章算法研究生的专业是计算机科学,但是当时毕业疫情的关系就没走相关的职业,后面是想转回去原本的跑道,开始花时间重新学习,先学习了九章算法2023版,刷题加看课学了3个多月,后又报了高频冲刺班学了2个月,总共学算法时间花了将近6个月,学习算法后开始报名学习系统设计和bq的课程,等到都学完之后,约了沙加老师的简历修改和http://jiuzhang.com/
8.的前端资源汇总仓库(包括前端学习开发资源数据结构与算法小鹿动画学编程 小鹿 lxq17853556107 https://github.com/luxiangqiang/Blog 全Github唯一动画仓库,用动画的形式把前端技术讲的淋漓尽致!也包括自己整理的前端面试和进阶文章分享,欢迎关注哦! 编程如画 大鹏 aaron875499765 https://github.com/guanpengchn/blog 全网最特别的画解算法,mdnice作者官方博客 前端思维框架 https://github.com/FrontEndGitHub/FrontEndGitHub
9.吴师兄学算法五分钟学算法吴师兄学算法(www.cxyxiaowu.com)提供许多数据结构与算法学习的基础知识, 涵盖 LeetCode 题解、剑指 Offer 题解、数据结构等内容。https://www.cxyxiaowu.com/
10.有哪些学习算法的网站推荐?推荐的讲解算法的网站、好博客: 讲解、代码格式、图表都很规范,覆盖广 Matrix67 的一些算法讲解类经典文章,平易近人 BYVoid 的博客,计算机科学标签 范浩强的博客 (曾经)的博客@顾昱洲 有口碑的稳定的在线题库: http://acm.timus.ru/** URAL http://uva.onlinejudge.org/** UVA http://acm.sgu.ru/index.https://www.jianshu.com/p/06ff13b234e3
11.代码随想录(豆瓣)推荐 内容简介· ··· 《代码随想录——跟着Carl学算法》归纳了程序员面试中的经典算法题,并按照由浅入深、循序渐进的顺序讲解。 《代码随想录——跟着Carl学算法》首先讲解程序员面试时需要了解的制作简历的技巧和IT名企的面试流程,以及面试时经常忽略的代码规范性问题。然后详细分析程序的时间复杂度和空间复杂库https://book.douban.com/subject/35680544/
12.台风科学研究为防灾减灾强支撑台风尺度估算研究采用了静止气象卫星红外观测数据、中国气象局和联合台风警报中心(JTWC)的最佳路径资料,以及少量的台风中心和外围飞机观测报数据;选用多层感知器(MLP)、广义回归神经网络(GRNN)等5种典型的机器学习算法,建立卫星观测及台风本体物理属性信息与台风特征大风半径之间的非线性关系。 https://www.cma.gov.cn/2011xwzx/2011xqxxw/2011xqxyw/202305/t20230531_5541701.html
13.基于影像学的血流储备分数衍生指标研究进展2020年中国一项多中心研究利用计算流体动力学(CFD)算法测定的CT-FFR检测病变的特异性缺血,结果显示CT-FFR对每支血管的诊断准确性、敏感度和特异度分别为91%、89%和91%,而CCTA为55%、92%和34%,侵袭性冠状动脉造影为58%、94%和37%,CT-FFR具有更高的特异度、准确性和受试者工作特征(ROC)曲线下面积,但是在https://www.medsci.cn/article/show_article.do?id=24c7294603a7