人工智能领域最重要的50个专业术语(中英文对照)

1.人工智能ArtificialIntelligence(AI)

-AI是使计算机系统模拟人类智能过程的科学。例如,Siri和GoogleAssistant使用AI来理解和回应用户语音指令。

2.机器学习MachineLearning(ML)

-ML是AI的一个分支,它通过数据和算法使机器“学习”并改进它们的任务执行能力。比如,Netflix推荐系统就基于ML来预测用户可能喜欢的电影。

3.深度学习DeepLearning(DL)

-DL是ML的一个子集,它使用多层的神经网络来学习数据的复杂模式。深度学习让计算机能够识别图像中的对象,如自动标记社交媒体上的照片。

4.神经网络NeuralNetwork

-神经网络是一种模拟人脑神经元的计算系统,能够处理复杂的数据输入。这类网络是深度学习的基础。

5.计算机视觉ComputerVision

-计算机视觉是AI的领域之一,让计算机能够“看”和理解图像和视频中的内容。自动驾驶汽车就使用计算机视觉来识别道路上的行人和障碍物。

6.自然语言处理NaturalLanguageProcessing(NLP)

-NLP是AI的一个领域,它让计算机能够理解、解释和生成人类语言。例如,聊天机器人使用NLP来与人类交流。

7.强化学习ReinforcementLearning

-在强化学习中,机器通过试错来学习如何实现特定目标。它是使机器在没有明确指令的情况下自我优化的方法。

8.生成对抗网络GenerativeAdversarialNetwork(GAN)

-GAN由两个网络组成:生成器和鉴别器。它们相互“对抗”来提升性能。比如,它们可以用来生成非常逼真的假照片。

9.专家系统ExpertSystems

-专家系统是AI的早期形式,模拟人类专家的决策能力,用于解决特定问题。例如,医疗诊断系统就是一种专家系统。

10.数据挖掘DataMining

-数据挖掘是从大量数据中发现模式和关联的过程。商业公司经常使用数据挖掘来了解客户行为并预测趋势。

11.语音识别SpeechRecognition

-语音识别技术使计算机能够理解和转录人类的语音。智能音箱如AmazonEcho通过语音识别来执行用户的语音指令。

12.图像识别ImageRecognition

-图像识别是指计算机能够识别和分类图像中的物体或特征。手机相册中自动分类照片就是一个例子。

13.无监督学习UnsupervisedLearning

-无监督学习是ML中的一种方法,计算机在没有人工标注数据的情况下自我学习识别结构。例如,它可以用于客户细分。

14.监督学习SupervisedLearning

-监督学习是ML中的一种方法,计算机从带标签的数据中学习并做出预测。比如,邮件系统使用它来识别垃圾邮件。

15.半监督学习Semi-supervisedLearning

-半监督学习结合了监督学习和无监督学习的特点,让机器从少量标注数据和大量未标注数据中学习。

16.迁移学习TransferLearning

17.聚类Clustering

-聚类是一种无监督学习方法,把相似的数据点分组在一起。市场细分常用聚类来识别具有相似需求的客户群体。

18.分类Classification

-分类是一种监督学习方法,用于将数据点按照类别进行标记或分组。比如,电子邮件过滤器将邮件分为“正常邮件”和“垃圾邮件”。

19.回归Regression

-回归是监督学习中的一种方法,用于预测连续数值的输出,如房价预测。

20.决策树DecisionTrees

-决策树是一个预测模型;它通过一系列问题来预测对象的标签或数值,类似于流程图的结构。

21.随机森林RandomForests

-随机森林由多个决策树组成,用于提高分类和回归任务的准确率。

22.支持向量机SupportVectorMachines(SVM)

-SVM是监督学习中的一种算法,用于分类和回归问题。它通过找到数据点间的最优边界来分隔不同的类别。

23.逻辑回归LogisticRegression

-逻辑回归是一种统计方法,用于二分类问题,如判断邮件是否为垃圾邮件。

24.感知机Perceptron

-感知机是最简单的神经网络,它是一种线性分类器,用于二分类问题。

25.卷积神经网络ConvolutionalNeuralNetworks(CNN)

-CNN是一种深度学习算法,特别适合处理具有网格状拓扑结构的数据,如图像。

26.循环神经网络RecurrentNeuralNetworks(RNN)

27.长短期记忆网络LongShort-TermMemory(LSTM)

28.注意力机制AttentionMechanism

29.超参数Hyperparameters

-超参数是在学习过程之前设置的参数,决定了网络结构和学习过程的配置,如学习率或网络层数。

30.参数Parameters

-参数是在机器学习过程中学习到的模型内部变量,如权重和偏差。

31.特征工程FeatureEngineering

-特征工程是选择、修改和创建从原始数据中提取的特征的过程,以改善模型的性能。

32.过拟合Overfitting

-过拟合发生在模型在训练数据上学得太好,以至于失去了泛化到未见数据的能力。

33.欠拟合Underfitting

-欠拟合发生在模型在训练数据上的性能不佳,也不能泛化到新数据上。

34.正则化Regularization

-正则化是一种防止过拟合的方法,它通过添加一个惩罚项到损失函数来限制模型的复杂度。

35.交叉验证Cross-Validation

-交叉验证是一种评估模型泛化能力的技术,它将数据分成几份,轮流使用其中一份作为测试集,其余作为训练集。

36.精确度Precision

-精确度是分类任务中的一个评价指标,它是正确识别为正的实例与所有被识别为正的实例的比例。

37.召回率Recall

-召回率是分类任务中的一个评价指标,它是正确识别为正的实例与所有实际为正的实例的比例。

38.F1分数F1Score

-F1分数是精确度和召回率的调和平均数,是一个综合评价分类模型性能的指标。

39.混淆矩阵ConfusionMatrix

-混淆矩阵是一个用来评估分类模型性能的表格,它展示了实际类别与模型预测类别的对应情况。

40.损失函数LossFunction

-损失函数衡量的是模型预测值与真实值之间的差异,训练模型的过程就是最小化损失函数的过程。

41.梯度下降GradientDescent

-梯度下降是一种优化算法,用于更新模型的参数以最小化损失函数。

42.学习率LearningRate

-学习率是一个超参数,它决定了在梯度下降过程中参数更新的步长。

43.批处理BatchProcessing

-批处理是指在训练模型时,数据被分成多个小集合或“批次”进行,这可以提高训练效率并减少内存需求。

44.迭代Iteration

-迭代是机器学习中的一个术语,指的是在训练数据集上进行一次完整的前向和后向传播过程。

45.训练集TrainingSet

-训练集是用来构建和训练模型的数据集。

46.测试集TestSet

-测试集是用来评估模型泛化能力的独立数据集,不与训练集重叠。

47.验证集ValidationSet

-验证集用于在训练过程中调整模型参数,是模型选择和优化的标准。

48.特征向量FeatureVector

-特征向量是一个表示数据点的属性(特征)的数值向量,通常在机器学习模型中使用。

49.嵌入Embedding

-嵌入是将大量分类变量(如单词)转换为实数向量的过程,这些向量捕捉了变量之间的关系。

50.元学习Meta-Learning

-元学习是指设计算法可以学习如何更快更好地学习新任务的技术,有时被称为“学习如何学习”。

THE END
1.数据挖掘公开数据集的合集数据挖掘-公开数据集的合集 本文列举了多个提供公开数据集的平台,包括AWS Public Datasets的地理空间、基因组、机器学习数据,BigML的机器学习管理平台,生物鉴定研究数据库BASD,Bitly的链接分析,加拿大开放数据以及美国Data.gov的多元化政府数据。这些资源为科研、分析和机器学习提供了丰富的信息源。https://blog.csdn.net/sriting/article/details/76285917
2.数据挖掘的数据集资源bobomouse样本数据库 http://kdd.ics.uci.edu/ http://www.ics.uci.edu/~mlearn/MLRepository.html 关于基金的数据挖掘的网站 http://www.gotofund.com/index.asp http://lans.ece.utexas.edu/~strehl/ reuters数据集 http://www.research.att.com/~lewis/reuters21578.html https://www.cnblogs.com/bobomouse/archive/2007/05/26/760513.html
3.科学网—数据挖掘中数据集资源的收集样本数据库 http://kdd.ics.uci.edu/ http://www.ics.uci.edu/~mlearn/MLRepository.html 关于基金的数据挖掘的网站 http://www.gotofund.com/index.asp http://lans.ece.utexas.edu/~strehl/ reuters数据集 http://www.research.att.com/~lewis/reuters21578.html https://blog.sciencenet.cn/blog-224917-218880.html
4.数据挖掘项目数据挖掘项目实践mob64ca14005461的技术博客通过分析银行客户的数据集,深入挖掘出数据的特征,以及每个特征的重要程度、各个特征之间的联系。对客户数据集构建一个性能良好的分类模型,以便于银行对未来客户进行预测,预测他们是流失客户亦或是不流失的客户,并及时的联系沟通,有效地防止银行客户地流失。 https://blog.51cto.com/u_16213616/7077863
5.训练和测试数据集MicrosoftLearn将数据分为定型集和测试集是评估数据挖掘模型的一个重要部分。 将数据集分为定型集和测试集时,通常大部分数据用于定型,小部分数据用于测试。 SQL Server Analysis Services随机采样数据,以帮助确保测试和训练集相似。 通过使用相似的数据来进行定型和测试,可以最小化数据差异所造成的影响并更好地了解模型的特征。 https://docs.microsoft.com/zh-cn/analysis-services/data-mining/training-and-testing-data-sets
6.数据挖掘导论数据类型mysql教程数据类型 数据集的不同表现在很多方面。例如:描述数据对象的属性可有具有不同的类型——定量的或者定性的。并且数据集可能还具有特定的性质,如包含时间序列或者彼此相关联。这因为如此,数据的类型决定我们应使用何种工具和技术来分析数据。此外,数据挖掘 数据类型 https://www.php.cn/js-tutorial-127693.html
7.天池&Datawhale零基础入门数据挖掘Task1&Task21、赛题题目:零基础入门数据挖掘 - 二手车交易价格预测 2、 赛题概况 训练集:15万条 测试集A:5万条 测试集B:5万条 特征+标签(包括15个显著特征和15个匿名特征) SaleID - 销售样本ID name - 汽车编码 regDate - 汽车注册时间 model - 车型编码 https://www.jianshu.com/p/492d4c201261
8.数据挖掘的技术有很多种,按照不同的分类有不同的分类法数据挖掘涉及许多科学领域和技术,如统计技术。统计技术挖掘数据集的主要思想是:统计方法假设给定数据集的分布或概率模型(如正态分布),然后根据模型采用相应的挖掘方法。 2、关联规则 数据关联是数据库中一种重要的可发现知识。如果两个或两个以上变量值的I司有一定的规律性,则称为关联。关联可分为简单关联、时间顺序https://www.tulingxueyuan.cn/tlzx/jsp/1626.html
9.数据挖掘如何入门将数据模型提供给分析人员做参考,或者作用于不同的数据集上。 二、分析方法 数据挖掘可分为指导的数据挖掘和无指导的数据挖掘。有指导的数据挖掘是利用可用的数据建立一个模型,这个模型是对一个特定的属性的描述。无指导的数据挖掘是在所有的属性中寻找某种关系。具体而言,分类、估值和预测属于有指导的数据挖掘;关联https://www.linkflowtech.com/news/228
10.全的数据集网站汇总贴数据分析与数据挖掘内容:美国政府开发数据;数据集数量:较多;是否提供下载链接:提供;推荐指数: https://bbs.pinggu.org/thread-10287095-1-1.html
11.数据分析常见术语又常称均方差,是离均差平方的算术平均数的平方根,用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据,标准差未必相同。 17、皮尔森相关系数 皮尔森相关系数是用来反映两个变量线性相关程度的统计量。相关系数用r表示,其中n为样本量,分别为两个变量的观测值和均值。r描https://meta.ecnu.edu.cn/76/b3/c35753a423603/page.htm
12.基于LightGBM的数据挖掘实战(附Python代码)本文是UCI数据集建模的第3篇,第一篇是数据的探索性分析EDA部分,第二篇是基于LightGBM模型的baseline。 本文是第3篇,主要是对LightGBM模型的优化,最终准确率提升2%+ 导入库 导入建模所需要的各种库: In [1]: import pandas as pd import numpy as np https://zhuanlan.zhihu.com/p/679998383
13.什么是数据集数据集是机器学习和统计建模中使用的一个术语,它指的是一组数据,这些数据被用来训练和评估模型。数据集可以包含各种类型的数据,例如数值数据、文本、图像、音频或视频。 数据集通常分为几个部分:训练集、验证集和测试集。 在机器学习中: 1、训练数据集(training dataset): https://www.bilibili.com/read/mobile/35601487
14.数据挖掘实战:基于KMeans算法对超市客户进行聚类分群计算每个数据点的轮廓系数:s = (b - a) / max(a, b) 对于整个数据集,计算所有数据点的轮廓系数的平均值,作为整个聚类的轮廓系数。 轮廓系数的取值范围在-1到1之间: 如果轮廓系数接近于1,则表示簇内样本紧密度高,簇间分离度较好,聚类效果较好。 https://developer.aliyun.com/article/1434934
15.深度详解:对象检测和图像分割的数据探索过程数据挖掘对于图像分割和目标检测的需要 数据探索是很多机器学习过程的关键。也就是说,当涉及到目标检测和图像分割数据集时,没有直接的方法进行系统地数据探索。 在处理常规图像数据集和分割图像数据集时,有很多东西是可以区分的: 标签被强绑定在图像上。您必须非常小心对图像所做的任何操作,因为它可能破坏图像-标签-https://www.flyai.com/article/703
16.资源史上最全数据集汇总腾讯云开发者社区【资源】史上最全数据集汇总 无论是数据挖掘还是目前大热的深度学习,都离不开“大数据”。大公司们一般会有自己的数据,但对于创业公司或是高校老师、学生来说,“Where can I get large datasets open to the public” 是一个不得不面对的问题。 本文将为您提供一个网站/资源列表,从中你可以使用数据来完成你https://cloud.tencent.com/developer/article/1160973
17.什么是数据挖掘的流程?一步步带你掌握数据挖掘的完整过程数据规约的目的是减少数据量但保留其主要特征,常见的方法有主成分分析(PCA)和属性子集选择。例如,通过主成分分析可以降低数据维度,从而提高数据挖掘的效率和效果。 如何选择最合适的算法和模型 在数据挖掘的模型建立阶段,选择最合适的算法和模型需要综合考虑多个因素。首先,要了解数据集的特点和需求,包括数据类型、数据分https://www.cda.cn/view/204893.html
18.数据挖掘机器之心数据挖掘作为一个真正的跨学科主题,可以用许多不同的方式来定义,即使是数据挖掘这个术语也不能详尽的呈现这个过程中所涉及到的主要步骤。它是用人工智能、机器学习、统计学和数据库的交叉方法在相对较大型的数据集中发现模式的计算过程。数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以https://www.jiqizhixin.com/graph/technologies/7904de1e-5ab5-4f0a-aa60-693cb2978766
19.数据挖掘:概念与技术(原书第3版)PDF扫描版电子书下载数据挖掘:概念与技术(原书第3版) PDF扫描版,本书是数据挖掘和知识发现领域内的所有教师、研究人员、开发人员和用户都必读的参考书,是一本适用于数据分析、数据挖掘和知识发现课程的优秀教材,可以用做高年级本科生或者一年级研究生的数据挖掘导论教材https://www.jb51.net/books/155804.html
20.基于密度的优化初始聚类中心Kmeans算法研究AET3.1 数据集描述及参数设定 UCI数据集是国际上专门用来测试机器学习、数据挖掘算法的公共数据库,库中的数据都有确定的分类,因此可以用准确率来直观地反映聚类算法的质量。在此,本文选择数据库中的Iris、Wine、Balance-scale、Hayes-roth以及New-thyroid 5组数据作为测试数据,如表1。 http://www.chinaaet.com/article/3000015218