23个优秀的机器学习训练公共数据集实用资讯青少年人工智能资源与创新平台互联网教育智能技术及应用国家工程实验室|archive数据集_在线博物馆

这是迄今为止我最喜欢的数据集。我在最近写的书里的大多数示例都来自于它。简单来说，如果你在Iris数据集上做实验做腻了就可以尝试一下这一个。它由KristenGorman博士和南极洲LTER的帕尔默科考站共同创建。该数据集本质上是由两个数据集组成的，每个数据集包含344只企鹅的数据。

就像Iris一样，这个数据集里有来自帕尔默群岛3个岛屿的3种不同种类的企鹅，分别是Adelie、Chinstrap和Gentoo。或许“Gentoo”听起来很耳熟，那是因为GentooLinux就是以它命名的！此外，这些数据集包含每个物种的culmen维度。这里culmen是鸟喙的上脊。在简化的企鹅数据中，culmen长度和深度被重命名为变量culmen_length_mm和culmen_depth_mm。

我们加载数据，看看它是什么样的：

data=pd.read_csv(f".\\Datasets\\penguins_size.csv")data.head()

我们使用Pandas库来做数据可视化，并且加载的是一个更简单的数据集。

它是练习解决分类和聚类问题的好帮手。在这里，你可以尝试各种分类算法，如决策树、随机森林、SVM，或把它用于聚类问题并练习使用无监督学习。

在以下链接中可以获得有关PalmerPenguins数据集的更多信息：

我们加载数据，看看它是什么样的。首先，我们使用数据集的每小时数据来执行操作：

data=pd.read_csv(f".\\Datasets\\hour.csv")data.head()

每日数据是下面的样子：

data=pd.read_csv(f".\\Datasets\\day.csv")data.head()

由于该数据集包含的信息种类繁多，因此非常适合练习解决回归问题。你可以尝试对其使用多元线性回归，或使用神经网络。

在以下链接中可以获得关于该数据集的更多信息：

这是一个经典之作。如果你喜欢葡萄树或计划成为索马里人，肯定会更中意它的。该数据集由两个数据集组成。两者都包含来自葡萄牙VinhoVerde地区的葡萄酒的化学指标，一种用于红葡萄酒，另一种用于白葡萄酒。由于隐私限制，数据集里没有关于葡萄种类、葡萄酒品牌、葡萄酒售价的数据，但有关于葡萄酒质量的信息。

data=pd.read_csv(f".\\Datasets\\winequality-white.csv")data.head()

以下链接中可以找到关于这个数据集的更多信息：

虽然我说过会尽量不推荐其他人都推荐的那种数据集，但这个数据集实在太经典了。许多教程、示例和书籍都使用过它。这个数据集由14个特征组成，包含美国人口普查局收集的关于马萨诸塞州波士顿地区住房的信息。这是一个只有506个样本的小数据集。

data=pd.read_csv(f".\\Datasets\\boston_housing.csv")data.head()

该数据集非常适合练习回归任务。请注意，因为这是一个小数据集，你可能会得到乐观的结果。

从以下链接中可以找到关于这个数据集的更多信息：

这也是一个经典数据集。它实际上起源于1989年，但它确实很有趣。该数据集包含由拉布拉多鹅湾的雷达系统收集的数据。该系统由16个高频天线的相控阵列组成，旨在检测电离层中的自由电子。一般来说，电离层有两种类型的结构：“好”和“坏”。这些雷达会检测这些结构并传递信号。数据集中有34个自变量和1个因变量，总共有351个观测值。

data=pd.read_csv(f".\\Datasets\\ionsphere.csv")data.head()

这显然是一个二元（2类）分类问题。有趣的是，这是一个不均衡的数据集，所以你也可以用它做这种练习。在这个数据集上实现高精度也非易事，基线性能在64%左右，而最高精度在94%左右。

MNIST数据集是用于练习图像分类和图像识别的著名数据集，然而它有点被滥用了。如果你想要一个简单的数据集来练习图像分类，你可以试试FashionMNIST。它曾被《机器学习终极指南》拿来做图像分类示例。

本质上，这个数据集是MNIST数据集的变体，它与MNIST数据集具有相同的结构，也就是说它有一个60,000个样本的训练集和一个10,000个服装图像的测试集。所有图像都经过尺寸归一化和居中。图像的大小也固定为28×28，这样预处理的图像数据被减到了最小水平。它也可作为某些框架（如TensorFlow或PyTorch）的一部分使用。

它最适合图像分类和图像生成任务。你可以使用简单的卷积神经网络（CNN）来做尝试，或者使用生成对抗网络（GAN）使用它来生成图像。

这是一个包含猫狗图像的数据集。这个数据集包含23,262张猫和狗的图像，用于二值图像分类。在主文件夹中，你会找到两个文件夹train1和test。

train1文件夹包含训练图像，而test文件夹包含测试图像。请注意，图像名称以cat或dog开头。这些名称本质上是我们的标签，这意味着我们将使用这些名称定义目标。

这个数据集有两重目标。首先，它可用于练习图像分类以及对象检测。其次，你可以在这里面找到无穷无尽的可爱图片。

机器学习和深度学习技术在医疗保健领域中的应用正在稳步增长。如果你想练习并了解使用此类数据的效果，这个数据集是一个不错的选择。在该数据集中，数据是通过处理乳房肿块的细针穿刺（FNA）的数字化图像提取出来的。该数据集中的每个特征都描述了上述数字化图像中发现的细胞核的特征。

该数据集由569个样本组成，其中包括357个良性样本和212个恶性样本。这个数据集中有三类特征，其中实值特征最有趣。它们是从数字化图像中计算出来的，包含有关区域、细胞半径、纹理等信息。

data=pd.read_csv(f".\\Datasets\\breast-cancer-wisconsin.csv")data.head()

这个医疗保健数据集适合练习分类和随机森林、SVM等算法。

在过去几年中，情绪分析成为了一种监控和了解客户反馈的重要工具。这种对消息和响应所携带的潜在情绪基调的检测过程是完全自动化的，这意味着企业可以更好更快地了解客户的需求并提供更好的产品和服务。

这一过程是通过应用各种NLP（自然语言处理）技术来完成的。这些数据集可以帮助你练习此类技术，实际上非常适合该领域的初学者。Sentiment140包含了使用TwitterAPI提取的1,600,000条推文。它们的结构略有不同。

data=pd.read_csv(f".\\Datasets\\training.1600000.processed.noemoticon.csv")data.head()

如前所述，这是一个用于情绪分析的数据集。情绪分析是最常见的文本分类工具。该过程会分析文本片段以确定其中包含的情绪是积极的、消极的还是中性的。了解品牌和产品引发的社会情绪是现代企业必不可少的工具之一。

data=pd.read_csv(f".\\Datasets\\BBCNewsTrain.csv")data.head()

垃圾消息检测是互联网中最早投入实践的机器学习任务之一。这种任务也属于NLP和文本分类工作。所以，如果你想练习解决这类问题，SpamSMS数据集是一个不错的选择。它在实践中用得非常多，非常适合初学者。

如果你想研究人脸检测解决方案、构建自己的人脸生成器或创建深度人脸伪造模型，那么这个数据集就是你的最佳选择。该数据集拥有超过20万张名人图像，每张图像有40个属性注释，为你的研究项目提供了一个很好的起点。此外，它还涵盖了主要的姿势和背景类别。

我们可以用这个数据集解决多种问题。比如，我们可以解决各种人脸识别和计算机视觉问题，它可用来使用不同的生成算法生成图像。此外，你可以使用它来开发新颖的深度人脸伪造模型或深度伪造检测模型。

这是最大的多标签视频分类数据集。它来自谷歌，拥有800万个带有注释和ID的YouTube分类视频。这些视频的注释由YouTube视频注释系统使用48000个视觉实体的词汇表创建。该词汇表也可供下载。

请注意，此数据集可用作TensorFlow记录文件。除此之外，你还可以使用这个数据集的扩展——YouTube-8MSegments数据集。它包含了人工验证的分段注释。

你可以使用以下命令下载它们：

这个数据集可以为任何产品创建情绪分析的入门模型，你可以使用它来快速创建可用于生产的模型。

这是一个有趣的数据集。你可以使用它来创建可以检测真钞和伪造钞票的解决方案。该数据集包含了从数字化图像中提取的许多指标。数据集的图像是使用通常用于印刷检查的工业相机创建的，图像尺寸为400x400像素。这是一个干净的数据集，包含1372个示例且没有缺失值。

data=pd.read_csv(f".\\Datasets\\data_banknote_authentication.csv")data.head()

它是练习二元分类和应用各种算法的绝佳数据集。此外，你可以修改它并将其用于聚类，并提出将通过无监督学习对这些数据进行聚类的算法。

简而言之，有两种方法可以利用这个数据集。你可以通过LabelMeMatlab工具箱下载所有图像，也可以通过LabelMeMatlab工具箱在线使用图像。

标记好的数据如下所示：

它是用于对象检测和对象识别解决方案的绝佳数据集。

如果你对地质学感兴趣，会发现这个数据集非常有趣。它是利用声纳信号制成的，由两部分组成。第一部分名为“sonar.mines”，包含111个模式，这些模式是使用在不同角度和不同条件下从金属圆柱体反射的声纳信号制成的。

第二部分名为“sonar.rocks”，由97个模式组成，同样是通过反射声纳信号制成，但这次反射的是岩石上的信号。它是一个不均衡数据集，包含208个示例、60个输入特征和一个输出特征。

data=pd.read_csv(f".\\Datasets\\sonar.csv")data.head()

该数据集非常适合练习二元分类。它的制作目标是检测输入是地雷还是岩石，这是一个有趣的问题，因为最高的输出结果达到了88%的准确率。

这是另一个用于分类练习的医疗保健数据集。它来自美国国家糖尿病、消化和肾脏疾病研究所，其目的是根据某些诊断指标来预测患者是否患有糖尿病。

该数据集包含768个观测值，具有8个输入特征和1个输出特征。它不是一个均衡的数据集，并且假设缺失值被替换为0。

data=pd.read_csv(f".\\Datasets\\pima-indians-dataset.csv")data.head()

它是另一个适合练习二元分类的数据集。

这个数据集非常有趣和简单。它特别适合初学者，可以代替Iris数据集。该数据集包含属于三种不同小麦品种的种子信息：Kama、Rosa和Canadian。它是一个均衡的数据集，每个类别有70个实例。种子内部内核结构的测量值是使用软X射线技术检测的。

data=pd.read_csv(f".\\Datasets\\seeds_dataset.csv")data.head()

这个数据集有利于提升分类技能。

这个数据集很不错，包含216,930个Jeopardy问题、答案和其他数据。它是可用于你NLP项目的绝佳数据集。除了问题和答案，该数据集还包含有关问题类别和价值的信息。

data=pd.read_csv(f".\\Datasets\\joepardy.csv")data.head()

这是一个丰富的数据集，可用于多种用途。你可以运行分类算法并预测问题的类别或问题的价值。不过你可以用它做的最酷的事情可能是用它来训练BERT模型。

从本质上讲这是一个多分类问题，然而，这个数据集也可以被视为一个回归问题。它的目标是使用提供的指标来预测鲍鱼的年龄。这个数据集不均衡，4,177个实例有8个输入变量和1个输出变量。

data=pd.read_csv(f".\\Datasets\\abalone.csv")data.head()

该数据集可以同时构建为回归和分类任务。这是一个很好的机会，可以使用多元线性回归、SVM、随机森林等算法，或者构建一个可以解决这个问题的神经网络。

我们生活在一个狂野的时代。假新闻、深度造假和其他类型的欺骗技术都成了我们日常生活的一部分，无论我们喜欢与否。这个数据集提供了另一个非常适合练习的NLP任务。它包含标记过的真实和虚假新闻，以及它们的文本和作者。

data=pd.read_csv(f".\\Datasets\\fake_news\\train.csv")data.head()

这是另一个NLP文本分类任务。

最后这个数据集是计算机视觉数据集中的王者——ImageNet。该数据集是用来衡量所有新的深度学习和计算机视觉技术创新的基准。没有它，深度学习的世界就不会变成今天这样的状态。ImageNet是一个按照WordNet层次结构组织的大型图像数据库。这意味着每个实体都用一组称为-synset的词和短语来描述。每个同义词集分配了大约1000个图像。基本上，层次结构的每个节点都由成百上千的图像描述。

它是学术和研究界的标准数据集。它的主要任务是图像分类，但你也可以将其用于各种任务。

THE END

23个优秀的机器学习训练公共数据集实用资讯青少年人工智能资源与创新平台互联网教育智能技术及应用国家工程实验室

MaxCompute有哪些公开数据集云原生大数据计算服务MaxCompute(MaxCompute)

23个优秀的机器学习训练公共数据集实用资讯青少年人工智能资源与创新平台互联网教育智能技术及应用国家工程实验室

如何利用公共数据发NC免疫治疗复合物数据集数据泛癌肿瘤测序肾癌

ChatGPT数据集之谜维基百科新浪财经

多模态分析数据集（MultimodalDataset）整理

国家人口健康科学数据中心

论文笔记：TheStack:3TBofpermissivelylicensedsourcecode