23个优秀的机器学习训练公共数据集实用资讯青少年人工智能资源与创新平台互联网教育智能技术及应用国家工程实验室

这是迄今为止我最喜欢的数据集。我在最近写的书里的大多数示例都来自于它。简单来说,如果你在Iris数据集上做实验做腻了就可以尝试一下这一个。它由KristenGorman博士和南极洲LTER的帕尔默科考站共同创建。该数据集本质上是由两个数据集组成的,每个数据集包含344只企鹅的数据。

就像Iris一样,这个数据集里有来自帕尔默群岛3个岛屿的3种不同种类的企鹅,分别是Adelie、Chinstrap和Gentoo。或许“Gentoo”听起来很耳熟,那是因为GentooLinux就是以它命名的!此外,这些数据集包含每个物种的culmen维度。这里culmen是鸟喙的上脊。在简化的企鹅数据中,culmen长度和深度被重命名为变量culmen_length_mm和culmen_depth_mm。

我们加载数据,看看它是什么样的:

data=pd.read_csv(f".\\Datasets\\penguins_size.csv")data.head()

我们使用Pandas库来做数据可视化,并且加载的是一个更简单的数据集。

它是练习解决分类和聚类问题的好帮手。在这里,你可以尝试各种分类算法,如决策树、随机森林、SVM,或把它用于聚类问题并练习使用无监督学习。

在以下链接中可以获得有关PalmerPenguins数据集的更多信息:

我们加载数据,看看它是什么样的。首先,我们使用数据集的每小时数据来执行操作:

data=pd.read_csv(f".\\Datasets\\hour.csv")data.head()

每日数据是下面的样子:

data=pd.read_csv(f".\\Datasets\\day.csv")data.head()

由于该数据集包含的信息种类繁多,因此非常适合练习解决回归问题。你可以尝试对其使用多元线性回归,或使用神经网络。

在以下链接中可以获得关于该数据集的更多信息:

这是一个经典之作。如果你喜欢葡萄树或计划成为索马里人,肯定会更中意它的。该数据集由两个数据集组成。两者都包含来自葡萄牙VinhoVerde地区的葡萄酒的化学指标,一种用于红葡萄酒,另一种用于白葡萄酒。由于隐私限制,数据集里没有关于葡萄种类、葡萄酒品牌、葡萄酒售价的数据,但有关于葡萄酒质量的信息。

data=pd.read_csv(f".\\Datasets\\winequality-white.csv")data.head()

以下链接中可以找到关于这个数据集的更多信息:

虽然我说过会尽量不推荐其他人都推荐的那种数据集,但这个数据集实在太经典了。许多教程、示例和书籍都使用过它。这个数据集由14个特征组成,包含美国人口普查局收集的关于马萨诸塞州波士顿地区住房的信息。这是一个只有506个样本的小数据集。

data=pd.read_csv(f".\\Datasets\\boston_housing.csv")data.head()

该数据集非常适合练习回归任务。请注意,因为这是一个小数据集,你可能会得到乐观的结果。

从以下链接中可以找到关于这个数据集的更多信息:

这也是一个经典数据集。它实际上起源于1989年,但它确实很有趣。该数据集包含由拉布拉多鹅湾的雷达系统收集的数据。该系统由16个高频天线的相控阵列组成,旨在检测电离层中的自由电子。一般来说,电离层有两种类型的结构:“好”和“坏”。这些雷达会检测这些结构并传递信号。数据集中有34个自变量和1个因变量,总共有351个观测值。

data=pd.read_csv(f".\\Datasets\\ionsphere.csv")data.head()

这显然是一个二元(2类)分类问题。有趣的是,这是一个不均衡的数据集,所以你也可以用它做这种练习。在这个数据集上实现高精度也非易事,基线性能在64%左右,而最高精度在94%左右。

MNIST数据集是用于练习图像分类和图像识别的著名数据集,然而它有点被滥用了。如果你想要一个简单的数据集来练习图像分类,你可以试试FashionMNIST。它曾被《机器学习终极指南》拿来做图像分类示例。

本质上,这个数据集是MNIST数据集的变体,它与MNIST数据集具有相同的结构,也就是说它有一个60,000个样本的训练集和一个10,000个服装图像的测试集。所有图像都经过尺寸归一化和居中。图像的大小也固定为28×28,这样预处理的图像数据被减到了最小水平。它也可作为某些框架(如TensorFlow或PyTorch)的一部分使用。

它最适合图像分类和图像生成任务。你可以使用简单的卷积神经网络(CNN)来做尝试,或者使用生成对抗网络(GAN)使用它来生成图像。

这是一个包含猫狗图像的数据集。这个数据集包含23,262张猫和狗的图像,用于二值图像分类。在主文件夹中,你会找到两个文件夹train1和test。

train1文件夹包含训练图像,而test文件夹包含测试图像。请注意,图像名称以cat或dog开头。这些名称本质上是我们的标签,这意味着我们将使用这些名称定义目标。

这个数据集有两重目标。首先,它可用于练习图像分类以及对象检测。其次,你可以在这里面找到无穷无尽的可爱图片。

机器学习和深度学习技术在医疗保健领域中的应用正在稳步增长。如果你想练习并了解使用此类数据的效果,这个数据集是一个不错的选择。在该数据集中,数据是通过处理乳房肿块的细针穿刺(FNA)的数字化图像提取出来的。该数据集中的每个特征都描述了上述数字化图像中发现的细胞核的特征。

该数据集由569个样本组成,其中包括357个良性样本和212个恶性样本。这个数据集中有三类特征,其中实值特征最有趣。它们是从数字化图像中计算出来的,包含有关区域、细胞半径、纹理等信息。

data=pd.read_csv(f".\\Datasets\\breast-cancer-wisconsin.csv")data.head()

这个医疗保健数据集适合练习分类和随机森林、SVM等算法。

在过去几年中,情绪分析成为了一种监控和了解客户反馈的重要工具。这种对消息和响应所携带的潜在情绪基调的检测过程是完全自动化的,这意味着企业可以更好更快地了解客户的需求并提供更好的产品和服务。

这一过程是通过应用各种NLP(自然语言处理)技术来完成的。这些数据集可以帮助你练习此类技术,实际上非常适合该领域的初学者。Sentiment140包含了使用TwitterAPI提取的1,600,000条推文。它们的结构略有不同。

data=pd.read_csv(f".\\Datasets\\training.1600000.processed.noemoticon.csv")data.head()

如前所述,这是一个用于情绪分析的数据集。情绪分析是最常见的文本分类工具。该过程会分析文本片段以确定其中包含的情绪是积极的、消极的还是中性的。了解品牌和产品引发的社会情绪是现代企业必不可少的工具之一。

data=pd.read_csv(f".\\Datasets\\BBCNewsTrain.csv")data.head()

垃圾消息检测是互联网中最早投入实践的机器学习任务之一。这种任务也属于NLP和文本分类工作。所以,如果你想练习解决这类问题,SpamSMS数据集是一个不错的选择。它在实践中用得非常多,非常适合初学者。

如果你想研究人脸检测解决方案、构建自己的人脸生成器或创建深度人脸伪造模型,那么这个数据集就是你的最佳选择。该数据集拥有超过20万张名人图像,每张图像有40个属性注释,为你的研究项目提供了一个很好的起点。此外,它还涵盖了主要的姿势和背景类别。

我们可以用这个数据集解决多种问题。比如,我们可以解决各种人脸识别和计算机视觉问题,它可用来使用不同的生成算法生成图像。此外,你可以使用它来开发新颖的深度人脸伪造模型或深度伪造检测模型。

这是最大的多标签视频分类数据集。它来自谷歌,拥有800万个带有注释和ID的YouTube分类视频。这些视频的注释由YouTube视频注释系统使用48000个视觉实体的词汇表创建。该词汇表也可供下载。

请注意,此数据集可用作TensorFlow记录文件。除此之外,你还可以使用这个数据集的扩展——YouTube-8MSegments数据集。它包含了人工验证的分段注释。

你可以使用以下命令下载它们:

这个数据集可以为任何产品创建情绪分析的入门模型,你可以使用它来快速创建可用于生产的模型。

这是一个有趣的数据集。你可以使用它来创建可以检测真钞和伪造钞票的解决方案。该数据集包含了从数字化图像中提取的许多指标。数据集的图像是使用通常用于印刷检查的工业相机创建的,图像尺寸为400x400像素。这是一个干净的数据集,包含1372个示例且没有缺失值。

data=pd.read_csv(f".\\Datasets\\data_banknote_authentication.csv")data.head()

它是练习二元分类和应用各种算法的绝佳数据集。此外,你可以修改它并将其用于聚类,并提出将通过无监督学习对这些数据进行聚类的算法。

简而言之,有两种方法可以利用这个数据集。你可以通过LabelMeMatlab工具箱下载所有图像,也可以通过LabelMeMatlab工具箱在线使用图像。

标记好的数据如下所示:

它是用于对象检测和对象识别解决方案的绝佳数据集。

如果你对地质学感兴趣,会发现这个数据集非常有趣。它是利用声纳信号制成的,由两部分组成。第一部分名为“sonar.mines”,包含111个模式,这些模式是使用在不同角度和不同条件下从金属圆柱体反射的声纳信号制成的。

第二部分名为“sonar.rocks”,由97个模式组成,同样是通过反射声纳信号制成,但这次反射的是岩石上的信号。它是一个不均衡数据集,包含208个示例、60个输入特征和一个输出特征。

data=pd.read_csv(f".\\Datasets\\sonar.csv")data.head()

该数据集非常适合练习二元分类。它的制作目标是检测输入是地雷还是岩石,这是一个有趣的问题,因为最高的输出结果达到了88%的准确率。

这是另一个用于分类练习的医疗保健数据集。它来自美国国家糖尿病、消化和肾脏疾病研究所,其目的是根据某些诊断指标来预测患者是否患有糖尿病。

该数据集包含768个观测值,具有8个输入特征和1个输出特征。它不是一个均衡的数据集,并且假设缺失值被替换为0。

data=pd.read_csv(f".\\Datasets\\pima-indians-dataset.csv")data.head()

它是另一个适合练习二元分类的数据集。

这个数据集非常有趣和简单。它特别适合初学者,可以代替Iris数据集。该数据集包含属于三种不同小麦品种的种子信息:Kama、Rosa和Canadian。它是一个均衡的数据集,每个类别有70个实例。种子内部内核结构的测量值是使用软X射线技术检测的。

data=pd.read_csv(f".\\Datasets\\seeds_dataset.csv")data.head()

这个数据集有利于提升分类技能。

这个数据集很不错,包含216,930个Jeopardy问题、答案和其他数据。它是可用于你NLP项目的绝佳数据集。除了问题和答案,该数据集还包含有关问题类别和价值的信息。

data=pd.read_csv(f".\\Datasets\\joepardy.csv")data.head()

这是一个丰富的数据集,可用于多种用途。你可以运行分类算法并预测问题的类别或问题的价值。不过你可以用它做的最酷的事情可能是用它来训练BERT模型。

从本质上讲这是一个多分类问题,然而,这个数据集也可以被视为一个回归问题。它的目标是使用提供的指标来预测鲍鱼的年龄。这个数据集不均衡,4,177个实例有8个输入变量和1个输出变量。

data=pd.read_csv(f".\\Datasets\\abalone.csv")data.head()

该数据集可以同时构建为回归和分类任务。这是一个很好的机会,可以使用多元线性回归、SVM、随机森林等算法,或者构建一个可以解决这个问题的神经网络。

我们生活在一个狂野的时代。假新闻、深度造假和其他类型的欺骗技术都成了我们日常生活的一部分,无论我们喜欢与否。这个数据集提供了另一个非常适合练习的NLP任务。它包含标记过的真实和虚假新闻,以及它们的文本和作者。

data=pd.read_csv(f".\\Datasets\\fake_news\\train.csv")data.head()

这是另一个NLP文本分类任务。

最后这个数据集是计算机视觉数据集中的王者——ImageNet。该数据集是用来衡量所有新的深度学习和计算机视觉技术创新的基准。没有它,深度学习的世界就不会变成今天这样的状态。ImageNet是一个按照WordNet层次结构组织的大型图像数据库。这意味着每个实体都用一组称为-synset的词和短语来描述。每个同义词集分配了大约1000个图像。基本上,层次结构的每个节点都由成百上千的图像描述。

它是学术和研究界的标准数据集。它的主要任务是图像分类,但你也可以将其用于各种任务。

THE END
1.ISICArchive数据集下载isic数据集下载ISIC Archive数据集下载 数据介绍:该档案库包含分类皮肤损伤的23k图像。 它包含了恶性和良性的例子。每个示例均包含病变的图像,有关病变的元数据(包括分类和分割)以及有关患者的元数据。 下载地址:https://github.com/GalAvineri/ISIC-Archive-Downloaderhttps://blog.csdn.net/lipengfei0427/article/details/114401734
2.EGA(EuropeanGenomePhenomeArchive)数据申请下载在EGA官网搜索栏输入数据集ID,就会看到这样的界面 数据集页面会有联系人邮箱 给红框里这个联系人邮箱发邮件申请就可以,感觉一般是模板回复,甚至有一次周末给我秒回我整个人惊呆 邮件格式可以参考这个 这个联系人我查了下不是教授,是女生,所以我就写了Ms.,但后来发邮件多了发现好像直接Hi加名字就可以哈哈哈 https://www.jianshu.com/p/091a242ded46
3.HomeDiscover datasets around the world!http://archive.ics.uci.edu/
4.25个开源数据集超全汇总,收藏这个数据金矿!1.Kaggle数据集 网址:https://www.kaggle.com/datasets ▌专业性强、多是学术活动数据集Kaggle是一个主要为开发商和数据科学家提供举办机器学习学术活动、托管数据库、编写和分享代码的平台。 2.加州大学欧文分校机器学习库 网址:http://archive.ics.uci.edu/ml/index.php https://linstitute.net/archives/248416
5.数据集中国大模型语料数据联盟开源数据服务指定平台。为大模型提供多种类高质量的开放数据集,已覆盖数百种任务类型的数千个数据集。https://openxlab.org.cn/datasets?lang=en-US
6.机器学习经典开源数据集盘点腾讯云开发者社区数据集存储在Amazon Web Services(AWS)资源中,对于使用AWS构建自己机器学习实验的用户来说,传输速度将非常块。 03 UCI机器学习数据集 UCI数据集地址: https://archive.ics.uci.edu/ml/datasets.html 这个数据集来自于加州大学信息与计算机科学学院,其中包含了100多个数据集。根据机器学习问题的类型对数据集进行分类,https://cloud.tencent.com/developer/article/1977035
7.places数据集原论文论文的数据集daleiwang的技术博客训练的50维的词向量,使用的数据集是以‘chemical’为搜索词,从Pubmed上下载了1918662篇MEDLINE摘要训练的,并且加上CHEMDNER语料库进行训练词向量,是用了word2vec工具,和上述是一样的。 1.3多方面https://nlp.stanford.edu/projects/glove/ a。六十亿的token,40万的字典,包括50维、100维、200维、300维的词向量。https://blog.51cto.com/u_13633/11837781
8.深度学习常用数据集介绍与下载(附网盘链接)思绪无限摘要:这篇博文总结了博主收集的深度学习常用的数据集,包含常用的分类、目标检测及人脸识别任务,对每个数据集给出了简要介绍、官网下载网站以及公众号获取的关键字。因为有的数据集较大,官网的下载速度可能比较慢,为了方便大家管理,这里我将其整理到了个人公众号平台中,可通过下方卡片“AI技术研究与分享”关注,并在后台https://www.cnblogs.com/sixuwuxian/archive/2004/01/13/16756252.html
9.这是一份非常全面的开源数据集,你,真的不想要吗?机器之心人工数据集 Arcade Universe:一个人工数据集生成器,图像包含街机游戏 sprite,如 tetris pentomino / tetromino。该生成器基于 O. Breleux 的 bugland 数据集生成器。 地址:https://github.com/caglar/Arcade-Universe 以Baby AI School 为灵感的数据集集合。 https://www.jiqizhixin.com/articles/2018-09-05-2
10.如何很容易地将数据共享为Kaggle数据集▌创建数据集 create_dataset.py 脚本位于工作目录中,此方法接收您希望生成数据集的参数。你可以不带参数运行该脚本来查看细节: 对于这篇文章,更容易看到一个例子,在 /tmp/data/ARCHIVE,我有我的数据集文件(.tar.gz files),所以我首先准备了一份空白的完整路径列表: https://m.elecfans.com/article/702071.html
11.UCI心脏病数据集heartdisease基于UCI Heart Disease数据集的心脏病分析python源码+数据集+介绍PPT+分析报告+示例图片.zip基于UCI Heart Disease数据集的心脏病分析python源码+数据集+介绍PPT+分析报告+示例图片.zip基于UCI Heart Disease数据集的心脏病分析python源码+数据集+介绍PPT+分析报告+示例图片.zip 【资源说明】 1、该资源内项目代码都是https://www.iteye.com/resource/hyz301-9873214
12.Azure分析的公共数据集浏览公共数据集的这个列表,其其中是否存在可用于设计存储和分析服务及解决方案的原型并进行测试的数据。美国政府和机构数据展开表 数据源关于数据关于文件 美国政府数据 超过250,000 个数据集,涵盖了美国的农业、气候、消费者、生态系统、教育、能源、金融、保健、地方政府、制造业、海运、海洋、公共安全和科研方面的https://docs.microsoft.com/zh-cn/azure/sql-database/sql-database-public-data-sets
13.免费公共数据集的10大在线资源分享开源地理空间基金会中文分会链接地址:https://archive.ics.uci.edu/datasets.php 10.Academic Torrents Data 如果您是一名学者或正在撰写研究论文或硕士学位论文,那么 Academic Torrents Data 是理想的学习伙伴。该平台包含来自科学论文的各种大型数据集,其中一些数据集大小达到 2 TB。 https://www.osgeo.cn/post/170b9
14.github怎么找数据集?Worktile社区## 参考其他数据科学工具及平台 除了GitHub,还有很多其他数据科学工具和平台也提供了数据集的下载和分享功能。 1. Kaggle(https://www.kaggle.com/)是一个专注于机器学习和数据科学竞赛的平台,它提供了丰富的数据集资源。 2. UCI Machine Learning Repository(https://archive.ics.uci.edu/ml/index.php)是一个https://worktile.com/kb/ask/511998.html
15.python使用Yolact训练自己的数据集python这篇文章主要介绍了python 使用Yolact训练自己的数据集,帮助大家更好的理解和学习使用python,感兴趣的朋友可以了解下+ 目录 可能是由于yolact官方更新过其项目代码,所以网上其他人的yolact训练使用的config文件和我的稍微有区别。但总体还是差不多的。 1:提前准备好自己的数据集 使用labelme来制作分割数据集,但是https://www.jb51.net/article/208947.htm
16.NSIDC南极海冰数据集(19782017)该套南极海冰数据集共包括四套数据,均来自SMMR、SSM/I和SSMI/S三个传感器,采用被动微波遥感反演。其中SMMR为Nimbus-7卫星搭载的扫描式多通道微波辐射计,工作周期为1978年10月26日至1987年7月8日。1987年7月至今,使用美国国防卫星计划DMSP卫星群上搭载的一系列被动微波遥感数据SSM/I和微波成像专用传感器SSMIS提供的http://poles.tpdc.ac.cn/zh-hans/data/bda94046-d701-4291-a949-f6788e981f46/
17.科学网—CodingandPaperLetter(八十五)7.2020年英国生态学会研讨会材料:用广义线性潜变量模型分析多元生态数据。 BES2020GLLVMworkshop 8.R语言包getremotedata,它提供协调下载网络上各种可用开放数据集的功能。 getremotedata 9.R语言包opendapr,它提供了使用OpenDAP框架(开源项目,用于 网络数据访问协议),一种广泛用于各类卫星遥感产品下载的框架。 https://blog.sciencenet.cn/blog-3247241-1263096.html
18.arXiv.orgeLogin Help|Advanced Search All fieldsTitleAuthorAbstractCommentsJournal referenceACM classificationMSC classificationReport numberarXiv identifierDOIORCIDarXiv author IDHelp pagesFull text Search arXiv is a free distribution service and an open-access archive for nearly 2.4 million scholarly articles in thehttp://arxiv.org/