MaxCompute有哪些公开数据集云原生大数据计算服务MaxCompute(MaxCompute)

MaxCompute开放的公开数据集类别包括:GitHub公开事件数据、国家统计数据、TPC性能测试数据、数字商业类数据、生活服务类数据、金融股票类数据。所有的数据均存储在MaxCompute产品的公开项目BIGDATA_PUBLIC_DATASET的不同Schema中。

类别

简介

数据集名称

Schema名称

GitHub公开事件数据

大量开发人员在GitHub上进行开源项目的开发工作,并在项目的开发过程中产生海量事件。GitHub会记录每次事件的类型及详情、开发者、代码仓库等信息,并开放其中的公开事件,包括加星标、提交代码等。

GitHub公开事件数据集

github_events

国家统计数据

包括世界各国、中国各省的年度GDP数据。

国家统计数据集

national_data

TPC性能数据

TPC-DS

TPC-DS是一个面向决策支持的基准,它对决策支持系统的几个普遍适用的方面进行建模,包括查询和数据维护等,使大数据系统等新兴技术能够执行基准测试。

TPC-H

TPC-H是一个面向决策支持的基准,它由一套面向业务的即席查询和并发数据修改组成,在大数据量下执行高度复杂的查询,并回答关键业务问题。

TPCx-BB

TPCx-BBExpressBenchmarkBB(TPCx-BB)是一个大数据基准测试,衡量基于Hadoop的大数据系统的性能。它通过执行30个经常执行的分析查询来衡量硬件和软件组件的性能。

数字商业

数字商业数据集

commerce

生活服务

包括二手房产、影视及票房、手机号码归属、行政及城乡区划代码信息等数据。

生活服务数据集

life_service

金融股票

股票信息。

金融股票数据集

finance

公开数据集对所有的MaxCompute用户开放。在使用过程中,您需要注意:

公开项目BIGDATA_PUBLIC_DATASET各Schema中的表详细信息如下。

项目名称

BIGDATA_PUBLIC_DATASET

可用地域

华东1(杭州)、华东2(上海)、华北2(北京)、华北3(张家口)、华北6(乌兰察布)、华南1(深圳)、西南1(成都)

表名称与说明

MaxCompute将GHArchive提供的海量公开事件数据进行离线处理并开发,生成以下表:

更新周期

查询表结构

--开启Session级Schema语法。setodps.namespace.schema=true;--查询dwd_github_events_odps表结构。如果想查询其他表,替换schema名称和表名即可。descbigdata_public_dataset.github_events.dwd_github_events_odps;查询示例

提供固定数据,不做更新。

--开启Session级Schema语法。setodps.namespace.schema=true;--查询annual_gdp_by_province表结构。如果想查询其他表,替换schema名称和表名即可。descbigdata_public_dataset.national_data.annual_gdp_by_province;查询示例

--开启Session级Schema语法。SETodps.namespace.schema=true;--查看过去20年北京市GDP变化趋势。SELECTregion,gdp,yearFROMbigdata_public_dataset.national_data.annual_gdp_by_provinceWHEREregion='北京市'ORDERBYyearASCLIMIT20;TPC-DS数据项目名称

tpcds_10g、tpcds_100g、tpcds_1t、tpcds_10t

华东1(杭州)、华东2(上海)、华北2(北京)、华北3(张家口)、华北6(乌兰察布)、华南1(深圳)、西南1(成都)、中国香港、日本(东京)、新加坡、马来西亚(吉隆坡)、印度尼西亚(雅加达)、美国(弗吉尼亚)、美国(硅谷)、英国(伦敦)、德国(法兰克福)、阿联酋(迪拜)、华东2金融云、华北2金融云(邀测)、华北2阿里政务云1、华南1金融云

--开启Session级Schema语法。SETodps.namespace.schema=TRUE;--查询tpcds_10g中的call_center表结构。如果想查询其他规格数据集的表,替换schema名称和表名即可。DESCbigdata_public_dataset.tpcds_10g.call_center;查询示例

tpch_10g、tpch_100g、tpch_1t、tpch_10t

TPC-H是用来评估在线分析处理的基准程序,主要模拟了一个供应商和采购商之间的交易行为。其中含有订单信息、商品信息、用户信息等,详情如下:

--开启Session级Schema语法。SETodps.namespace.schema=TRUE;--查询tpch_10g中的lineitem表结构。如果想查询其他规格数据集的表,替换schema名称和表名即可。DESCbigdata_public_dataset.tpch_10g.lineitem;查询示例

tpcxbb_10g、tpcxbb_100g、tpcxbb_1t、tpcxbb_10t

TPCx-BB是一个大数据基准测试工具,该工具模拟了一个网上零售的场景,包含销售记录和退货记录,同时包含商品信息和促销信息等,详情如下:

--开启Session级Schema语法。SETodps.namespace.schema=TRUE;--查询tpcxbb_10g中的web_sales表结构。如果想查询其他规格数据集的表,替换schema名称和表名即可。DESCbigdata_public_dataset.tpcxbb_10g.web_sales;查询示例

提供固定数据,不再做增量更新。

--开启Session级Schema语法。SETodps.namespace.schema=TRUE;--查询behavior_log表结构。如果想查询其他表,替换表名即可。DESCbigdata_public_dataset.commerce.behavior_log;查询示例

--开启Session级Schema语法。SETodps.namespace.schema=TRUE;--通过behavior_log统计22天内销量最高的三个商品类目ID。SELECTcate,count(btag)salesFROMbehavior_logWHEREbtag='buy'GROUPBYcateORDERBYsalesDESCLIMIT3;生活服务数据集项目名称

--开启Session级Schema语法。SETodps.namespace.schema=TRUE;--查询movie_box表结构。如果想查询其他表,替换表名即可。DESCbigdata_public_dataset.life_service.movie_box;查询示例

--开启Session级Schema语法。SETodps.namespace.schema=TRUE;--查询2017年1月14日的票房排名前十的电影名称。SELECTmovienameFROMbigdata_public_dataset.life_service.movie_boxWHEREds='20170114'ORDERBYrankASCLIMIT10;金融股票数据集项目名称

提供固定日期分区的数据,不再做增量更新。

--开启Session级Schema语法。SETodps.namespace.schema=TRUE;--查询ods_enterprise_share_basic表结构。如果想查询其他表,替换表名即可。DESCbigdata_public_dataset.finance.ods_enterprise_share_basic;

THE END
1.ISICArchive数据集下载isic数据集下载ISIC Archive数据集下载 数据介绍:该档案库包含分类皮肤损伤的23k图像。 它包含了恶性和良性的例子。每个示例均包含病变的图像,有关病变的元数据(包括分类和分割)以及有关患者的元数据。 下载地址:https://github.com/GalAvineri/ISIC-Archive-Downloaderhttps://blog.csdn.net/lipengfei0427/article/details/114401734
2.EGA(EuropeanGenomePhenomeArchive)数据申请下载在EGA官网搜索栏输入数据集ID,就会看到这样的界面 数据集页面会有联系人邮箱 给红框里这个联系人邮箱发邮件申请就可以,感觉一般是模板回复,甚至有一次周末给我秒回我整个人惊呆 邮件格式可以参考这个 这个联系人我查了下不是教授,是女生,所以我就写了Ms.,但后来发邮件多了发现好像直接Hi加名字就可以哈哈哈 https://www.jianshu.com/p/091a242ded46
3.HomeDiscover datasets around the world!http://archive.ics.uci.edu/
4.25个开源数据集超全汇总,收藏这个数据金矿!1.Kaggle数据集 网址:https://www.kaggle.com/datasets ▌专业性强、多是学术活动数据集Kaggle是一个主要为开发商和数据科学家提供举办机器学习学术活动、托管数据库、编写和分享代码的平台。 2.加州大学欧文分校机器学习库 网址:http://archive.ics.uci.edu/ml/index.php https://linstitute.net/archives/248416
5.数据集中国大模型语料数据联盟开源数据服务指定平台。为大模型提供多种类高质量的开放数据集,已覆盖数百种任务类型的数千个数据集。https://openxlab.org.cn/datasets?lang=en-US
6.机器学习经典开源数据集盘点腾讯云开发者社区数据集存储在Amazon Web Services(AWS)资源中,对于使用AWS构建自己机器学习实验的用户来说,传输速度将非常块。 03 UCI机器学习数据集 UCI数据集地址: https://archive.ics.uci.edu/ml/datasets.html 这个数据集来自于加州大学信息与计算机科学学院,其中包含了100多个数据集。根据机器学习问题的类型对数据集进行分类,https://cloud.tencent.com/developer/article/1977035
7.places数据集原论文论文的数据集daleiwang的技术博客训练的50维的词向量,使用的数据集是以‘chemical’为搜索词,从Pubmed上下载了1918662篇MEDLINE摘要训练的,并且加上CHEMDNER语料库进行训练词向量,是用了word2vec工具,和上述是一样的。 1.3多方面https://nlp.stanford.edu/projects/glove/ a。六十亿的token,40万的字典,包括50维、100维、200维、300维的词向量。https://blog.51cto.com/u_13633/11837781
8.深度学习常用数据集介绍与下载(附网盘链接)思绪无限摘要:这篇博文总结了博主收集的深度学习常用的数据集,包含常用的分类、目标检测及人脸识别任务,对每个数据集给出了简要介绍、官网下载网站以及公众号获取的关键字。因为有的数据集较大,官网的下载速度可能比较慢,为了方便大家管理,这里我将其整理到了个人公众号平台中,可通过下方卡片“AI技术研究与分享”关注,并在后台https://www.cnblogs.com/sixuwuxian/archive/2004/01/13/16756252.html
9.这是一份非常全面的开源数据集,你,真的不想要吗?机器之心人工数据集 Arcade Universe:一个人工数据集生成器,图像包含街机游戏 sprite,如 tetris pentomino / tetromino。该生成器基于 O. Breleux 的 bugland 数据集生成器。 地址:https://github.com/caglar/Arcade-Universe 以Baby AI School 为灵感的数据集集合。 https://www.jiqizhixin.com/articles/2018-09-05-2
10.如何很容易地将数据共享为Kaggle数据集▌创建数据集 create_dataset.py 脚本位于工作目录中,此方法接收您希望生成数据集的参数。你可以不带参数运行该脚本来查看细节: 对于这篇文章,更容易看到一个例子,在 /tmp/data/ARCHIVE,我有我的数据集文件(.tar.gz files),所以我首先准备了一份空白的完整路径列表: https://m.elecfans.com/article/702071.html
11.UCI心脏病数据集heartdisease基于UCI Heart Disease数据集的心脏病分析python源码+数据集+介绍PPT+分析报告+示例图片.zip基于UCI Heart Disease数据集的心脏病分析python源码+数据集+介绍PPT+分析报告+示例图片.zip基于UCI Heart Disease数据集的心脏病分析python源码+数据集+介绍PPT+分析报告+示例图片.zip 【资源说明】 1、该资源内项目代码都是https://www.iteye.com/resource/hyz301-9873214
12.Azure分析的公共数据集浏览公共数据集的这个列表,其其中是否存在可用于设计存储和分析服务及解决方案的原型并进行测试的数据。美国政府和机构数据展开表 数据源关于数据关于文件 美国政府数据 超过250,000 个数据集,涵盖了美国的农业、气候、消费者、生态系统、教育、能源、金融、保健、地方政府、制造业、海运、海洋、公共安全和科研方面的https://docs.microsoft.com/zh-cn/azure/sql-database/sql-database-public-data-sets
13.免费公共数据集的10大在线资源分享开源地理空间基金会中文分会链接地址:https://archive.ics.uci.edu/datasets.php 10.Academic Torrents Data 如果您是一名学者或正在撰写研究论文或硕士学位论文,那么 Academic Torrents Data 是理想的学习伙伴。该平台包含来自科学论文的各种大型数据集,其中一些数据集大小达到 2 TB。 https://www.osgeo.cn/post/170b9
14.github怎么找数据集?Worktile社区## 参考其他数据科学工具及平台 除了GitHub,还有很多其他数据科学工具和平台也提供了数据集的下载和分享功能。 1. Kaggle(https://www.kaggle.com/)是一个专注于机器学习和数据科学竞赛的平台,它提供了丰富的数据集资源。 2. UCI Machine Learning Repository(https://archive.ics.uci.edu/ml/index.php)是一个https://worktile.com/kb/ask/511998.html
15.python使用Yolact训练自己的数据集python这篇文章主要介绍了python 使用Yolact训练自己的数据集,帮助大家更好的理解和学习使用python,感兴趣的朋友可以了解下+ 目录 可能是由于yolact官方更新过其项目代码,所以网上其他人的yolact训练使用的config文件和我的稍微有区别。但总体还是差不多的。 1:提前准备好自己的数据集 使用labelme来制作分割数据集,但是https://www.jb51.net/article/208947.htm
16.NSIDC南极海冰数据集(19782017)该套南极海冰数据集共包括四套数据,均来自SMMR、SSM/I和SSMI/S三个传感器,采用被动微波遥感反演。其中SMMR为Nimbus-7卫星搭载的扫描式多通道微波辐射计,工作周期为1978年10月26日至1987年7月8日。1987年7月至今,使用美国国防卫星计划DMSP卫星群上搭载的一系列被动微波遥感数据SSM/I和微波成像专用传感器SSMIS提供的http://poles.tpdc.ac.cn/zh-hans/data/bda94046-d701-4291-a949-f6788e981f46/
17.科学网—CodingandPaperLetter(八十五)7.2020年英国生态学会研讨会材料:用广义线性潜变量模型分析多元生态数据。 BES2020GLLVMworkshop 8.R语言包getremotedata,它提供协调下载网络上各种可用开放数据集的功能。 getremotedata 9.R语言包opendapr,它提供了使用OpenDAP框架(开源项目,用于 网络数据访问协议),一种广泛用于各类卫星遥感产品下载的框架。 https://blog.sciencenet.cn/blog-3247241-1263096.html
18.arXiv.orgeLogin Help|Advanced Search All fieldsTitleAuthorAbstractCommentsJournal referenceACM classificationMSC classificationReport numberarXiv identifierDOIORCIDarXiv author IDHelp pagesFull text Search arXiv is a free distribution service and an open-access archive for nearly 2.4 million scholarly articles in thehttp://arxiv.org/