MaxCompute有哪些公开数据集云原生大数据计算服务MaxCompute(MaxCompute)|archive数据集_在线博物馆

MaxCompute开放的公开数据集类别包括：GitHub公开事件数据、国家统计数据、TPC性能测试数据、数字商业类数据、生活服务类数据、金融股票类数据。所有的数据均存储在MaxCompute产品的公开项目BIGDATA_PUBLIC_DATASET的不同Schema中。

类别

简介

数据集名称

Schema名称

GitHub公开事件数据

大量开发人员在GitHub上进行开源项目的开发工作，并在项目的开发过程中产生海量事件。GitHub会记录每次事件的类型及详情、开发者、代码仓库等信息，并开放其中的公开事件，包括加星标、提交代码等。

GitHub公开事件数据集

github_events

国家统计数据

包括世界各国、中国各省的年度GDP数据。

国家统计数据集

national_data

TPC性能数据

TPC-DS

TPC-DS是一个面向决策支持的基准，它对决策支持系统的几个普遍适用的方面进行建模，包括查询和数据维护等，使大数据系统等新兴技术能够执行基准测试。

TPC-H

TPC-H是一个面向决策支持的基准，它由一套面向业务的即席查询和并发数据修改组成，在大数据量下执行高度复杂的查询，并回答关键业务问题。

TPCx-BB

TPCx-BBExpressBenchmarkBB（TPCx-BB）是一个大数据基准测试，衡量基于Hadoop的大数据系统的性能。它通过执行30个经常执行的分析查询来衡量硬件和软件组件的性能。

数字商业

数字商业数据集

commerce

生活服务

包括二手房产、影视及票房、手机号码归属、行政及城乡区划代码信息等数据。

生活服务数据集

life_service

金融股票

股票信息。

金融股票数据集

finance

公开数据集对所有的MaxCompute用户开放。在使用过程中，您需要注意：

公开项目BIGDATA_PUBLIC_DATASET各Schema中的表详细信息如下。

项目名称

BIGDATA_PUBLIC_DATASET

可用地域

华东1（杭州）、华东2（上海）、华北2（北京）、华北3（张家口）、华北6（乌兰察布）、华南1（深圳）、西南1（成都）

表名称与说明

MaxCompute将GHArchive提供的海量公开事件数据进行离线处理并开发，生成以下表：

更新周期

查询表结构

--开启Session级Schema语法。setodps.namespace.schema=true;--查询dwd_github_events_odps表结构。如果想查询其他表，替换schema名称和表名即可。descbigdata_public_dataset.github_events.dwd_github_events_odps;查询示例

提供固定数据，不做更新。

--开启Session级Schema语法。setodps.namespace.schema=true;--查询annual_gdp_by_province表结构。如果想查询其他表，替换schema名称和表名即可。descbigdata_public_dataset.national_data.annual_gdp_by_province;查询示例

--开启Session级Schema语法。SETodps.namespace.schema=true;--查看过去20年北京市GDP变化趋势。SELECTregion,gdp,yearFROMbigdata_public_dataset.national_data.annual_gdp_by_provinceWHEREregion='北京市'ORDERBYyearASCLIMIT20;TPC-DS数据项目名称

tpcds_10g、tpcds_100g、tpcds_1t、tpcds_10t

华东1（杭州）、华东2（上海）、华北2（北京）、华北3（张家口）、华北6（乌兰察布）、华南1（深圳）、西南1（成都）、中国香港、日本（东京）、新加坡、马来西亚（吉隆坡）、印度尼西亚（雅加达）、美国（弗吉尼亚）、美国（硅谷）、英国（伦敦）、德国（法兰克福）、阿联酋（迪拜）、华东2金融云、华北2金融云（邀测）、华北2阿里政务云1、华南1金融云

--开启Session级Schema语法。SETodps.namespace.schema=TRUE;--查询tpcds_10g中的call_center表结构。如果想查询其他规格数据集的表，替换schema名称和表名即可。DESCbigdata_public_dataset.tpcds_10g.call_center;查询示例

tpch_10g、tpch_100g、tpch_1t、tpch_10t

TPC-H是用来评估在线分析处理的基准程序，主要模拟了一个供应商和采购商之间的交易行为。其中含有订单信息、商品信息、用户信息等，详情如下：

--开启Session级Schema语法。SETodps.namespace.schema=TRUE;--查询tpch_10g中的lineitem表结构。如果想查询其他规格数据集的表，替换schema名称和表名即可。DESCbigdata_public_dataset.tpch_10g.lineitem;查询示例

tpcxbb_10g、tpcxbb_100g、tpcxbb_1t、tpcxbb_10t

TPCx-BB是一个大数据基准测试工具，该工具模拟了一个网上零售的场景，包含销售记录和退货记录，同时包含商品信息和促销信息等，详情如下：

--开启Session级Schema语法。SETodps.namespace.schema=TRUE;--查询tpcxbb_10g中的web_sales表结构。如果想查询其他规格数据集的表，替换schema名称和表名即可。DESCbigdata_public_dataset.tpcxbb_10g.web_sales;查询示例

提供固定数据，不再做增量更新。

--开启Session级Schema语法。SETodps.namespace.schema=TRUE;--查询behavior_log表结构。如果想查询其他表，替换表名即可。DESCbigdata_public_dataset.commerce.behavior_log;查询示例

--开启Session级Schema语法。SETodps.namespace.schema=TRUE;--通过behavior_log统计22天内销量最高的三个商品类目ID。SELECTcate,count(btag)salesFROMbehavior_logWHEREbtag='buy'GROUPBYcateORDERBYsalesDESCLIMIT3;生活服务数据集项目名称

--开启Session级Schema语法。SETodps.namespace.schema=TRUE;--查询movie_box表结构。如果想查询其他表，替换表名即可。DESCbigdata_public_dataset.life_service.movie_box;查询示例

--开启Session级Schema语法。SETodps.namespace.schema=TRUE;--查询2017年1月14日的票房排名前十的电影名称。SELECTmovienameFROMbigdata_public_dataset.life_service.movie_boxWHEREds='20170114'ORDERBYrankASCLIMIT10;金融股票数据集项目名称

提供固定日期分区的数据，不再做增量更新。

--开启Session级Schema语法。SETodps.namespace.schema=TRUE;--查询ods_enterprise_share_basic表结构。如果想查询其他表，替换表名即可。DESCbigdata_public_dataset.finance.ods_enterprise_share_basic;

THE END

MaxCompute有哪些公开数据集云原生大数据计算服务MaxCompute(MaxCompute)

MaxCompute有哪些公开数据集云原生大数据计算服务MaxCompute(MaxCompute)

23个优秀的机器学习训练公共数据集实用资讯青少年人工智能资源与创新平台互联网教育智能技术及应用国家工程实验室

如何利用公共数据发NC免疫治疗复合物数据集数据泛癌肿瘤测序肾癌

ChatGPT数据集之谜维基百科新浪财经

多模态分析数据集（MultimodalDataset）整理

国家人口健康科学数据中心

论文笔记：TheStack:3TBofpermissivelylicensedsourcecode