MaxCompute开放的公开数据集类别包括:GitHub公开事件数据、国家统计数据、TPC性能测试数据、数字商业类数据、生活服务类数据、金融股票类数据。所有的数据均存储在MaxCompute产品的公开项目BIGDATA_PUBLIC_DATASET的不同Schema中。
类别
简介
数据集名称
Schema名称
GitHub公开事件数据
大量开发人员在GitHub上进行开源项目的开发工作,并在项目的开发过程中产生海量事件。GitHub会记录每次事件的类型及详情、开发者、代码仓库等信息,并开放其中的公开事件,包括加星标、提交代码等。
GitHub公开事件数据集
github_events
国家统计数据
包括世界各国、中国各省的年度GDP数据。
国家统计数据集
national_data
TPC性能数据
TPC-DS
TPC-DS是一个面向决策支持的基准,它对决策支持系统的几个普遍适用的方面进行建模,包括查询和数据维护等,使大数据系统等新兴技术能够执行基准测试。
TPC-H
TPC-H是一个面向决策支持的基准,它由一套面向业务的即席查询和并发数据修改组成,在大数据量下执行高度复杂的查询,并回答关键业务问题。
TPCx-BB
TPCx-BBExpressBenchmarkBB(TPCx-BB)是一个大数据基准测试,衡量基于Hadoop的大数据系统的性能。它通过执行30个经常执行的分析查询来衡量硬件和软件组件的性能。
数字商业
数字商业数据集
commerce
生活服务
包括二手房产、影视及票房、手机号码归属、行政及城乡区划代码信息等数据。
生活服务数据集
life_service
金融股票
股票信息。
金融股票数据集
finance
公开数据集对所有的MaxCompute用户开放。在使用过程中,您需要注意:
公开项目BIGDATA_PUBLIC_DATASET各Schema中的表详细信息如下。
项目名称
BIGDATA_PUBLIC_DATASET
可用地域
华东1(杭州)、华东2(上海)、华北2(北京)、华北3(张家口)、华北6(乌兰察布)、华南1(深圳)、西南1(成都)
表名称与说明
MaxCompute将GHArchive提供的海量公开事件数据进行离线处理并开发,生成以下表:
更新周期
查询表结构
--开启Session级Schema语法。setodps.namespace.schema=true;--查询dwd_github_events_odps表结构。如果想查询其他表,替换schema名称和表名即可。descbigdata_public_dataset.github_events.dwd_github_events_odps;查询示例
提供固定数据,不做更新。
--开启Session级Schema语法。setodps.namespace.schema=true;--查询annual_gdp_by_province表结构。如果想查询其他表,替换schema名称和表名即可。descbigdata_public_dataset.national_data.annual_gdp_by_province;查询示例
--开启Session级Schema语法。SETodps.namespace.schema=true;--查看过去20年北京市GDP变化趋势。SELECTregion,gdp,yearFROMbigdata_public_dataset.national_data.annual_gdp_by_provinceWHEREregion='北京市'ORDERBYyearASCLIMIT20;TPC-DS数据项目名称
tpcds_10g、tpcds_100g、tpcds_1t、tpcds_10t
华东1(杭州)、华东2(上海)、华北2(北京)、华北3(张家口)、华北6(乌兰察布)、华南1(深圳)、西南1(成都)、中国香港、日本(东京)、新加坡、马来西亚(吉隆坡)、印度尼西亚(雅加达)、美国(弗吉尼亚)、美国(硅谷)、英国(伦敦)、德国(法兰克福)、阿联酋(迪拜)、华东2金融云、华北2金融云(邀测)、华北2阿里政务云1、华南1金融云
--开启Session级Schema语法。SETodps.namespace.schema=TRUE;--查询tpcds_10g中的call_center表结构。如果想查询其他规格数据集的表,替换schema名称和表名即可。DESCbigdata_public_dataset.tpcds_10g.call_center;查询示例
tpch_10g、tpch_100g、tpch_1t、tpch_10t
TPC-H是用来评估在线分析处理的基准程序,主要模拟了一个供应商和采购商之间的交易行为。其中含有订单信息、商品信息、用户信息等,详情如下:
--开启Session级Schema语法。SETodps.namespace.schema=TRUE;--查询tpch_10g中的lineitem表结构。如果想查询其他规格数据集的表,替换schema名称和表名即可。DESCbigdata_public_dataset.tpch_10g.lineitem;查询示例
tpcxbb_10g、tpcxbb_100g、tpcxbb_1t、tpcxbb_10t
TPCx-BB是一个大数据基准测试工具,该工具模拟了一个网上零售的场景,包含销售记录和退货记录,同时包含商品信息和促销信息等,详情如下:
--开启Session级Schema语法。SETodps.namespace.schema=TRUE;--查询tpcxbb_10g中的web_sales表结构。如果想查询其他规格数据集的表,替换schema名称和表名即可。DESCbigdata_public_dataset.tpcxbb_10g.web_sales;查询示例
提供固定数据,不再做增量更新。
--开启Session级Schema语法。SETodps.namespace.schema=TRUE;--查询behavior_log表结构。如果想查询其他表,替换表名即可。DESCbigdata_public_dataset.commerce.behavior_log;查询示例
--开启Session级Schema语法。SETodps.namespace.schema=TRUE;--通过behavior_log统计22天内销量最高的三个商品类目ID。SELECTcate,count(btag)salesFROMbehavior_logWHEREbtag='buy'GROUPBYcateORDERBYsalesDESCLIMIT3;生活服务数据集项目名称
--开启Session级Schema语法。SETodps.namespace.schema=TRUE;--查询movie_box表结构。如果想查询其他表,替换表名即可。DESCbigdata_public_dataset.life_service.movie_box;查询示例
--开启Session级Schema语法。SETodps.namespace.schema=TRUE;--查询2017年1月14日的票房排名前十的电影名称。SELECTmovienameFROMbigdata_public_dataset.life_service.movie_boxWHEREds='20170114'ORDERBYrankASCLIMIT10;金融股票数据集项目名称
提供固定日期分区的数据,不再做增量更新。
--开启Session级Schema语法。SETodps.namespace.schema=TRUE;--查询ods_enterprise_share_basic表结构。如果想查询其他表,替换表名即可。DESCbigdata_public_dataset.finance.ods_enterprise_share_basic;