ChatGPT数据集之谜维基百科新浪财经

不过,看看过去半个月在群众眼里稍显窘迫的Meta的Galactica,以及Google紧急发布的Bard,就知道在短期内打造一个比肩甚至超越ChatGPT效果的模型没那么简单。

让很多人不免感到诧异的是,ChatGPT的核心算法Transformer最初是由Google提出的,并且在大模型技术上的积累可以说不弱于OpenAI,当然他们也不缺算力和数据,但为什么依然会被ChatGPT打的措手不及?

Meta首席AI科学家YannLeCun最近抨击ChatGPT的名言实际上解释了背后的门道。他说,ChatGPT“只是巧妙的组合而已”,这句话恰恰道出了一种无形的技术壁垒。

简单来说,即使其他团队的算法、数据、算力都准备的与OpenAI相差无几,但就是没想到以一种精巧的方式把这些元素组装起来,没有OpenAI,全行业不知道还需要去趟多少坑。

即使OpenAI给出了算法上的一条路径,后来者想复现ChatGPT,算力、工程、数据,每一个要素都需要非常深的积累。七龙珠之中,算力是自由流通的商品,花钱可以买到,工程上有OneFlow这样的开源项目和团队,因此,对互联网大厂之外的团队来说,剩下最大的挑战在于高质量训练数据集。

好在,互联网上总有热心的牛人分析技术的细枝末节,从杂乱的资料中串联起蛛丝马迹,从而归纳出非常有价值的信息。

作者|AlanD.Thompson

OneFlow编译

翻译|杨婷、徐佳渝、贾川

一些研究人员的报告称,通用人工智能(AGI)可能是从我们当前的语言模型技术进行演进[1],预训练Transformer语言模型为AGI的发展铺平了道路。虽然模型训练数据集日渐增大,但缺乏基本指标文档,包括数据集大小、数据集token数量和具体的内容细节。

1

概述

2018年以来,大语言模型的开发和生产使用呈现出爆炸式增长。一些重点研究实验室报告称,公众对大语言模型的使用率达到了惊人高度。2021年3月,OpenAI宣布[3]其GPT-3语言模型被“超过300个应用程序使用,平均每天能够生成45亿个词”,也就是说仅单个模型每分钟就能生成310万词的新内容。

值得注意的是,这些语言模型甚至还没有被完全理解,斯坦福大学的研究人员[4]最近坦言,“目前我们对这些模型还缺乏认知,还不太了解这些模型的运转模式、不知道模型何时会失效,更不知道这些模型的突现性(emergentproperties)能产生什么效果”。

因为这方面的原始文献并不对外公开,所以本文搜集整合了二、三级研究资料,在必要的时候本文会采用假设的方式来推算最终结果。

在本文中,我们会将原始论文中已经明确的特定细节(例如token数量或数据集大小)归类为“公开的(disclosed)”数据,并作加粗处理。

多数情况下,适当地参考二、三级文献,并采用假设的方式来确定最终结果是很有必要的。在这些情况下,token数量和数据集大小等细节是“确定的(determined)”,并以斜体标记。

模型数据集可分为六类,分别是:维基百科、书籍、期刊、Reddit链接、CommonCrawl和其他数据集。

表1.主要数据集大小汇总。以GB为单位。公开的数据以粗体表示。确定的数据以斜体表示。仅原始训练数据集大小。

1.1.维基百科

1.2.书籍

故事型书籍由小说和非小说两大类组成,主要用于训练模型的故事讲述能力和反应能力,数据集包括ProjectGutenberg和Smashwords(TorontoBookCorpus/BookCorpus)等。

1.3.杂志期刊

预印本和已发表期刊中的论文为数据集提供了坚实而严谨的基础,因为学术写作通常来说更有条理、理性和细致。这类数据集包括ArXiv和美国国家卫生研究院等。

1.4.Reddit链接

WebText是一个大型数据集,它的数据是从社交媒体平台Reddit所有出站链接网络中爬取的,每个链接至少有三个赞,代表了流行内容的风向标,对输出优质链接和后续文本数据具有指导作用。

1.5.CommonCrawl

CommonCrawl是2008年至今的一个网站抓取的大型数据集,数据包含原始网页、元数据和文本提取,它的文本来自不同语言、不同领域。重点研究实验室一般会首先选取它的纯英文过滤版(C4)作为数据集。

1.6.其他数据集

不同于上述类别,这类数据集由GitHub等代码数据集、StackExchange等对话论坛和视频字幕数据集组成。

2

常用数据集

2019年以来,大多数基于Transformer的大型语言模型(LLM)都依赖于英文维基百科和CommonCrawl的大型数据集。在本节中,我们参考了JesseDodge和AllenAI(AI2)[8]团队的综合分析,按类别对英文维基百科作了高级概述,并在CommonCrawl数据集[7]的基础上,用谷歌C4[6](ColossalCleanCrawledCorpus)在CommonCrawl中提供了顶级域(domains)。

2.1.维基百科(英文版)分析

表2.英文维基百科数据集类别。公开的数据以粗体表示。确定的数据以斜体表示。

2.2CommonCrawl分析

基于AllenAI(AI2)的C4论文,我们可以确定,过滤后的英文C4数据集的每个域的token数和总体百分比,该数据集为305GB,其中token数为1560亿。

表3.C4:前23个域(不包括维基百科)。公开的数据以粗体表示,确定的数据以斜体表示。

3

GPT-1数据集

2021年,经过全面的回顾性分析,BookCorpus数据集对按流派分组的书籍数量和各类书籍百分比进行了更正[12]。数据集中有关书籍类型的更多详细信息如下:

表4.BookCorpus书籍类型。公开的数据以粗体表示,确定的数据以斜体表示。

在随后的数据集重构中,BookCorpus数据集进一步过滤掉了书籍中的“吸血鬼”类别、降低了言情类书籍的百分比、增加了“历史”类书籍,增加了收集的书籍数量。

3.1.GPT-1数据集总结

GPT-1最终的数据集总结分析如下:

表5.GPT-1数据集总结。以GB为单位。公开的数据以粗体表示,确定的数据以斜体表示。

4

GPT-2数据集

2019年,OpenAI发布了拥有15亿参数的语言模型GPT-2。GPT-2论文阐明了所用训练数据集的大小[13],不过并未说明其内容。而GPT-2模型卡(modelcard)(在GPT-2GitHub仓库中)说明了模型内容[14]。

我们可以从GPT-3论文中得到token数量,该论文使用了WebText扩展版本来表示190亿token。据推测,2020年推出的WebText扩展版本拥有12个月的额外数据(additionaldata),因此它可能比2019年推出的GPT-2版本大25%左右[15]。GPT-2最终的token数量确定为150亿左右。

如GPT-2论文所述,假设模型卡显示链接数时,每个链接都可以被4500万链接总数所除,那WebText的内容在数据集中所占的百分比的详细信息就可以确定。

然后可以使用确定的150亿token数量来查找每个域的token数量。请注意,在可用的前1,000个域中,此处仅显示前50个域。

表6.WebText:前50个域。公开的数据以粗体表示,确定的数据以斜体表示。

4.1.GPT-2数据集总结

GPT-2模型最终的数据集总结分析如下:

表7.GPT-2数据集总结。公开的数据以粗体表示,确定的数据以斜体表示。

5

GPT-3数据集

GPT-3模型由OpenAI于2020年发布。论文阐明了所用训练数据集的token数量[16],但训练数据集的内容和大小尚不清楚(CommonCrawl的数据集大小除外[17])

表8.GPT-3数据集。公开的数据以粗体表示,确定的数据以斜体表示。

5.1.GPT-3:关于Books1和Books2数据集的分析

5.2.GPT-3:Books1

GPT-3使用的Books1数据集不可能与GPT-1使用的BookCorpus数据集相同,原因在于Books1的数据集更大,达120亿token。在一篇引用的论文[19]中就提及GPT-1使用的BookCorpus数据集拥有9.848亿个词,但这可能只相当于13亿token(984.8字x1.3字的token乘数)。

5.3.GPT-3:Books2

5.4.GPT-3数据集总结

附录A概述了使用Wikipedia+CommonCrawl+WebText数据集的顶级资源列表。GPT-3模型的最终数据集总结分析如下:

表9.GPT-3数据集总结。公开的数据以粗体表示,确定的数据以斜体表示。

6

ThePilev1(GPT-J和GPT-NeoX-20B)数据集

有关token数量的更多详情,可以使用本文提供的信息来确定,参见表1(大小以GB为单位)和表7(token/每字节)[23]。

表10.ThePilev1数据集。公开的数据以粗体表示,确定的数据以斜体表示。

6.1.ThePilev1分组数据集(GroupedDatasets)

为了确定如‘Books’、‘Journals’和‘CC’这类数据集的大小,笔者对数据集进行了分组,如下表所示。

表11.ThePilev1分组数据集(不包括Wikipedia、CC和WebText)。公开的数据以粗体表示,确定的以斜体表示。

6.2.ThePilev1数据集总结

ThePilev1数据集与GPT-J和GPT-NeoX-20B模型的最终数据集总结分析如下:

表12.Pilev1数据集总结。公开的数据以粗体表示,确定的数据以斜体表示。

7

Megatron-11B和RoBERTa数据集

2019年,MetaAI(当时称之为FacebookAI)和华盛顿大学联合发布了拥有1.25亿参数的RoBERTa模型。次年,MetaAI发布了拥有110亿参数的Megatron-11B模型。Megatron-11B使用的训练数据集与RoBERTa相同。RoBERTa[24]论文阐明了所用训练数据集的内容,不过必须参考引用的论文(BERT[25]和toryes[26])来确定最终的数据集大小。

BookCorpus:确定的数据集为4.6GB,如上面的GPT-1部分所示。

维基百科:公开的数据集为“16GB(BookCorpus加上英文维基百科)”。在减去BookCorpus数据集(4.6GB,如上面的GPT-1部分所述)后,维基百科数据集确定为11.4GB。

CC-News:(经过滤后)公开的数据集为76GB。

OpenWebText:公开的数据集为38GB。

Stories:公开的数据集为31GB。请注意,此数据集是“基于常识推理任务问题”的CommonCrawl内容,不属于本文的‘Books’类别。相反,将Stories与CC-News数据集(76GB)相结合,CommonCrawl的总数据集则为107GB。

7.1.Megatron-11B和RoBERTa的数据集总结

Megatron-11B和RoBERTa最终的数据集总结分析如下:

表13.Megatron-11B和RoBERTa的数据集总结。公示的数据以粗体表示,确定的数据以斜体表示。

8

MT-NLG数据集

如前所述,有关数据集大小的更多详情,可以使用ThePilev1论文中提供的信息来确定。虽然使用的组件相同,但注意的是,MT-NLG和ThePilev1中报告的组件大小却各不相同,这是由于来自EleutherAI(ThePilev1数据集)和Microsoft/NVIDIA(MT-NLG模型)的研究人员采用了不同的数据过滤和去重方法。

8.1.MT-NLG中的CommonCrawl数据集

Pile-CC:公开的数据集为498亿token,确定的数据为227.12GB左右,参见上述Pilev1部分。

CC-2020-50:公开的数据集为687亿token,假设token的每字节率(perbyterate)为0.25TpB=274.8GB。

CC-2021-04:公开的数据集为826亿token,假设token的每字节率为0.25TpB=330.4GB。

RealNews(来自RoBERTa/Megatron-11B):显示为219亿token。根据RealNews论文[27],数据集确定为120GB。

CC-Stories(来自RoBERTa/Megatron-11B):公开的数据集为53亿token,如上述RoBERTa部分所示,数据集确定为31GB。

8.2.MT-NLG分组数据集(GroupedDatasets)

表14.MT-NLG分组数据集。公开的数据以粗体表示,确定的数据以斜体表示。

8.3.MT-NLG数据集总结

MT-NLG模型最终的数据集总结分析如下:

表15.MT-NLG数据集总结。公示的数据以粗体表示,确定的数据以斜体表示。

9

MT-NLG数据集Gopher数据集

Gopher模型由DeepMind于2021年发布,有2800亿参数。该论文清楚地说明了所使用训练数据集所包含的高级token数量和大小[28],但没有说明详细内容。

表16.公开的Gopher数据集(MassiveText)。公开的数据以粗体表述,确定的数据以斜体表示。

有趣的是,据Gopher论文披露:其Books数据集中包含一些超过500年历史(1500-2008)的书籍。

9.1.MassiveWeb数据集分析

表17.MassiveWeb:前20个域。公开的数据以粗体表示,确定的数据以斜体表示。

9.2.Gopher:关于维基百科数据集的分析

维基百科数据集的总规模很难确定。在Gopher论文中,研究人员指出维基百科没有进行数据去重[30]。然而,论文中列出的不同大小数据集(12.5GBMassiveWebWikipedia与1GBMassiveTextWikipedia)可能是由于失误而造成的,误将“10GB”写成了“1GB”。无论如何,本文仅使用MassiveWeb数据集版本(12.5GB)。

9.3.Gopher:不包括WebText

Gopher数据集的组成部分不包括Reddit外链的WebText数据集。为了清楚起见,尽管Reddit是MassiveWeb中的顶级域,但该数据集仅抓取Reddit域内的Reddit链接。根据定义,WebText[31]由“所有Reddit的外链”组成(即指向Reddit域外的链接)。

9.4.Gopher分组数据集

MassiveWeb被认为是MassiveText的子组件,并被集成到Gopher的数据集汇总中,其分组基于以下列出的可用信息:

表18.Gopher分组数据集。公开的数据以粗体表示,确定的数据以斜体表示。

9.5.Gopher数据集总结

Gopher是本文中最大的数据集,大小为10.5TB。Gopher模型的最终数据集总结分析为:

表19.Gopher数据集总结。公开的数据以粗体表示,确定的数据以斜体表示。

10

结论

随着语言模型不断发展并更广泛地渗透到人们的生活中,确保数据集的详细信息公开透明、所有人都可访问且易于理解是有用、紧迫和必要的。

ThePilev1paperGao,L.,Biderman,S.,Black,S.,Golding,L.,Hoppe,T.,&Foster,C.etal.(2021).ThePile:An800GBDatasetofDiverseTextforLanguageModeling.

AppendixA:Top50Resources:Wikipedia+CC+WebText(i.e.GPT-3)

附录A:前50个资源:Wikipedia+CC+WebText(即GPT-3)

基于本文内容,尤其是每个数据集中每个资源的token数量,我们可以对将Wikipedia+CommonCrawl+WebText数据集的组合,作为其整体训练数据集的一部分模型进行资源或域的排序。为清楚起见,这包括以下模型:OpenAIGPT-3、EleutherAIGPT-J、EleutherAIGPT-NeoX-20B、MetaAIMegatron-11B和RoBERTA,以及Microsoft/NVIDIAMT-NLG等。

请注意,展示的排名基于数据集中可用的未加权总token,每个数据集的主观权重由研究人员在模型预训练之前计算得出。其中有一些重复(例如,《纽约时报》既出现在有1.11亿token的WebText中,也出现在过滤后有1亿token的CommonCrawl中)。

脚注

10.GPT-1paper:pp4“WeusetheBooksCorpusdatasetfortrainingthelanguagemodel.”

13.GPT-2paper:pp3“我们从社交媒体平台Reddit中抓取了至少有3个karma的所有出站链接。这可以被认为是一个启发式指标,用于判断其他用户是否觉得该链接有趣、有教育意义或只是有趣……WebText包含这4500万个链接的文本子集……其中不包括2017年12月之后创建的链接。经过去重和一些基于启发式的清理后,其中包含大约超过800万个文档,总共40GB文本。我们从WebText中移除了所有维基百科文档...”

15.GPT-3paper:“WebText2:190亿token。[Alan:WebText2是从WebText稍微扩展而来,所以我们可以减去20%,得到150亿token]”

16.GPT-2paper:pp3“GPT-3:pp9,Table2.2“CC:4100亿token.WebText2:190亿token.Books1:120亿token.Books2:550亿token.Wiki:30亿token”

17.GPT-3paper:pp8

18.BookCorpusrepo:soskek/bookcorpus#27:“books3.tar.gz似乎类似于OpenAI在他们的论文中引用的神秘“books2”数据集。不幸的是,OpenAI不会提供细节,所以我们对其差异知之甚少。人们怀疑它是“libgen的全部”,但这纯粹是猜测。尽管如此,books3仍是“所有的bibliotik”......”

22.ThePilev1paper:“Books3(Bibliotiktracker):100.96GB”[Alan:乘以每字节token数0.2477=250亿token]

23.ThePilev1paper:pp3,Table1fordatasets.pp28,Table7forTokensperbyte.

30.Gopherpaper:pp41n14“请注意,我们将文档去重应用于除Wikipedia和GitHub之外的所有MassiveText子集“

31.GPT-2paper,pp3.

关于作者

AlanD.Thompson博士是人工智能专家、顾问。在2021年8月的世界人才大会(WorldGiftedConference)上,Alan与Leta(由GPT-3提供支持的AI)共同举办了一场名为“Thenewirrelevanceofintelligence”的研讨会。他的应用型人工智能研究和可视化成果受到了国际主要媒体的报道,同时还在2021年12月牛津大学有关AI伦理的辩论中被引用。他曾担任门萨国际(MensaInternational)主席、通用电气(GE)和华纳兄弟(WarnerBros)顾问,也曾是电气与电子工程师协会(IEEE)和英国工程技术学会(IET)会员。

THE END
1.ISICArchive数据集下载isic数据集下载ISIC Archive数据集下载 数据介绍:该档案库包含分类皮肤损伤的23k图像。 它包含了恶性和良性的例子。每个示例均包含病变的图像,有关病变的元数据(包括分类和分割)以及有关患者的元数据。 下载地址:https://github.com/GalAvineri/ISIC-Archive-Downloaderhttps://blog.csdn.net/lipengfei0427/article/details/114401734
2.EGA(EuropeanGenomePhenomeArchive)数据申请下载在EGA官网搜索栏输入数据集ID,就会看到这样的界面 数据集页面会有联系人邮箱 给红框里这个联系人邮箱发邮件申请就可以,感觉一般是模板回复,甚至有一次周末给我秒回我整个人惊呆 邮件格式可以参考这个 这个联系人我查了下不是教授,是女生,所以我就写了Ms.,但后来发邮件多了发现好像直接Hi加名字就可以哈哈哈 https://www.jianshu.com/p/091a242ded46
3.HomeDiscover datasets around the world!http://archive.ics.uci.edu/
4.25个开源数据集超全汇总,收藏这个数据金矿!1.Kaggle数据集 网址:https://www.kaggle.com/datasets ▌专业性强、多是学术活动数据集Kaggle是一个主要为开发商和数据科学家提供举办机器学习学术活动、托管数据库、编写和分享代码的平台。 2.加州大学欧文分校机器学习库 网址:http://archive.ics.uci.edu/ml/index.php https://linstitute.net/archives/248416
5.数据集中国大模型语料数据联盟开源数据服务指定平台。为大模型提供多种类高质量的开放数据集,已覆盖数百种任务类型的数千个数据集。https://openxlab.org.cn/datasets?lang=en-US
6.机器学习经典开源数据集盘点腾讯云开发者社区数据集存储在Amazon Web Services(AWS)资源中,对于使用AWS构建自己机器学习实验的用户来说,传输速度将非常块。 03 UCI机器学习数据集 UCI数据集地址: https://archive.ics.uci.edu/ml/datasets.html 这个数据集来自于加州大学信息与计算机科学学院,其中包含了100多个数据集。根据机器学习问题的类型对数据集进行分类,https://cloud.tencent.com/developer/article/1977035
7.places数据集原论文论文的数据集daleiwang的技术博客训练的50维的词向量,使用的数据集是以‘chemical’为搜索词,从Pubmed上下载了1918662篇MEDLINE摘要训练的,并且加上CHEMDNER语料库进行训练词向量,是用了word2vec工具,和上述是一样的。 1.3多方面https://nlp.stanford.edu/projects/glove/ a。六十亿的token,40万的字典,包括50维、100维、200维、300维的词向量。https://blog.51cto.com/u_13633/11837781
8.深度学习常用数据集介绍与下载(附网盘链接)思绪无限摘要:这篇博文总结了博主收集的深度学习常用的数据集,包含常用的分类、目标检测及人脸识别任务,对每个数据集给出了简要介绍、官网下载网站以及公众号获取的关键字。因为有的数据集较大,官网的下载速度可能比较慢,为了方便大家管理,这里我将其整理到了个人公众号平台中,可通过下方卡片“AI技术研究与分享”关注,并在后台https://www.cnblogs.com/sixuwuxian/archive/2004/01/13/16756252.html
9.这是一份非常全面的开源数据集,你,真的不想要吗?机器之心人工数据集 Arcade Universe:一个人工数据集生成器,图像包含街机游戏 sprite,如 tetris pentomino / tetromino。该生成器基于 O. Breleux 的 bugland 数据集生成器。 地址:https://github.com/caglar/Arcade-Universe 以Baby AI School 为灵感的数据集集合。 https://www.jiqizhixin.com/articles/2018-09-05-2
10.如何很容易地将数据共享为Kaggle数据集▌创建数据集 create_dataset.py 脚本位于工作目录中,此方法接收您希望生成数据集的参数。你可以不带参数运行该脚本来查看细节: 对于这篇文章,更容易看到一个例子,在 /tmp/data/ARCHIVE,我有我的数据集文件(.tar.gz files),所以我首先准备了一份空白的完整路径列表: https://m.elecfans.com/article/702071.html
11.UCI心脏病数据集heartdisease基于UCI Heart Disease数据集的心脏病分析python源码+数据集+介绍PPT+分析报告+示例图片.zip基于UCI Heart Disease数据集的心脏病分析python源码+数据集+介绍PPT+分析报告+示例图片.zip基于UCI Heart Disease数据集的心脏病分析python源码+数据集+介绍PPT+分析报告+示例图片.zip 【资源说明】 1、该资源内项目代码都是https://www.iteye.com/resource/hyz301-9873214
12.Azure分析的公共数据集浏览公共数据集的这个列表,其其中是否存在可用于设计存储和分析服务及解决方案的原型并进行测试的数据。美国政府和机构数据展开表 数据源关于数据关于文件 美国政府数据 超过250,000 个数据集,涵盖了美国的农业、气候、消费者、生态系统、教育、能源、金融、保健、地方政府、制造业、海运、海洋、公共安全和科研方面的https://docs.microsoft.com/zh-cn/azure/sql-database/sql-database-public-data-sets
13.免费公共数据集的10大在线资源分享开源地理空间基金会中文分会链接地址:https://archive.ics.uci.edu/datasets.php 10.Academic Torrents Data 如果您是一名学者或正在撰写研究论文或硕士学位论文,那么 Academic Torrents Data 是理想的学习伙伴。该平台包含来自科学论文的各种大型数据集,其中一些数据集大小达到 2 TB。 https://www.osgeo.cn/post/170b9
14.github怎么找数据集?Worktile社区## 参考其他数据科学工具及平台 除了GitHub,还有很多其他数据科学工具和平台也提供了数据集的下载和分享功能。 1. Kaggle(https://www.kaggle.com/)是一个专注于机器学习和数据科学竞赛的平台,它提供了丰富的数据集资源。 2. UCI Machine Learning Repository(https://archive.ics.uci.edu/ml/index.php)是一个https://worktile.com/kb/ask/511998.html
15.python使用Yolact训练自己的数据集python这篇文章主要介绍了python 使用Yolact训练自己的数据集,帮助大家更好的理解和学习使用python,感兴趣的朋友可以了解下+ 目录 可能是由于yolact官方更新过其项目代码,所以网上其他人的yolact训练使用的config文件和我的稍微有区别。但总体还是差不多的。 1:提前准备好自己的数据集 使用labelme来制作分割数据集,但是https://www.jb51.net/article/208947.htm
16.NSIDC南极海冰数据集(19782017)该套南极海冰数据集共包括四套数据,均来自SMMR、SSM/I和SSMI/S三个传感器,采用被动微波遥感反演。其中SMMR为Nimbus-7卫星搭载的扫描式多通道微波辐射计,工作周期为1978年10月26日至1987年7月8日。1987年7月至今,使用美国国防卫星计划DMSP卫星群上搭载的一系列被动微波遥感数据SSM/I和微波成像专用传感器SSMIS提供的http://poles.tpdc.ac.cn/zh-hans/data/bda94046-d701-4291-a949-f6788e981f46/
17.科学网—CodingandPaperLetter(八十五)7.2020年英国生态学会研讨会材料:用广义线性潜变量模型分析多元生态数据。 BES2020GLLVMworkshop 8.R语言包getremotedata,它提供协调下载网络上各种可用开放数据集的功能。 getremotedata 9.R语言包opendapr,它提供了使用OpenDAP框架(开源项目,用于 网络数据访问协议),一种广泛用于各类卫星遥感产品下载的框架。 https://blog.sciencenet.cn/blog-3247241-1263096.html
18.arXiv.orgeLogin Help|Advanced Search All fieldsTitleAuthorAbstractCommentsJournal referenceACM classificationMSC classificationReport numberarXiv identifierDOIORCIDarXiv author IDHelp pagesFull text Search arXiv is a free distribution service and an open-access archive for nearly 2.4 million scholarly articles in thehttp://arxiv.org/