Nature研究报告:AI革命的数据正在枯竭,研究人员该怎么办?算法数据源知识库大模型

AI开发人员正在快速“清空”互联网中的数据,以训练诸如ChatGPT背后的大型语言模型。以下是他们试图解决这一问题的方法。

互联网是一个浩瀚的人类知识海洋,但它并不是无限的,而人工智能(AI)研究人员几乎已经将其“榨干”了。

过去十年中,人工智能的飞速进步在很大程度上依赖于扩大神经网络的规模,并使用越来越多的数据对其进行训练。这种“扩展化”方法在提高大型语言模型(LLMs)能力方面表现出了出人意料的有效性,不仅使其在模仿对话语言方面表现更为出色,还赋予了它们诸如推理等的“涌现特性”。然而,一些专家表示,这种扩展策略的极限可能即将到来。其一是由于计算所需的能源需求急剧增加;其二则是因为LLM开发者正在耗尽用于训练模型的传统数据集。

即将到来的数据训练瓶颈可能已经开始显现。“我强烈怀疑这已经在发生了,”Longpre表示。

数据耗尽

数据显示,训练大型语言模型所用的文本数据量正在逼近互联网中可用的文本数据总量,预计到2028年,开发者使用的数据集规模将等同于整个互联网可用的文本量。

虽然一些专家认为,数据访问的限制可能会减缓AI系统的快速进步,但开发者们正在寻找应对方法。“我不认为大型AI公司有人在恐慌,”EpochAI的马德里研究员、2028年“数据枯竭”研究的主要作者PabloVillalobos表示。“至少他们没有给我发过这样的邮件。”

即便如此,数据短缺的危机可能会迫使生成式AI模型的类型发生巨大变革,可能从大规模的通用LLM转向更小、更专业化的模型。

万亿级的单词数据

过去十年间,LLM的发展显示了其对数据的巨大需求。尽管一些开发者并未公布其最新模型的具体参数,但Villalobos估计,自2020年以来,训练LLM所使用的“标记”(tokens,即词语的部分)的数量已增长了100倍,从数千亿增长到数十万亿。

这可能已经消耗了互联网中很大一部分的内容,尽管由于互联网总文本量过于庞大,精确估计仍十分困难。Villalobos估计,当前互联网的总文本量约为3,100万亿个标记。各种服务使用网络爬虫来抓取这些内容,然后消除重复内容,过滤掉不良内容(如色情内容),以生成更干净的数据集。一个名为“RedPajama”的常用数据集包含了数十万亿个单词。一些公司或学术机构也会自行爬取和清理数据,以制作专门用于训练LLM的定制数据集。互联网中只有一小部分被认为是“高质量”的,比如人类编辑的、社会可接受的文本,这些文本通常存在于书籍或新闻中。

然而,互联网可用内容的增长速度出乎意料地缓慢。Villalobos的研究估计,互联网可用内容的年增长率不到10%,而AI训练数据集的规模每年却增长一倍以上。将这两个增长趋势投射到未来的情境中,预计2028年这两条趋势线将会交汇。

与此同时,内容提供商正日益使用软件代码或修订其使用条款,以阻止网络爬虫或AI公司抓取他们的数据。Longpre和他的同事们于2023年7月发布了一份预印本,显示出数据提供者封锁特定爬虫的趋势急剧上升。2023年,在三个主要的清理后数据集中,受限制的标记仅占不到3%;但到2024年,这一比例上升到了20%到33%。

如果法院支持数据提供者应获得经济补偿的观点,这将使得AI开发者和研究人员更难获得所需数据,特别是对资金有限的学术研究人员来说。Longpre认为,学术界的研究人员将受到最严重的打击。

寻找数据的新路径

AI扩展策略面临的数据危机可能是一个重大挑战。虽然在不增加训练数据的情况下扩大模型的计算能力或参数数量是可行的,但这往往会导致AI的训练成本高昂且效率低下。Longpre指出,这种方式通常不受欢迎。

寻找新数据的一个潜在方法是获取非公共数据,比如WhatsApp消息或YouTube视频的转录内容。虽然以这种方式抓取第三方内容的合法性尚未得到司法确认,但公司可以使用自己的数据。许多社交媒体公司也表示,他们利用自己的内容来训练AI模型。例如,Meta表示,其虚拟现实头显MetaQuest收集的音频和图像用于训练AI。但不同公司的政策有所不同。视频会议平台Zoom的服务条款明确规定,不会使用客户内容来训练AI系统,而转录服务OtterAI则表示会使用去标识化和加密的音频和转录数据进行训练。

使用合成数据和再利用数据

一些AI公司开始使用“合成数据”来训练AI,即AI为AI生成数据。2024年,OpenAI宣布其每天生成1000亿个单词,这一年可生成36万亿个单词——相当于当前AI训练数据集的规模。

尽管如此,合成数据也面临一些问题,比如“递归自我强化”,这可能导致模型的学习质量下降。一项2023年的研究将这一现象称为“模型自噬障碍”(ModelAutophagyDisorder),简称“MAD”。

“大而全”到“小而精”

面对数据危机,开发者开始转向小而高效的LLM,这些模型专注于特定任务,要求精炼的专用数据和更好的训练技术。

一项2024年的研究表明,由于算法的改进,训练一个具有相同性能的LLM所需的计算能力每八个月减少一半。OpenAI表示,其最新的o1模型更强调“推理训练”并依赖于反馈,这为扩展方法增添了新维度。

总的来说,AI的发展可能不再需要依赖更大的数据,而是从“更聪明的算法”中获益。Stanford大学的AndyZou表示,AI可能只需“坐下来思考”,因为它的“基础知识库”可能已经比任何个人的知识储备都要丰富。

THE END
1.学术资源共享平台全球及中国市场规模研究和预测2025本报告研究全球与中国市场学术资源共享平台的发展现状及未来发展趋势,分别从生产和消费的角度分析学术资源共享平台的主要生产地区、主要消费地区以及主要的生产商。重点分析全球与中国市场的主要厂商产品特点、产品规格、不同规格产品的价格、产量、产值及全球和中国市场主要生产商的市场份额。 https://www.shangyexinzhi.com/article/23591289.html
2.AI搜索发展历程及应用前景分析问答集锦随着互联网产品和科技技术的不断迭代与演进,语言大模型技术的快速进步, 传统搜索引擎行业正在迎来了全新https://www.vzkoo.com/question/1733970684716416
3.面向未来的图书馆管理系统发展趋势是什么?面向未来的图书馆管理系统发展趋势包括以下几个方面: 智能化与大数据:利用人工智能(AI)、机器学习和数据分析,预测读者需求、优化库存管理和推荐个性化服务,提升图书馆运营效率。 云端和移动化:更多地依赖云计算,使得系统能够轻松扩展和更新,并通过移动设备提供无缝的用户体验。 https://wenku.csdn.net/answer/6puwkhrqoq
4.中石油《形势与政策(四)》在线考试(客观题)[答案]以下说法正确的是()①中国式现代化是人口规模巨大的现代化。 ②中国式现代化是全体人民共同富裕的现代化。 ③中国式现代化是物质文明和精神文明相协调的现代化。 ④中国式现代化是与国际社会共同发展的现代化。 ⑤中国式现代化是人与自然和谐共生的现代化。 ⑥中国式现代化是走和平发展道路的现代化。https://www.zy158.cn/zhongguoshiyoudaxue_huadong_/67834.html
5.下一代图书馆服务平台的发展及演进趋势探析期刊下一代图书馆服务平台的发展及演进趋势探析 刘瑞瑞 石家庄学院图书馆,河北石家庄050035 在线阅读 下载 引用 收藏 分享 打印 摘要:下一代图书馆服务平台是面向全网域资源、全流程业务、软件即服务架构的系统管理平台,国内外相关的研究和产品日益成熟.但在系统平台实际建设过程中,用户缺乏自主选择权、系统集成能力有限、https://d.wanfangdata.com.cn/periodical/sjzsfzkxxxb202002016
6.社区图书馆现状与发展(精选十篇)如今,信息技术飞速发展,微博、微信公众平台、微网站、微APP等一系列的网络应用,推动着教育发生着深刻的变革。碎片学习、在线学习将成为未来学习的趋势。社区成人教育作为继续教育的主阵地,要利用微时代的特征扬长避短,利用其快速传播和互动联动的优势,弥补其碎片化的劣势,实现社区教育与信息无缝对接。整合传播渠道,做好https://www.360wenmi.com/f/cnkeyiz4s0rf.html
7.金融的科技化是基本趋势,金融科技将会促进我国金融行业发展并B. 健康发展 C. 高速发展 D. 和平发展 查看完整题目与答案 浮塑泥的具体类型一般可分为( )方法。 A. 组合成型 B. 整体成型 C. 重建成型 D. 部分成型 查看完整题目与答案 根据我们前面的学习,关于外部环境分析,如下哪些说法更可能是正确的? A. 分析外部环境,需要从宏观大势、行业趋势、竞争态https://www.shuashuati.com/ti/0c4f79cabc834252afaebd1ea0c624daa2.html
8.全民阅读视野下公共阅读服务体系建设研究第一章全民阅读活动发展国际阅读协会积极致力于为全球阅读界开展学术交流创造条件,重点围绕读写教学研究的最新动向和发展趋势进行研讨,诸如学生的读写教学与评价、科技在读写教学中的运用、读写教材开发、读写教师培养,等等。协会每年定期举办年会,每两年举行一届世界大会,还不定期组织召开区域性年会。以2012年国际阅读协会年会为例,此次年会在https://fanqienovel.com/reader/7302306898517183550
9.博世力士乐对于未来工业液压技术的展望iHydrostatics静液压发展趋势 各种市场,行业和应用领域对工业液压系统提出了截然不同的要求。近几十年来出现的发展领域主要集中在以下方面: 能效(减少流动力,减少压力损失,提高效率) 降噪 减少油箱容量 压力水平更高,安装空间更小 改善材料和油性能 更高的可用性和预测性维护 https://www.ihydrostatics.com/12168/
10.参考咨询服务的历史现状与趋势(57页)免费在线预览全文 国内外图书馆参考咨询服务 的历史、现状与趋势 初景利 2003年6月16日 参考咨询概述 参考咨询的历史发展 参考咨询服务的模式和主要理论 参考咨询服务的未来 一、参考咨询概述 “参考”:参合他事他说而考察之(《辞海》); “咨询”:征询、商量(《词源》) 对要查询知识情报的读者给予直接的个人的帮https://m.book118.com/html/2019/1123/6050102220002124.shtm
11.配音网站(英文配音文稿表情包素材库)四、配音网站的发展趋势和挑战 随着互联网技术的日新月异,配音网站必将朝着更智能化、个性化的方向发展。一方面,人工智能技术的引入可以使配音过程更加高效和自动化,减少人工的参与。另一方面,个性化的需求会促使配音网站提供更多样化、特色化的配音服务,满足不同用户的定制化需求。随之而来的是技术和版权等方面的挑战,如http://www.4eg.cn/article/17760626.html
12.基于WoS分析的信息行为研究现状与趋势而Hughes H为支持信息素养的发展,提出了一个在线信息学习使用的模型,将行为、认知和情感反应与文化和语言的影响结合在一个行动研究框架中,体现了信息使用和学习之间的协同作用[16]。研究知识学习方面的信息行为是国内外的共同特征,并且显得日益重要,这将成为未来研究的趋势。https://www.fx361.com/page/2020/0709/6849134.shtml
13.FFmpeg命令行解析活跃的社区:FFmpeg拥有一个活跃的开发者社区,定期更新并修复问题,保持项目的持续改进和发展。 正因为具备这些优点,FFmpeg成为了多媒体处理领域的事实标准,被广泛应用于各种场景,如在线视频平台、实时流媒体服务器、视频编辑软件等。接下来的章节,我们将详细探讨FFmpeg命令行的使用方法,以及对应的源码实现原理。 https://developer.aliyun.com/article/1463813
14.探索图书馆新趋势:参加第88届国际图联大会的见解和反思Exploring Emerging Trends in Libraries:Insights and Reflections from the 88th IFLA Congress 在线阅读 免费下载 引用 收藏 分享 摘要 本文介绍了笔者参加2023年在荷兰鹿特丹举行的第88届世界图书馆与信息大会(WLIC 2023)部分会议的主要见解。第88届WLIC展示了图书馆作为创新和知识中心不断发展的形象。大会以“让https://qikan.cqvip.com/Qikan/Article/Detail?id=7110916493
15.《2024年IFLA趋势报告》发布2024年9月30日,在澳大利亚布里斯班举行的“信息未来峰会”上,国际图书馆协会联合会(IFLA)发布了《2024年IFLA趋势报告》。这一报告在SIGL(Stichting IFLA Global Libraries)的支持下完成,为图书馆员和图书馆提供了一个关键的资源,帮助他们在规划未来时融入当下的讨论。这份报告不仅旨在预测图书馆和信息环境的未来走向,还https://www.las.ac.cn/front/product/detail?id=3eaab76f72bc273d755834c4690e8c83
16.ACRL研究规划与审查委员会:2024年学术图书馆的顶级趋势学术图书馆的趋势和问题综述 本文探讨了过去两年学术图书馆中的热门话题和问题。它借鉴了来自图书馆界的研究和倡议,突显了图书馆面临的不断变化。ChatGPT的推出引发了关于人工智能潜在影响的讨论,开放获取和开放科学的倡议继续获得势头,而COVID-19对图书馆工作空间和学生福祉的持续影响仍然显著。丰富的文献引用提供了进一https://wap.sciencenet.cn/home.php?mod=space&uid=3316383&do=blog&id=1437974