73页,开源「后训练」全流程!AI2发布高质量Tülu3系列模型,拉平闭源差距,比肩GPT4omini

只进行过「预训练」的模型是没办法直接使用的,存在输出有毒、危险信息的风险,也无法有效遵循人类指令,所以通常还需要进行后训练(post-train),如「指令微调」和「从人类反馈中学习」,以使模型为各种下游用例做好准备。

早期的后训练工作主要遵循InstructGPT等模型的标准方案,如指令调整(instructiontuning)和偏好微调(preferencefinetuning),不过后训练仍然充满玄学,比如在提升模型编码能力的同时,可能还会削弱模型写诗或遵循指令的能力,如何获得正确的「数据组合」和「超参数」,使模型在获得新知识的同时,而不失去其通用能力,仍然很棘手。

为了解决后训练难题,各大公司都提升了后训练方法的复杂性,包括多轮训练、人工数据加合成数据、多训练算法和目标等,以同时实现专业知识和通用功能,但这类方法大多闭源,而开源模型的性能又无法满足需求,在LMSYS的ChatBotArena上,前50名模型都没有发布其训练后数据。

最近,AllenInstituteforAI(AI2)发布了一系列完全开放、最先进的训练后模型Tülu3,以及所有数据、数据混合、配方、代码、基础设施和评估框架,其突破了训练后研究的界限,缩小了开源模型和闭源模型微调配方之间的性能差距。

模型训练算法包括有监督式微调(SFT)、直接偏好优化(DPO)以及可验证奖励强化学习(RLVR)

TüLU3基于Llama3.1的基础模型构建,其性能超越了Llama3.1-instruct、Qwen2.5、Mistral,甚至超越了如GPT-4o-mini和Claude3.5-Haiku等模型。

TüLU3的训练过程结合了强化学习的新算法、前沿的基础设施和严格的实验,构造数据,优化不同训练阶段的数据混合、方法和参数,主要包括四个阶段。

第一阶段:数据构造

第二阶段:监督微调(SFT)

研究人员在精心选择的提示和完成内容上执行监督式微调(SFT),首先确定了在使用Llama3.1模型训练在TüLU2数据集上作为基准时,哪些技能落后于最先进的模型,然后有针对性地收集高质量的公开数据集和合成数据集。

通过一个完善的实验,确定了最终SFT数据和训练超参数,以增强目标核心技能,同时不会显著影响其他技能的性能。

关键的数据实验包括:

1.多样化的聊天数据:主要来自WildChat,如果移除该数据集,可以看到大多数技能都有小幅但明显的下降,尤其是在AlpacaEval上,凸显了「多样化真实世界数据」的重要性。

2.安全性是独立的:移除特定安全数据集后,可以看到大多数技能的结果大致保持不变;添加对比提示,如CoCoNot,有助于防止模型过度拒绝安全提示。

3.新的PersonaData,主要针对数学、编程和指令遵循进行构建,移除后,HumanEval(+)、GSM8K、MATH和IFEval的性能都会显著下降。

5.智能体训练数据的数量,可以发现,在不断增加数据集规模时,模型平均性能持续提高,增加到完整混合数据集后,GSM8K等指标上的性能大幅提升,但TruthfulQA的性能下降了。

第三阶段:偏好调整

研究人员主要使用直接偏好优化(DPO),针对新构造的、基于策略的合成偏好数据,以及从选定提示中获得的离策略数据。与SFT阶段一样,我们通过彻底的实验确定了最佳的偏好数据混合,揭示了哪些数据格式、方法或超参数能带来改进。

在TüLU3项目中,研究人员探索了多种偏好微调方法,目标是提升整个评估套件的性能;并研究了多种训练算法,从直接偏好优化(DPO)及其衍生算法到强化学习算法,比如近端策略优化(PPO)。

研究人员通过改进和扩展UltraFeedback流程,从提示中创建了策略内偏好数据(包括输入、两个输出选项和标签),使用大型语言模型(LLM)作为裁判,构造「偏好的、被拒绝的」数据对,主要包括三个阶段:

1.提示选择

2.生成回复

对于给定的提示,从模型池中随机抽取四个模型来生成回复,再通过从TüLUSFT模型中抽样完成情况来包括策略内数据。其中一个回应是由策略内模型生成的,另一个回应是由策略外模型生成的。

3.偏好标注

在为每个提示生成四个回复后,使用一个大型语言模型(LLM)作为裁判(GPT-4o-2024-0806),然后根据四个不同的方面(有帮助性、遵循指令、诚实性和真实性)对每个回复从1到5进行评分。

第四阶段:可验证奖励的强化学习

研究人员引入了一种名为可验证奖励强化学习(RLVR)的新型方法,用于训练语言模型完成具有可验证结果的任务,比如数学问题解决和指令遵循。

RLVR基于现有的强化学习人类反馈(RLHF)目标,但将奖励模型替换为验证函数,当应用于具有可验证答案的领域,其在GSM8K等基准测试上显示出针对性的改进,同时还能保持其他任务的性能。

RLVR可以看作是现有引导语言模型推理的方法的简化形式,或者是一种更简单的强化学习形式,其中使用答案匹配或约束验证作为二元信号来训练模型。

RLVR数据主要包括两个领域(数学、精确指令遵循),评估数据集为GSM8k,MATH和IFEval

为了提升效率,RLVR的实现细节主要包括:

1.用通用奖励模型来初始化价值模型;

2.禁用dropout,在奖励模型和强化学习训练期间,将dropout概率设置为0,确保在策略模型和参考模型的前向传递过程中,token的对数概率可以确定性地计算,从而更准确地估计KL惩罚。此外,PPO在滚动阶段和学习阶段计算token的对数概率,重要的是要确保这两个阶段的token对数概率相匹配,如果使用dropout,对数概率差异会很大,导致裁剪后梯度为零。

3.使用智能体训练数据集并在周期之间随机,PPO可以训练的周期数超过可用提示的总数,有效地进行多个周期的训练。在我们的RLVR消融实验中,我们大约训练了13个周期。我们在周期之间对提示进行洗牌。对于我们的最终运行,我们每40-100步检查一次模型检查点,并选择在我们开发评估集上表现最佳的检查点。

4.非序列结束(EOS)惩罚:在训练期间,PPO通常采样固定数量的最大token。如果采样的回复没有以EOStoken结束,给予-10的惩罚。

5.优势归一化:过减去均值然后除以其标准差来归一化优势(advantages)。

研究人员首先将一个直接偏好优化(DPO)模型作为初始模型,然后进行了一系列消融实验:

2.价值模型初始化消融实验。尝试从一个通用奖励模型和锚定的DPO模型初始化PPO的价值模型,并在GSM8K任务上遍历一系列beta值。通用奖励模型是使用UltraFeedback数据集训练的。在评估时,检查GSM8K测试评估得分和所有评估的平均得分。

3.从奖励模型得分的消融实验。在奖励模型的得分基础上增加可验证的奖励,并在GSM8K任务上使用了一系列beta值进行实验。

4.从性能较弱的模型开始。模型的基础能力也是一个干扰因素,使用平均得分较低的SFT模型进行另一组实验。

TüLU3评估

在后续训练方法中,建立清晰的性能目标和评估工具非常关键。

研究人员发布了一个统一的标准化评估套件和一个工具包,以指导开发和评估最终模型,并对训练数据进行净化,以符合评估基准,主要目标包括:

1.评估过程应该是可复现的;

2.应该评估模型对未见任务的泛化能力,而不仅仅是我们用于开发的特定基准测试。

3.评估设置(例如,提示的模板和策略)对各种模型公平。

开放语言模型评估系统(OLMES)

为了使评估更加标准化和可复现,研究人员开源了OpenLanguageModelEvaluationSystem,其支持更广泛的模型集合和任务、可以对每个任务进行灵活配置、直接访问任务描述、分析模型预测、置信度等的详细实例级的数据。

比如说,要复现Llama-3.1-8B-Instruct在MMLU-Pro上的结果,只需简单运行类似「olmes–taskmmlu_pro::tulu3–modelllama3.1-8b-instruct」的命令。

THE END
1.深度学习平台(SINGA)4.高性能:SINGA采用C++作为核心开发语言,并结合Python、C、CUDA等语言,以实现高效的跨平台运行能力。它利用GPU加速器优化深度学习运算,提升训练速度,同时其内存优化机制也有助于提高训练效率。 5.模型动物园:在Github和Google Colab上的SINGA仓库中提供了各种特定领域的深度学习模型,如医疗保健和科学等领域的模型,方便https://blog.csdn.net/weixin_43156294/article/details/144281329
2.使用新的开源跨学科数据集训练AI人工智能模型像科学家那样思考完整的数据集可从Flatiron研究所免费下载,并可在托管AI模型和数据集的平台Hugging Face上访问。Polymathic AI团队在两篇论文中 https://nips.cc/virtual/2024/poster/97791 提供了有关数据集的更多信息,这两篇论文已被接受在12月于加拿大温哥华举行的顶级机器学习会议NeurIPS https://neurips.cc 上发表。 https://www.thepaper.cn/newsDetail_forward_29579848
3.深度学习平台——百度AIStudio线上构建51CTO博客针对AI学习者的在线一体化学习与实训社区. 本平台集合了AI教程, 深度学习样例工程, 各领域的经典数据集, 云端的超强运算及存储资源, 以及比赛平台和社区.从而解决学习者在AI学习过程中的一系列难题, 例如教程水平不一, 教程和样例代码难以衔接, 高质量的数据集不易获得, 以及本地难以使用大体量数据集进行模型训练.https://blog.51cto.com/u_13643065/6169255
4.飞桨PaddlePaddle飞桨致力于让深度学习技术的创新与应用更简单。具有以下特点:同时支持动态图和静态图,兼顾灵活性和效率;精选应用效果最佳算法模型并提供官方支持;真正源于产业实践,提供业界最强的超大规模并行深度学习能力;推理引擎一体化设计,提供训练到多端推理的无缝对接;唯一提https://www.paddlepaddle.org.cn/hub/scene/ocr
5.金电联行Ark(方舟)平台深度学习模型训练软件免费在线试用金电联行-Ark(方舟)平台深度学习模型训练软件页面为您介绍金电联行-Ark(方舟)平台功能介绍以及产品定价、行业案例、文章点评等相关信息,便于您更快速的了解金电联行-Ark(方舟)平台深度学习模型训练软件。https://www.36dianping.com/space/5875360113
6.LintCode(802.11ax) 4×4 MU-MIMO 6GHz QCN9074 Single Band Wireless Module shell 深度学习 算法 一次遍历 大数据 lambda函数 Library Access modifiers python 《三分快3平台app推荐下载》搜狗百科 不排序 Metadata Algorithm Interview prim BZIClaw LCA 物联网 量化投资 classification 知识图谱 Modules & Packages https://www.lintcode.com/tag/
7.关于发布可解释可通用的下一代人工智能方法重大研究计划2022通过规则与学习结合的方式,建立高精度、可解释、可通用且不依赖大量标注数据的人工智能新方法。开发下一代人工智能方法需要的数据库和模型训练平台,完善下一代人工智能方法驱动的基础设施。 (三)面向科学领域的下一代人工智能方法的应用 发展新物理模型和算法,建设开源科学数据库、知识库、物理模型库和算法库,推动人工https://www.ncsti.gov.cn/kcfw/xmsb/202205/t20220518_79110.html
8.cubestudio开源云原生一站式机器学习/深度学习/大模型AI平台cube studio开源云原生一站式机器学习/深度学习/大模型AI平台,支持sso登录,多租户,大数据平台对接,notebook在线开发,拖拉拽任务流pipeline编排,多机多卡分布式训练,超参搜索,推理服务VGPU,边缘计算,serverless,标注平台,自动化标注,数据集管理,大模型微调,vlhttps://github.com/HutCat/cube-studio
9.2020届计算机科学方向毕业设计(论文)阶段性汇报复现了业界领先的基于深度学习的跨年龄人脸识别模型并在少量测试数据集上做了数值上的检验和对比。 张哲恺 图排序的硬件加速器设计 Gorder图排序算法的简单介绍,硬件加速Gorder的基本思路,模拟实验结果。 蒋泽天 多图的批量协同匹配与在线增量式匹配方法第一阶段工作汇报 https://zhiyuan.sjtu.edu.cn/html/zhiyuan/announcement_view.php?id=3709
10.货拉拉一站式云原生AI平台建设实践数据工程模型训练在线服务数据工程、模型训练、在线服务是机器学习技术实现的三驾马车,这个流程中处理的数据量大,计算量大、训练框架和版本多样、底层依赖复杂,资源算力管理,需要人工介入解决很多问题,给AI落地带来了比较困难。针对这一系列的问题,货拉拉大数据智能平台组从2020年开始就在探索提供一套完整的云原生的一站式AI解决方案,并从那时起https://juejin.cn/post/7213636024101765181
11.深度学习模型在线训练排序策略离线排序模型华为云帮助中心为你分享云计算行业信息,包含产品介绍、用户指南、开发指南、最佳实践和常见问题等文档,方便快速查找定位问题与能力成长,并提供相关资料和解决方案。本页面关键词:深度学习模型 在线训练。https://support.huaweicloud.com/topic/985668-2-S
12.三维一体教育平台—三人行,必有我师学校教育、家庭协助、社会关注,最大限度共享教育资源;在线考试,试题上传,海量试题搜索;试题库拥有丰富的试题;是一个全国各种学历考试,资格认证考试的全真在线模拟考试网站,提供自动阅卷评分以及试题解析等多功能服务,是各类考生考前辅导学习的练兵必备工具https://www.ch3dedu.com/wiki/search.jsp?ct=FB15144199320FA8CE71ECBE824E261E
13.学堂在线学堂在线是清华大学于2013年10月发起建立的慕课平台,是教育部在线教育研究中心的研究交流和成果应用平台,是国家2016年首批双创示范基地项目,是中国高等教育学会产教融合研究分会副秘书长单位,也是联合国教科文组织(UNESCO)国际工程教育中心(ICEE)的在线教育平台。目http://xuetangx.com/
14.TinyMaix:超轻量级推理框架八、使用Maixhub 在线训练模型# TODO 九、怎样添加新平台的加速代码# TinyMaix 使用基础的点积函数加速卷积运算 你需要在 src 里添加 arch_xxx_yyy.h, 并添上你自己平台的点积加速函数: TM_INLINE void tm_dot_prod(mtype_t* sptr, mtype_t* kptr,uint32_t size, sumtype_t* result); Copy 十、贡http://en.wiki.sipeed.com/news/others/tinymaix_cnx/tinymaix_cnx.html
15.LLM:预训练+指令微调+对齐+融合多模态+链接外部系统为了进一步提高LLM在未见任务上的指令泛化能力,即Zero-Shot能力,需要在自然语言众包指令数据上微调预训练模型,参考论文FLAN 。微调数据集来自于通用的NLP基准集,通过指令模板改造输入输出的格式得到CoT和非CoT任务的指令数据集,见下图。微调后可以显著提高在各种模型类(PaLM、T5、U-PaLM)、各种学习样例设置(Zero-Shot、https://www.shangyexinzhi.com/article/10160427.html
16.日本最高设计奖GOODDESIGNAWARD2021百件获奖作品精彩出炉本产品对需要经验积累的手动作业进行了充分支援,并合理利用AI和深度学习提高工作流程的效率,减轻医生负担,提高治疗效果。 33、细胞冷冻保存包 CellQua series将机器人作为媒介,将咖啡馆作为平台,帮助残疾人自食其力,和消费者、企业以及社会建立真正的联系。 94、咖啡豆在线平台 TYPICA https://www.digitaling.com/articles/621312.html
17.新国人,中小学生在线学习平台新国人专注K12教育20年,积累了丰富的教学经验和名师专家资源、视频课程资源,结合教育大数据分析、人工智能核心技术,精心打造新国人在线学习平台,为全国中小学生提供学习问题诊断,制定个性化教育解决方案服务.http://www.xinguoren.cn/
18.算法服务平台算法模型服务平台是一个面向企业用户的数字化服务平台,旨在为用户提供高效、先进的算法模型。它以数据为核心,利用机器学习、深度学习等前沿技术,为用户提供行业定制化的算法模型解决方案。 应用场景 用户情感分析 使用情感分析模型,对文本进行情感分析,用于市场调研,客户服务和社交媒体监测。 https://wakedata.com/wakeAI.html
19.深度学习计算机视觉实战畅想中心数据平台在线试读 下载 注:如果您的电脑尚未安装PC客户端,请先 安装客户端 后再下载阅读!手机扫描阅读此书 支持(Android/Iphone) 简介 目录 评论 简介 本书内容可分为四个部分。第一部分包括第1-2章,主要讲解深度学习和计算机视觉基础;第二部分包括第3-6章,主要讲解图像处理知识;第三部分包括第7-11章,主要讲解计算机https://www.cxstar.com/Book/Detail?ruid=2a4ec7b2000111XXXX&packageruid=25f8e7ac012727XXXX
20.深度学习平台DeepLearningCaffe深度学习平台 Deep Learning on QingCloud 基于强劲的 GPU 计算资源,搭载多个主流深度学习框架,可极速搭建深度学习开发环境,全面提速 AI 应用开发。https://www.qingcloud.com/products/deeplearning/
21.汇量科技利用AWS打造一站式大数据机器学习平台,日均高效处理1000汇量科技利用Amazon Web Services(AWS)云服务打造的一站式大数据机器学习平台,日均高效处理1000亿次线上预测,数倍提升线上变现价值。汇量科技是全球卓越的技术平台服务商,凭借全球化网络和本地化服务的能力,为60多个国家的2000多个活跃应用开发者提供从获客到变现的全栈http://aws.amazon.com/cn/solutions/case-studies/mobvista-machine-learning/
22.《大学生创新创业》课程思政示范课程优秀案例3.4建设在线教学资源拓展平台。基于互联共享的创新创业教学实践平台设置在线学习拓展任务,配套创新创业课程案例、创新创业训练手册、历年创新创业大赛项目案例集、视频、创业计划书、项目路演PPT等资源,强化学生创新和行为互动。 3.5通过雨课堂推送每个知识点设置的训练任务,在线培养创业项目实践能力。 https://www.xjbyxy.cn/info/1159/5308.htm