医疗大模型增量预训练的方法

基于ChatGPTTrainingPipeline,融入领域增量知识,进行训练预训练,需要进行四阶段训练:

第一阶段:PT(ContinuePreTraining)增量预训练,在海量领域文档数据上二次预训练GPT模型,以注入领域知识第二阶段:SFT(SupervisedFine-tuning)有监督微调,构造指令微调数据集,在预训练模型基础上做指令精调,以对齐指令意图第三阶段:RM(RewardModel)奖励模型建模,构造人类偏好排序数据集,训练奖励模型,用来对齐人类偏好,主要是"HHH"原则,具体是"helpful,honest,harmless"第四阶段:RL(ReinforcementLearning)基于人类反馈的强化学习(RLHF),用奖励模型来训练SFT模型,生成模型使用奖励或惩罚来更新其策略,以便生成更高质量、更符合人类偏好的文本

TrainingPipeline

TrainingStage:

(1)模型大小9分:(2)Tokensize6分:模型包含知识的能力(3)各种官方测评10分:以中文测评为主(4)支持上下文长度3分:4K基本上都能满足要求(5)base7分:生态支持(6)测评排名7分:模型综合能力体现(7)开发难度3分:预训练代码是否开源,官方是否有多机多卡示例(8)可持续更新的前景8分:是否满足本公司的生态(9)基座公司实力:4分(10)github的star数量5分:模型受欢迎程度(11)语言2分:所选模型都支持中英文

(1)baichuan(2)Yi(3)TigerBot(4)XuanYuan-70B(5)Chinese-LLaMA-Alpaca、Chinese-LLaMA-Alpaca-2

(1)bloom(2)Yuan-2.0(3)BELLE

(1)ChatGLM(2)Qwen

今年7月,上海AI实验室联合多家机构发布“书生通用大模型体系”,包含三大基础模型及贯穿数据、预训练、微调、部署和评测五大环节的全链条工具体系。此次正式推出的OpenCompass,从评测角度进一步巩固了大模型创新的技术基石,以纯粹技术及中立视角为产学研界提供客观的大模型能力参考。

SUS-Chat-34B模型是南方科技大学联合IDEA研究院CCNL团队开源的通用大模型,2023-12-05在Huggingface的权威榜单上open_llm_leaderboard取得了同级别模型最好成绩。

SUS-Chat-34B是一个340亿参数规模的双语模型,基于01-ai/Yi-34B预训练模型通过数百万高质量、多语言的指令数据进行了微调。在保持基础模型强大的语言能力的同时,SUS-Chat-34B模型通过高质量指令微调改善了模型对人类指令的响应方式,并擅长通过思维链的方式模仿人类思考过程。与Yi-34B和Yi-34B-chat相比,它不仅在几乎所有基准测试中提升了性能,而且能够更好地满足了复杂多语言任务的实际需求。在指令微调阶段,我们加入了大量高质量长文本和多轮对话指令数据,将文本窗口从基础模型的4K扩展到8K。这种扩展有助于模型更有效地遵循多轮对话中的指令,显著减少在扩展对话和长文本理解中上下文丢失的问题。

SUS-Chat-34B模型具有以下亮点:

OrionStar-Yi-34B-Chat是猎户星空基于零一万物开源的Yi-34B模型,使用15W+的高质量语料训练而来微调大模型,旨在为大模型社区用户提供卓越的交互体验。

Yi系列模型是由零一万物团队开源的大模型,在多个权威的中文、英文及通用领域benchmark上取得不错的效果。今天我们推出的Orionstar-Yi-34B-Chat更进一步挖掘了Yi-34B的潜力。通过对大量高质量微调语料库的深度训练,Orionstar-Yi-34B-Chat在评估数据上表现出色,我们致力于将其打造成为ChatGPT领域中的杰出开源替代品!

第一版用了bloom,第二版用了llama,只是增量预训练的金融领域数据。最懂金融领域的开源大模型“轩辕”系列,继176B、70B之后推出更小参数版本——XuanYuan-13B。这一版本在保持强大功能的同时,采用了更小的参数配置,专注于提升在不同场景下的应用效果。我们将在之后继续推出XuanYuan-13B量化版本主要特点:

“以小搏大”的对话能力:在知识理解、创造、分析和对话能力上,可与千亿级别的模型相媲美金融领域专家:在预训练和微调阶段均融入大量金融数据,大幅提升金融领域专业能力。在金融知识理解、金融业务分析、金融内容创作、金融客服对话几大方面展示出远超一般通用模型的优异表现人类偏好对齐:通过人类反馈的强化学习(RLHF)训练,在通用领域和金融领域均与人类偏好进行对齐

还剩下两个:(1)Yi(2)yayi-30B从以下几个指标:基座模型选择指标看Yi完胜

可选的还剩下:(1)Yuan-2.0(50B)(2)DeepSeek(67B)、TigerBot(70B)、Qwen(74B)

英文:

1.MMLU:多任务语言理解:

“MeanMulti-LanguageUnderstanding”,中文意为“多语言理解均值(大规模多任务语言理解)是一种新的基准,旨在通过在zero-shot和few-shot设置中专门评估模型来衡量在预训练期间获得的知识。这使得基准更具挑战性,更类似于我们评估人类的方式。该基准涵盖STEM、人文科学、社会科学等57个科目。它的难度从初级到高级专业水平不等,它考验着世界知识和解决问题的能力。科目范围从传统领域,如数学和历史,到更专业的领域,如法律和道德。主题的粒度和广度使基准测试成为识别模型盲点的理想选择。MMLU是一个包含57个多选问答任务的英文评测数据集【多样性基准】,涵盖了初等数学、美国历史、计算机科学、法律等,难度覆盖高中水平到专家水平的人类知识,是目前主流的LLM评测数据集。

2、GSM8K:小学数学题

3、MATH

数据集包含12,500个数学问题(其中7500个属于训练集,5000个属于测试集),这些问题收集自AMC10、AMC12、AIME等数学竞赛。

**4、HumanEval数据集包括164个人工手写的编程问题,其中每个编程问题包括函数头、docstrings、函数体和几个unittests。HumanEval中的编程问题可以用来评估语言理解能力、推理能力、算法能力和简单的数学能力。整个设计是标准数答案,设定通过的checkpoint。aigc类的task是不是可以借鉴这样的思路去评测。**

5、MBPP数据集包含974个编程任务,人给出所需程序的描述,引导模型生成正确的代码。与HumanEval不一样的是,H主要是通过docString,而MBPP是通过description来生产,更加接近自然语言的instruction。

6、BBHBBH是一个挑战性任务Big-Bench的子集。Big-Bench目前包括204项任务。任务主题涉及语言学、儿童发展、数学、常识推理、生物学、物理学、社会偏见、软件开发等方面。

中文:1.CEval:学科知识评测集

测评结果:1.Yuan-2.0(102B)论文和官网都是用102B进行测评,比不过DeepSeek(67B)、TigerBot(70B)、Qwen(74B),先排除2.DeepSeek(67B)、TigerBot(70B)、Qwen(74B)三个排名,Qwen(74B)排名第一剩下:DeepSeek(67B)、TigerBot(70B)

DeepSeek:基座模型选择指标(1)模型大小5分:(2)Tokensize8分:模型包含知识的能力(3)官方排序4分:以中文测评为主(4)支持上下文长度3分:4K基本上都能满足要求(5)base1分:生态支持(llama?issue:22个)(6)测评排名4分:模型综合能力体现(7)开发难度2分:预训练代码是否开源,官方是否有多机多卡示例(8)可持续更新的前景3分:是否满足本公司的生态(9)基座公司实力:5分(幻方量化)(10)github的star数量3分:(909)模型受欢迎程度(11)语言2分:所选模型都支持中英文总分:40分

TigerBot:基座模型选择指标(1)模型大小5分:(2)Tokensize4分:模型包含知识的能力(3)官方排序8分:以中文测评为主(4)支持上下文长度3分:4K基本上都能满足要求(5)base5分:生态支持(llama;issue:116个)(6)测评排名6分:模型综合能力体现(7)开发难度3分:预训练代码是否开源,官方是否有多机多卡示例(8)可持续更新的前景5分:是否满足本公司的生态(9)基座公司实力:2分(虎博科技几十人)(10)github的star数量5分:(2.1k)模型受欢迎程度(11)语言2分:所选模型都支持中英文

总分:48分

虽然Llama2的预训练数据相对于第一代LLaMA扩大了一倍,但是中文预训练数据的比例依然非常少,仅占0.13%,

THE END
1.创建并训练创建SFT任务注意:基础模型继承基准模型(全量更新所得)版本,所以当您选定基准模型后,基础模型及版本不可变更,支持选择SFT、DPO和KTO训练后的模型。由于大模型权重占用较大存储,只能选择三个月内训练的模型发起增量训练。 若基准模型有保存Checkpoint的最新的Step,则显示 【名称+版本+Step】。 您也可以选择直接不使用增量训练,这样https://cloud.baidu.com/doc/WENXINWORKSHOP/s/Oliu6n43o
2.用大模型优化大模型预训练数据,节省20倍计算量,实现显著性能提升在大模型研发过程中,数据质量是决定模型成功与否的关键因素之一,而大规模预训练数据则是构建强大语言模型的基础。业界的实践通常是抓取互联网上的海量的网页数据,然后由人类专家设计专门的规则来进行数据清洗,这些规则虽然能够在处理数千亿甚至上万亿 token 级别的语料时保持较高的效率,但其局限性也逐渐显现。数据的清洗https://www.bilibili.com/opus/993180336480321544
3.大模型目前可以增量训练吗?最近有一篇论文基于MoE来分门别类做预训练,然后使用一种叫做Branch-Train-MiX的方法进行合并,变相可以https://www.zhihu.com/question/649245889/answer/3436420019
4.断点续训练和增量训练AI开发平台ModelArts断点续训练是指因为某些原因(例如容错重启、资源抢占、作业卡死等)导致训练作业还未完成就被中断,下一次训练可以在上一次的训练基础上继续进行。这种方式对于需要长时间训练的模型而言比较友好。 增量训练是指增加新的训练数据到当前训练流程中,扩展当前模型的知识和能力。 https://support.huaweicloud.com/intl/zh-cn/develop-modelarts/develop-modelarts-0023.html
5.增量训练的训练过程深度学习mob64ca12ee66e3的技术博客增量训练在深度学习中的应用 引言 深度学习的快速发展意味着我们处理的数据量也在急剧增加。传统的训练方式往往需要从头开始训练模型,这在计算和时间上都是非常不高效的。增量训练(Incremental Training),也被称为在线训练(Online Training),是一种允许模型在已有知识基础上,随着新数据的加入逐步更新的训练方法。本文将深https://blog.51cto.com/u_16213423/12225384
6.机器学习之增量训练随着科技的不断发展,机器学习(Machine Learning)在各个领域都展现出强大的潜力。然而,传统的机器学习模型在面对不断变化的数据时往往表现不佳。为了应对这一挑战,增量训练技术逐渐成为机器学习领域的热门话题。本文将深入探讨机器学习增量训练技术的原理、优势以及应用场景。 https://www.clzg.cn/article/570990.html
7.基于增量预训练和对抗训练的文本匹配模型对此, Gururangan等人[14]设计了多个领域的分类任务, 进行领域自适应训练(DAPT). 实验表明, 对于特定任务可以用任务相关数据再对语言模型做二次预训练, 能有效提高模型性能; Gu等人[15]将这种训练方式总结出一个通用的范式, 即“预训练-领域增量训练-微调”. 本文在增量预训练时, 采用的掩码策略并非随机选取https://c-s-a.org.cn/html/2022/11/8778.html
8.一种基于增量特征的训练方法和系统与流程在存量样本中,根据样本增量特征训练神经网络模型;如果样本增量特征不在存量样本中,基于样本增量特征生成类别增量模型;将更新后的神经网络模型和类别增量模型组合,生成组合增量神经网络模型;将训练样本输入组合增量神经网络模型,以对组合增量神经网络模型进行训练。通过模型训练结果与诊断结果对比,生成纠错样本,通过纠错样本和新http://mip.xjishu.com/zhuanli/55/202210932977.html
9.基于条件随机场和增量学习词典的中文分词本文方法充分挖掘了训练语料中符合构词规则且多次出现的固定组合的信息,以解决中文分词中的跨越标记切分现象,并且对增量训练集进行主动学习,识别其中最有争议的小部分词语以修正语境迁移时的未登录词识别问题。首先利用全模式匹配过滤方法识别训练语料中固定搭配、反复出现且有意义的子串构建初始词典,利用初始词典分别对训练https://cdmd.cnki.com.cn/Article/CDMD-10070-1021572148.htm
10.深度解析增量学习:理论与应用增量学习主要表现在两个方面:一方面由于其无需保存历史数据,从而减少存储空间的占用;另一方面增量学习在当前的样本训练中充分利用了历史的训练结果,从而显著地减少了后续训练的时间。 增量学习主要有两方面的应用:一是用于数据库非常大的情形,例如Web日志记录;二是用于流数据,因为这些数据随着时间在不断的变化,例如股票https://blog.csdn.net/Losteng/article/details/51058026
11.chapter111.md·StarTogether/mlopsbook不同的更新方式当然也会带来不同的效果,例如全量更新,模型会利用某时间段内的所有训练样本进行重新训练,再用训练好的新模型替代老版本的模型,这样的训练方式需要的训练样本量、训练时间长、数据延迟长,但是样本的准确性最高。 对于在线学习,更新速度是最快的,是增量更新的进阶版,在每次获得一个新样本的时候就实时更https://api.gitee.com/StarTogether/mlops-book/blob/master/chapter-11-1.md
12.大疆教育平台增量训练任务指的是基于已有模型生成的预训练模型,增加数据集进行再次训练的过程。有以上两种方法创建增量训练任务。 增量训练一般情况下使用默认预训练模型继续训练即可,也可以在上图下拉列表中选择已有模型在2000步、4000步、6000步、8000步、最终形成的预训练模型的基础上进行训练,增量训练的数据集标签需与原模型的标签https://edu.dji.com/hub/docs?uuid=13f64464-f42d-47ea-abc5-b14c2c309de5&t=708
13.使用Merlin分层参数服务器扩展推荐系统推理增量训练更新 推荐模型有两种培训模式:离线和在线。在线培训将新的模型更新部署到实时生产中,对于推荐的有效性至关重要。HPS 雇佣无缝更新机制通过Apache Kafka– 基于消息缓冲区连接训练和推理节点,如图 5 所示。 图5. HugeCTR 推理在线更新机制 更新机制有助于 MLOps 工作流,支持在线/频繁以及离线/再培训更新,无需https://www.eet-china.com/mp/a159829.html
14.MindSpore官网此处评估容器检测到,由于增量后的模型在准确率评估上和运行中的模型比较未达到部署要求,Sedna并不会进行模型更新,直到新一轮增量训练满足部署要求。 03、随访 1.参与开源之夏 ospp:请简单介绍一下自己,并说一下自己的开源经历吧。 蒋磊:在接触开源之夏之前,我主要是在github上去了解和使用各大社区以及一些学生组织http://mindspore.cn/news/newschildren?id=2176
15.CVPR2017精彩论文解读:显著降低模型训练成本的主动增量学习在8 月 1 日的直播分享中,刘凯博士为大家解读了「Fine-tuning Convolutional Neural Networks for Biome?dical Image Analysis: Actively and Incrementally」(用于生物医学图像分析的精细调节卷积神经网络:主动的,增量的)这篇论文,它主要解决了一个深度学习中的重要问题:如何使用尽可能少的标注数据来训练一个https://www.leiphone.com/news/201708/43p2jv1EFxaa6kIC.html
16.Xgboost之增量学习Xgboost提供两种增量训练的方式,一种是在当前迭代树的基础上增加新树,原树不变;另一种是当前迭代树结构不变,重新计算叶节点权重,同时也可增加新树。 对于已存在的决策树,早期训练的实例决定了模型的结构(选择哪些特征及分裂点),后期的实例决定最终的结果(叶节点的权重和新加入的树)。 https://www.jianshu.com/p/0b6500029042
17.针对超临界翼型气动修型策略的强化学习③基 于流动结构对几何进行修型的策略更有物理基础,相关物理机制的引入使得策略更容易具有普适性,相比于基于数据库构建响应面会拥有更强的推广和迁移能力;④ 训练增量修型使用的策略和通过强化学习形成的策略都与设计师的设计经验直观对应,因此既可以便捷地利用设计师的经验来提高增量修型的效率,也可以通过强化学习等https://www.fx361.com/page/2021/0705/11490428.shtml
18.重磅发布!“伶荔”(Linly)开源百亿参数大规模中文语言模型Linly-Chinese-LLaMA:中文基础模型,基于LLaMA在高质量中文语料上增量训练强化中文语言能力,现已开放 7B、13B 和 33B 量级,65B正在训练中。 Linly-ChatFlow:中文对话模型,在400万指令数据集合上对中文基础模型指令精调,现已开放7B、13B对话模型。 Linly-ChatFlow-int4 :ChatFlow 4-bit量化版本,用于在CPU上部署模型推http://kjb.szu.edu.cn/info/1143/7031.htm
19.使用TensorFlowLite进行设备端训练本教程将向您展示如何构建一个 TensorFlow Lite 模型,该模型可以在已安装的 Android 应用中进行增量训练和改进。 注:设备端训练技术可以添加到现有的 TensorFlow Lite 实现中,前提是您的目标设备支持本地文件存储。 安装 本教程使用 Python 训练和转换 TensorFlow 模型,然后将其整合到 Android 应用中。从安装和导入以https://tensorflow.google.cn/lite/examples/on_device_training/overview?hl=zh-cn
20.神经网络有哪些快速增量学习算法?神经网络的快速增量学习算法是一种可以在不需要重新训练整个网络的情况下对其进行修改和更新的技术。这些算法对于处理实时数据和动态环境非常有用,并且可以大大降低计算成本和时间。以下是几种流行的神经网络快速增量学习算法: 增量学习(Incremental Learning):增量学习是指通过不断添加新的训练样本来扩充神经网络的能力。它https://www.cda.cn/bigdata/201736.html
21.TencentPretrain框架实战之训练中文领域模型通常,大模型在训练是会用到大量通用语料,其数据来源多种多样,既包括微博、社区评论、点评等用户生成数据,也包括新闻、论文等专业数据。但是具体到垂直领域时,即使模型具有该领域的基本知识,但由于领域数据只占通用数据等很小比例,模型仍面临知识匮乏的问题。需要对模型进行领域增量训练。 https://cloud.tencent.com/developer/article/2333481
22.增量学习机器之心通过使用增量学习的方式可以有效的利用新增数据来对模型进行训练和进一步完善。此外,通过使用增量学习的方法可以从系统层面上更好地理解和模仿人脑学习方式和生物神经网络的构成机制,为开发新计算模型和有效学习算法提供技术基础。 Contributor: Yilin Panhttps://www.jiqizhixin.com/graph/technologies/09134d6a-96cc-409b-86ef-18af25abf095
23.更加灵活经济高效的训练——新一代搜推广稀疏大模型训练范式GBA搜推广模型既需要高训练加速比回追数据的能力,也需要高并行的定性实验和日常增量训练的能力。主流搜推广稀疏大模型通常采用异步或同步的训练模式。在异步训练中,训练通常采用PS(Parameter server)架构并以高并发的方式执行,每个计算节点所需的资源量不大,可以利用阿里巴巴内部混部策略下的海量资源,适合定性实验和日常增量https://developer.aliyun.com/article/1135620