基于ChatGPTTrainingPipeline,融入领域增量知识,进行训练预训练,需要进行四阶段训练:
第一阶段:PT(ContinuePreTraining)增量预训练,在海量领域文档数据上二次预训练GPT模型,以注入领域知识第二阶段:SFT(SupervisedFine-tuning)有监督微调,构造指令微调数据集,在预训练模型基础上做指令精调,以对齐指令意图第三阶段:RM(RewardModel)奖励模型建模,构造人类偏好排序数据集,训练奖励模型,用来对齐人类偏好,主要是"HHH"原则,具体是"helpful,honest,harmless"第四阶段:RL(ReinforcementLearning)基于人类反馈的强化学习(RLHF),用奖励模型来训练SFT模型,生成模型使用奖励或惩罚来更新其策略,以便生成更高质量、更符合人类偏好的文本
TrainingPipeline
TrainingStage:
(1)模型大小9分:(2)Tokensize6分:模型包含知识的能力(3)各种官方测评10分:以中文测评为主(4)支持上下文长度3分:4K基本上都能满足要求(5)base7分:生态支持(6)测评排名7分:模型综合能力体现(7)开发难度3分:预训练代码是否开源,官方是否有多机多卡示例(8)可持续更新的前景8分:是否满足本公司的生态(9)基座公司实力:4分(10)github的star数量5分:模型受欢迎程度(11)语言2分:所选模型都支持中英文
(1)baichuan(2)Yi(3)TigerBot(4)XuanYuan-70B(5)Chinese-LLaMA-Alpaca、Chinese-LLaMA-Alpaca-2
(1)bloom(2)Yuan-2.0(3)BELLE
(1)ChatGLM(2)Qwen
今年7月,上海AI实验室联合多家机构发布“书生通用大模型体系”,包含三大基础模型及贯穿数据、预训练、微调、部署和评测五大环节的全链条工具体系。此次正式推出的OpenCompass,从评测角度进一步巩固了大模型创新的技术基石,以纯粹技术及中立视角为产学研界提供客观的大模型能力参考。
SUS-Chat-34B模型是南方科技大学联合IDEA研究院CCNL团队开源的通用大模型,2023-12-05在Huggingface的权威榜单上open_llm_leaderboard取得了同级别模型最好成绩。
SUS-Chat-34B是一个340亿参数规模的双语模型,基于01-ai/Yi-34B预训练模型通过数百万高质量、多语言的指令数据进行了微调。在保持基础模型强大的语言能力的同时,SUS-Chat-34B模型通过高质量指令微调改善了模型对人类指令的响应方式,并擅长通过思维链的方式模仿人类思考过程。与Yi-34B和Yi-34B-chat相比,它不仅在几乎所有基准测试中提升了性能,而且能够更好地满足了复杂多语言任务的实际需求。在指令微调阶段,我们加入了大量高质量长文本和多轮对话指令数据,将文本窗口从基础模型的4K扩展到8K。这种扩展有助于模型更有效地遵循多轮对话中的指令,显著减少在扩展对话和长文本理解中上下文丢失的问题。
SUS-Chat-34B模型具有以下亮点:
OrionStar-Yi-34B-Chat是猎户星空基于零一万物开源的Yi-34B模型,使用15W+的高质量语料训练而来微调大模型,旨在为大模型社区用户提供卓越的交互体验。
Yi系列模型是由零一万物团队开源的大模型,在多个权威的中文、英文及通用领域benchmark上取得不错的效果。今天我们推出的Orionstar-Yi-34B-Chat更进一步挖掘了Yi-34B的潜力。通过对大量高质量微调语料库的深度训练,Orionstar-Yi-34B-Chat在评估数据上表现出色,我们致力于将其打造成为ChatGPT领域中的杰出开源替代品!
第一版用了bloom,第二版用了llama,只是增量预训练的金融领域数据。最懂金融领域的开源大模型“轩辕”系列,继176B、70B之后推出更小参数版本——XuanYuan-13B。这一版本在保持强大功能的同时,采用了更小的参数配置,专注于提升在不同场景下的应用效果。我们将在之后继续推出XuanYuan-13B量化版本主要特点:
“以小搏大”的对话能力:在知识理解、创造、分析和对话能力上,可与千亿级别的模型相媲美金融领域专家:在预训练和微调阶段均融入大量金融数据,大幅提升金融领域专业能力。在金融知识理解、金融业务分析、金融内容创作、金融客服对话几大方面展示出远超一般通用模型的优异表现人类偏好对齐:通过人类反馈的强化学习(RLHF)训练,在通用领域和金融领域均与人类偏好进行对齐
还剩下两个:(1)Yi(2)yayi-30B从以下几个指标:基座模型选择指标看Yi完胜
可选的还剩下:(1)Yuan-2.0(50B)(2)DeepSeek(67B)、TigerBot(70B)、Qwen(74B)
英文:
1.MMLU:多任务语言理解:
“MeanMulti-LanguageUnderstanding”,中文意为“多语言理解均值(大规模多任务语言理解)是一种新的基准,旨在通过在zero-shot和few-shot设置中专门评估模型来衡量在预训练期间获得的知识。这使得基准更具挑战性,更类似于我们评估人类的方式。该基准涵盖STEM、人文科学、社会科学等57个科目。它的难度从初级到高级专业水平不等,它考验着世界知识和解决问题的能力。科目范围从传统领域,如数学和历史,到更专业的领域,如法律和道德。主题的粒度和广度使基准测试成为识别模型盲点的理想选择。MMLU是一个包含57个多选问答任务的英文评测数据集【多样性基准】,涵盖了初等数学、美国历史、计算机科学、法律等,难度覆盖高中水平到专家水平的人类知识,是目前主流的LLM评测数据集。
2、GSM8K:小学数学题
3、MATH
数据集包含12,500个数学问题(其中7500个属于训练集,5000个属于测试集),这些问题收集自AMC10、AMC12、AIME等数学竞赛。
**4、HumanEval数据集包括164个人工手写的编程问题,其中每个编程问题包括函数头、docstrings、函数体和几个unittests。HumanEval中的编程问题可以用来评估语言理解能力、推理能力、算法能力和简单的数学能力。整个设计是标准数答案,设定通过的checkpoint。aigc类的task是不是可以借鉴这样的思路去评测。**
5、MBPP数据集包含974个编程任务,人给出所需程序的描述,引导模型生成正确的代码。与HumanEval不一样的是,H主要是通过docString,而MBPP是通过description来生产,更加接近自然语言的instruction。
6、BBHBBH是一个挑战性任务Big-Bench的子集。Big-Bench目前包括204项任务。任务主题涉及语言学、儿童发展、数学、常识推理、生物学、物理学、社会偏见、软件开发等方面。
中文:1.CEval:学科知识评测集
测评结果:1.Yuan-2.0(102B)论文和官网都是用102B进行测评,比不过DeepSeek(67B)、TigerBot(70B)、Qwen(74B),先排除2.DeepSeek(67B)、TigerBot(70B)、Qwen(74B)三个排名,Qwen(74B)排名第一剩下:DeepSeek(67B)、TigerBot(70B)
DeepSeek:基座模型选择指标(1)模型大小5分:(2)Tokensize8分:模型包含知识的能力(3)官方排序4分:以中文测评为主(4)支持上下文长度3分:4K基本上都能满足要求(5)base1分:生态支持(llama?issue:22个)(6)测评排名4分:模型综合能力体现(7)开发难度2分:预训练代码是否开源,官方是否有多机多卡示例(8)可持续更新的前景3分:是否满足本公司的生态(9)基座公司实力:5分(幻方量化)(10)github的star数量3分:(909)模型受欢迎程度(11)语言2分:所选模型都支持中英文总分:40分
TigerBot:基座模型选择指标(1)模型大小5分:(2)Tokensize4分:模型包含知识的能力(3)官方排序8分:以中文测评为主(4)支持上下文长度3分:4K基本上都能满足要求(5)base5分:生态支持(llama;issue:116个)(6)测评排名6分:模型综合能力体现(7)开发难度3分:预训练代码是否开源,官方是否有多机多卡示例(8)可持续更新的前景5分:是否满足本公司的生态(9)基座公司实力:2分(虎博科技几十人)(10)github的star数量5分:(2.1k)模型受欢迎程度(11)语言2分:所选模型都支持中英文
总分:48分
虽然Llama2的预训练数据相对于第一代LLaMA扩大了一倍,但是中文预训练数据的比例依然非常少,仅占0.13%,