万字长文:预训练词向量模型的方法应用场景变体延伸与实践总结

当前工业界,主要使用的预训练模型包括两种,一种是以wordvec为代表的预训练词向量,另一种是以BERT为代表的预训练语言模型。前者通常作为词语表示输入的初始化,后接NN/CNN/LSTM等编码层,后者既可以同样后接,也可以直接接上softmax/crf/span-pointer等进行解码。

本文,主要围绕预训练词向量模型这一主题,对当前预训练词向量模型的常用方法、评估与应用方式、领域的迁移变体、当前开放的训练工具和词向量文件进行介绍,并以word2vec和fasttext为例,展示一个词向量训练的案例,做到理论与实践相结合。

自从进入2010年以来,神经语言模型就逐渐进入人们眼球,以NNLM为典型最初代表的神经网络模型,极大的推动了NLP这一领域的发展。

下面就选择其中三种典型进行介绍。

1、word2vec

word2vec是2013年Google开源的一款用于词向量计算的工具,通过内置的语言模型训练目标,可以将中间层得到的向量权重矩阵进行抽离,形成每个词对应的向量化表示,包括CBOW、Skip-gram两种方式,前者通过周围词来预测中心词,后者以中心词来预测上下文。

经典的wordvec结构包括输入层、隐藏层和输出层,其计算流程为:

1、输入层存储上下文单词的onehot。假设单词向量空间dim为V,上下文单词个数为C。

2、所有onehot分别乘以共享的输入权重矩阵W。V*N矩阵,N为自己设定的数,初始化权重矩阵W。

3、所得的向量相加求平均作为隐层向量,size为1*N。

4、乘以输出权重矩阵W'N*V。

5、得到向量1*V,经过激活函数处理得到V-dim概率分布。

6、HierarchicalSoftmax分类,概率最大的index所指示的单词为预测出的中间词与预测值的onehot做比较,根据误差更新权重矩阵。

这个W矩阵就是所有单词的wordembedding,任何一个单词的onehot乘以这个矩阵都将得到自己的词向量。

通常,在训练词向量时候,会根据语料的大小来选择相应的训练方法。例如,针对小型的数据集,可以用CBOW算法,该方法对于很多分布式信息进行了平滑处理,将一整段上下文信息视为一个单一观察量,对于小型的数据集,这一处理是有帮助的。相比之下,大型数据集,可以用Skip-Gram模型,该方法将每个“上下文-目标词汇”的组合视为一个新观察量,这种做法在大型数据集中会更为有效。

2、fasttext

fastText是Facebook于2016年开源的一个词向量计算和文本分类工具。将整篇文档的词及n-gram向量叠加平均得到文档向量,然后使用文档向量做softmax多分类。包括字符级n-gram特征的引入以及分层Softmax分类两种。

与CBOW一样,原本的fastText模型包括输入层、隐含层、输出层,输入都是多个经向量表示的单词,输出都是一个特定的目标,隐含层都是对多个词向量的叠加平均。不同的是,CBOW的输入是目标单词的上下文,fastText的输入是多个单词及其n-gram特征,这些特征用来表示单个文档,CBOW的输入单词被onehot编码过,fastText的输入特征是经embedding化的,CBOW的输出是目标词汇,fastText的输出是文档对应的类标。

而如果将该类标替换成中间目标词,那么就可以得到wordvec的升级版,即单纯的词向量模型。例如,word2vec把语料库中的每个单词当成原子的,它会为每个单词生成一个向量。这忽略了单词内部的形态特征。

fasttext使用了字符级别的n-grams来表示一个单词。对于单词“apple”,假设n的取值为3,则它的trigram有“”,其中,<表示前缀,>表示后缀。于是,我们可以用这些trigram来表示“apple”这个单词,进一步,可以用这5个trigram的向量叠加来表示“apple”的词向量。

因此,因为它们的n-gram可以和其它词共享,对于训练词库之外的单词,能够解决或者oov词,这也是在当前很多文本分类、推荐场景中会优先选用fastText作为训练方法。

3、Glove

GloVe是斯坦福团队于2014年提出一个词向量方法,全名叫“GlobalVectors”,直接利用全局的统计信息进行训练。

与上述两种方式靠滑动窗口来制造局部上下文不同,GloVe会用到全局的词语之间共现的统计信息,即词的出现次数,词对之间的共现概率,形成共现概率矩阵,并试图生成词向量来毕竟共现概率,利用Word2Vec的skip-gram算法的高性能来解决LDA的计算量复杂问题。

因此,我们可以发现,Glove需要事先统计共现概率,这也让其通常被认为是无监督学习,实际上glove还是有label的,即共现次数。与wordvec还有一处不同的是,损失函数是最小平方损失函数,权重可以做映射变换。

词向量模型的超参数很多,不同的参数选择会取得不同的效果,并且,word2vec中有几个大家提的比较多的问题。以gensim-word2vec为例,包括以下参数:

sentences:可以是一个list,对于大语料集,可使用BrownCorpus,Text8Corpus或LineSentence构建;

sg:用于设置训练算法,默认为0,对应CBOW算法;sg=1则采用skip-gram算法;

size:特征向量的维度,默认为100。大的size需要更多的训练数据,但是效果会更好.推荐值为几十到几百;

window:表示当前词与预测词在一个句子中的最大距离是多少;

alpha:学习速率;

seed:用于随机数发生器。与初始化词向量有关;

min_count:可以对字典做截断.词频少于min_count次数的单词会被丢弃掉,默认值为5;

max_vocab_size:设置词向量构建期间的RAM限制。如果所有独立单词个数超过这个,则就消除掉其中最不频繁的一个。每一千万个单词需要大约1GB的RAM。设置成None则没有限制;

sample:高频词汇的随机降采样的配置阈值,默认为1e-3,范围是(0,1e-5);workers参数控制训练的并行数;

hs:如果为1则会采用hierarchicalsoftmax技巧。如果设置为0(defaut),则negativesampling会被使用;

negative:如果>0,则会采用negativesamping,用于设置多少个noisewords;

cbow_mean:如果为0,则采用上下文词向量的和,如果为1(defaut)则采用均值。只有使用CBOW的时候才起作用;

hashfxn:hash函数来初始化权重。默认使用python的hash函数;

iter:迭代次数,默认为5;

trim_rule:用于设置词汇表的整理规则,指定那些单词要留下,哪些要被删除。可以设置为None(min_count会被使用)或者一个接受()并返回RUE_DISCARD,utis.RUE_KEEP或者utis.RUE_DEFAUT的函数;

sorted_vocab:如果为1(defaut),则在分配wordindex的时候会先对单词基于频率降序排序;

batch_words:每一批的传递给线程的单词的数量,默认为10000。

预训练词向量生产出来,需要进行性能的评估。这方面的方法包括基于评测集,或者基于具体业务使用,用业务的指标来进行评估。

1,预训练词向量的评估

学术上,词向量的质量通常由类比问题任务进行评估。如CA-translated包含了三个语义问题和134个中文词。CA8是专门为中文语言设计的。它包含了17813个类比问题,覆盖了综合的词法和语义关联。

工业,则使用词向量来代替之前随机生成的词向量文件,来对自然语言处理中的文本/情感分类、实体识别、关系抽取等任务进行评估。

2、预训练词向量的应用

预训练词向量文件最大的价值在于解决了一个词语的初始化稠密表示,在解决当前以数值化为输入的深度或机器学习模型第一部的同时,还保留了一个词的区别性特征。

另一方面,词向量可以用于当前无监督文本表示的重要方法,通过对文本进行分词,然后找到词语对应的向量,通过向量叠加的方式可以快速得到一个文本的向量表示,这一表示在诸如情感分析、句子相似度计算等任务中是实际有效的,基于文本表示,也可以进一步提升文本分类、聚类、相似query召回等使用场景性能,甚至很形象的成为了当前业务模型的baseline或者兜底模型。

共现信息,是cbow以及skipgram的基础,其本质在于通过周围词来建模中心词或者用中心词来建模周围词。因此,通过构造不同的共现信息,可以得到不同类型的向量形式。这里取了个名字叫gramembedding,用于表示专指文本的一系列embedding变体。

例如,对于一个词来说,我们可以把词拆分为词word、n元序列ngram、汉字character,偏旁部首Radical,词性POS,依存关系dependency、拼音pinying。

单元的共现,我们同样可以进行组合,例如,构造word-word,word-ngram、ngran-ngram等,得到上下文特征(单词、n-gram、字符等)等不同粒度的词向量。

观察近几年的发展,词向量可以进一步分成偏旁部首向量、字符向量等。如香侬科技推出的glyce向量,引入汉字的字形特征。蚂蚁金服推出的cw2vec字符向量,将汉字拆解成偏旁、字件进行建模。

当ngram中的n为1时,可以得到字向量,n为2或者更多时,则可以得到词向量等。fasttext中,就是得到了ngram的向量,并进行加和,得到一个OOV词语的向量进行表示。

例如,基于skigram,分别设定词向量的维度及其他超参数,可以得到字向量,拼音向量,词向量,词性向量,通过上下文共现与PCA降维的方法可以得到依存向量。

从下面的结果可以看出,词和字向量的效果看起来还不错。

2)拼音向量,从wo,guo的拼音相似拼音来看,我们可以看到,这种相似的拼音更像是一种搭配,很有意思,(词性参照jieba分词词性对照表)。

3)词性向量,从a,n的相似词性来看,也似乎更像是一种搭配现象,或许有更好的解释。

2、DomainEmbedding

为了更好的适配不同领域的任务,当前也有很多的公司或者任务会选择使用领域性的领域进行训练,以得到不同领域的词向量文件,这与当前各种领域的bert模型做法是类似的。当前出现了金融领域bert、法律领域的bert等。

代表性的,2018年推出的Chinese-Word-Vectors中提供了包含经过数十种用各领域语料(百度百科、维基百科、人民日报1947-2017、知乎、微博、文学、金融、古汉语等)训练的词向量,涵盖各领域,且包含多种训练设置。

又如,当前PaddleNLP官方提供了61种可直接加载的预训练词向量,训练自多领域中英文语料、如百度百科、新闻语料、微博等,覆盖多种经典词向量模型(word2vec、glove、fastText)、涵盖不同维度、不同语料库大小。

3、GraphEmbdding

经典的deepwalk以及node2vec也是借鉴word2vec思想,学习图节点嵌入的方法。并且成为当前推荐系统中的一个重量级使用方法。

1、Deepwalk

通过对图中的节点进行随机游走(主要考虑深度优先遍历),形成节点之间的游走序列,并将其作为上下文,后面接入skipgram形成节点向量,从构造上来看,就是首先利用randomwalk来表示图结构,然后利用skip-gram模型来更新学习节点表示。

随机选取与其邻接的下一个结点,直至达到给定长度,这个长度作为一个参数进行指定,这个类似于word2vec中的window_size上下文窗口。

2、node2vec

node2vec综合考虑了广度优先遍历(用于捕捉局部信息)和深度优先遍历(用于捕捉全局信息)的游走,提出二阶随机游走思想,解决内容相似和结构相似的问题。

前者具有直接链接关系的两个节点,我们可以认为是内容相似的(例如两个灰色网站之间很有可能能够直接跳转,如图中的s1,s2等一阶邻居)、结构相似(例如周围邻居数量都很类似,如图中的s6和u节点,两个都有4个邻接,结构类似)。

具体实现思路也很简单:

我们从节点v转移到节点t,并且当前在节点t时,需要考虑下一个采样节点x。因此,可以设计一个节点到它的不同邻居的转移概率:

其中,每一步采样都会有三种状态,分别对应于上图的0,1,2三种情况:

1)0代表如果t和x相等,那么采样的概率为1/p;

2)1代表t与x相连,采样的概率为1;

3)2代表t与x不相连,采样的概率为1/q

式子中的参数p作为返回参数,控制重新采样上一步已访问节点的概率。参数q,作为出入参数,控制采样的方向。

其中:

1)当q>1时,接下来采样的节点倾向于节点t,偏向于广度优先;

2)当q<1时,接下来采样的节点倾向于远离t,偏向于深度优先遍历。

3)当p>max(q,1)时,接下来采样的节点很大概率不是之前已访问节点,这一方法使得采样偏向深度优先;

4)当p

此外,在推荐场景中也有item2vec的类似延伸,例如协同过滤算法是建立在一个user-item的co-occurrence矩阵的基础上,通过行向量或列向量的相似性进行推荐。如果将同一个user购买的item视为一个context,就可以建立一个item-context的矩阵。进一步的,可以在这个矩阵上借鉴CBoW模型或Skip-gram模型计算出item的向量表达。

下面以gemsim中的wordvec和fasttext为例进行实践,大家可以看出其中的一些具体的步骤和结果。

1、构造训练语料

3、增量数据预训练

增量训练,主要解决在新的文本上进行训练,也可以引入一些新的词,但这个时候,需要考虑到min_count这一过滤条件。

1、全量数据训练

4、fasttext是如何解决oov问题的

通过对其源码进行阅读,可以发现fasttext针对OOV词的原始计算方式包括三个步骤,

1)抽取出每个词的N-grams;

2)与预先存好的n-grams词库进行匹配;

3)将匹配到的n-gram向量进行平均,实现如下:

实际上,词向量的发展也在一定程度上验证了当前nlp的进步。

由最开始的基于one-hot、tf-idf、textrank等的bag-of-words,到LSA(SVD)、pLSA、LDA的主题模型词向量,再到word2vec、fastText、glove为代表的固定表征,最后到当前elmo、GPT、bert为代表的基于词向量的动态表征,都说明了语义建模中的动态属性和文本语境的多样性。

不过,我们需要认识的是,在此类词向量中,虽然其本质仍然是语言模型,但是它的目标不是语言模型本身,而是词向量,其所作的一系列优化,其专注于词向量本身,因此做了许多优化来提高计算效率。

例如,与NNLM相比,word2vec将词向量直接sum,不再拼接,并舍弃隐层;考虑到sofmax归一化需要遍历整个词汇表,采用hierarchicalsoftmax和negativesampling进行优化,前者生成一颗带权路径最小的哈夫曼树,让高频词搜索路劲变小;后者对每一个样本中每一个词都进行负例采样。

最后,以当前一个新的观点来结尾:

参考文献

就职于360人工智能研究院、曾就职于中国科学院软件研究所。

THE END
1.创建并训练创建SFT任务注意:基础模型继承基准模型(全量更新所得)版本,所以当您选定基准模型后,基础模型及版本不可变更,支持选择SFT、DPO和KTO训练后的模型。由于大模型权重占用较大存储,只能选择三个月内训练的模型发起增量训练。 若基准模型有保存Checkpoint的最新的Step,则显示 【名称+版本+Step】。 您也可以选择直接不使用增量训练,这样https://cloud.baidu.com/doc/WENXINWORKSHOP/s/Oliu6n43o
2.用大模型优化大模型预训练数据,节省20倍计算量,实现显著性能提升在大模型研发过程中,数据质量是决定模型成功与否的关键因素之一,而大规模预训练数据则是构建强大语言模型的基础。业界的实践通常是抓取互联网上的海量的网页数据,然后由人类专家设计专门的规则来进行数据清洗,这些规则虽然能够在处理数千亿甚至上万亿 token 级别的语料时保持较高的效率,但其局限性也逐渐显现。数据的清洗https://www.bilibili.com/opus/993180336480321544
3.大模型目前可以增量训练吗?最近有一篇论文基于MoE来分门别类做预训练,然后使用一种叫做Branch-Train-MiX的方法进行合并,变相可以https://www.zhihu.com/question/649245889/answer/3436420019
4.断点续训练和增量训练AI开发平台ModelArts断点续训练是指因为某些原因(例如容错重启、资源抢占、作业卡死等)导致训练作业还未完成就被中断,下一次训练可以在上一次的训练基础上继续进行。这种方式对于需要长时间训练的模型而言比较友好。 增量训练是指增加新的训练数据到当前训练流程中,扩展当前模型的知识和能力。 https://support.huaweicloud.com/intl/zh-cn/develop-modelarts/develop-modelarts-0023.html
5.增量训练的训练过程深度学习mob64ca12ee66e3的技术博客增量训练在深度学习中的应用 引言 深度学习的快速发展意味着我们处理的数据量也在急剧增加。传统的训练方式往往需要从头开始训练模型,这在计算和时间上都是非常不高效的。增量训练(Incremental Training),也被称为在线训练(Online Training),是一种允许模型在已有知识基础上,随着新数据的加入逐步更新的训练方法。本文将深https://blog.51cto.com/u_16213423/12225384
6.机器学习之增量训练随着科技的不断发展,机器学习(Machine Learning)在各个领域都展现出强大的潜力。然而,传统的机器学习模型在面对不断变化的数据时往往表现不佳。为了应对这一挑战,增量训练技术逐渐成为机器学习领域的热门话题。本文将深入探讨机器学习增量训练技术的原理、优势以及应用场景。 https://www.clzg.cn/article/570990.html
7.基于增量预训练和对抗训练的文本匹配模型对此, Gururangan等人[14]设计了多个领域的分类任务, 进行领域自适应训练(DAPT). 实验表明, 对于特定任务可以用任务相关数据再对语言模型做二次预训练, 能有效提高模型性能; Gu等人[15]将这种训练方式总结出一个通用的范式, 即“预训练-领域增量训练-微调”. 本文在增量预训练时, 采用的掩码策略并非随机选取https://c-s-a.org.cn/html/2022/11/8778.html
8.一种基于增量特征的训练方法和系统与流程在存量样本中,根据样本增量特征训练神经网络模型;如果样本增量特征不在存量样本中,基于样本增量特征生成类别增量模型;将更新后的神经网络模型和类别增量模型组合,生成组合增量神经网络模型;将训练样本输入组合增量神经网络模型,以对组合增量神经网络模型进行训练。通过模型训练结果与诊断结果对比,生成纠错样本,通过纠错样本和新http://mip.xjishu.com/zhuanli/55/202210932977.html
9.基于条件随机场和增量学习词典的中文分词本文方法充分挖掘了训练语料中符合构词规则且多次出现的固定组合的信息,以解决中文分词中的跨越标记切分现象,并且对增量训练集进行主动学习,识别其中最有争议的小部分词语以修正语境迁移时的未登录词识别问题。首先利用全模式匹配过滤方法识别训练语料中固定搭配、反复出现且有意义的子串构建初始词典,利用初始词典分别对训练https://cdmd.cnki.com.cn/Article/CDMD-10070-1021572148.htm
10.深度解析增量学习:理论与应用增量学习主要表现在两个方面:一方面由于其无需保存历史数据,从而减少存储空间的占用;另一方面增量学习在当前的样本训练中充分利用了历史的训练结果,从而显著地减少了后续训练的时间。 增量学习主要有两方面的应用:一是用于数据库非常大的情形,例如Web日志记录;二是用于流数据,因为这些数据随着时间在不断的变化,例如股票https://blog.csdn.net/Losteng/article/details/51058026
11.chapter111.md·StarTogether/mlopsbook不同的更新方式当然也会带来不同的效果,例如全量更新,模型会利用某时间段内的所有训练样本进行重新训练,再用训练好的新模型替代老版本的模型,这样的训练方式需要的训练样本量、训练时间长、数据延迟长,但是样本的准确性最高。 对于在线学习,更新速度是最快的,是增量更新的进阶版,在每次获得一个新样本的时候就实时更https://api.gitee.com/StarTogether/mlops-book/blob/master/chapter-11-1.md
12.大疆教育平台增量训练任务指的是基于已有模型生成的预训练模型,增加数据集进行再次训练的过程。有以上两种方法创建增量训练任务。 增量训练一般情况下使用默认预训练模型继续训练即可,也可以在上图下拉列表中选择已有模型在2000步、4000步、6000步、8000步、最终形成的预训练模型的基础上进行训练,增量训练的数据集标签需与原模型的标签https://edu.dji.com/hub/docs?uuid=13f64464-f42d-47ea-abc5-b14c2c309de5&t=708
13.使用Merlin分层参数服务器扩展推荐系统推理增量训练更新 推荐模型有两种培训模式:离线和在线。在线培训将新的模型更新部署到实时生产中,对于推荐的有效性至关重要。HPS 雇佣无缝更新机制通过Apache Kafka– 基于消息缓冲区连接训练和推理节点,如图 5 所示。 图5. HugeCTR 推理在线更新机制 更新机制有助于 MLOps 工作流,支持在线/频繁以及离线/再培训更新,无需https://www.eet-china.com/mp/a159829.html
14.MindSpore官网此处评估容器检测到,由于增量后的模型在准确率评估上和运行中的模型比较未达到部署要求,Sedna并不会进行模型更新,直到新一轮增量训练满足部署要求。 03、随访 1.参与开源之夏 ospp:请简单介绍一下自己,并说一下自己的开源经历吧。 蒋磊:在接触开源之夏之前,我主要是在github上去了解和使用各大社区以及一些学生组织http://mindspore.cn/news/newschildren?id=2176
15.CVPR2017精彩论文解读:显著降低模型训练成本的主动增量学习在8 月 1 日的直播分享中,刘凯博士为大家解读了「Fine-tuning Convolutional Neural Networks for Biome?dical Image Analysis: Actively and Incrementally」(用于生物医学图像分析的精细调节卷积神经网络:主动的,增量的)这篇论文,它主要解决了一个深度学习中的重要问题:如何使用尽可能少的标注数据来训练一个https://www.leiphone.com/news/201708/43p2jv1EFxaa6kIC.html
16.Xgboost之增量学习Xgboost提供两种增量训练的方式,一种是在当前迭代树的基础上增加新树,原树不变;另一种是当前迭代树结构不变,重新计算叶节点权重,同时也可增加新树。 对于已存在的决策树,早期训练的实例决定了模型的结构(选择哪些特征及分裂点),后期的实例决定最终的结果(叶节点的权重和新加入的树)。 https://www.jianshu.com/p/0b6500029042
17.针对超临界翼型气动修型策略的强化学习③基 于流动结构对几何进行修型的策略更有物理基础,相关物理机制的引入使得策略更容易具有普适性,相比于基于数据库构建响应面会拥有更强的推广和迁移能力;④ 训练增量修型使用的策略和通过强化学习形成的策略都与设计师的设计经验直观对应,因此既可以便捷地利用设计师的经验来提高增量修型的效率,也可以通过强化学习等https://www.fx361.com/page/2021/0705/11490428.shtml
18.重磅发布!“伶荔”(Linly)开源百亿参数大规模中文语言模型Linly-Chinese-LLaMA:中文基础模型,基于LLaMA在高质量中文语料上增量训练强化中文语言能力,现已开放 7B、13B 和 33B 量级,65B正在训练中。 Linly-ChatFlow:中文对话模型,在400万指令数据集合上对中文基础模型指令精调,现已开放7B、13B对话模型。 Linly-ChatFlow-int4 :ChatFlow 4-bit量化版本,用于在CPU上部署模型推http://kjb.szu.edu.cn/info/1143/7031.htm
19.使用TensorFlowLite进行设备端训练本教程将向您展示如何构建一个 TensorFlow Lite 模型,该模型可以在已安装的 Android 应用中进行增量训练和改进。 注:设备端训练技术可以添加到现有的 TensorFlow Lite 实现中,前提是您的目标设备支持本地文件存储。 安装 本教程使用 Python 训练和转换 TensorFlow 模型,然后将其整合到 Android 应用中。从安装和导入以https://tensorflow.google.cn/lite/examples/on_device_training/overview?hl=zh-cn
20.神经网络有哪些快速增量学习算法?神经网络的快速增量学习算法是一种可以在不需要重新训练整个网络的情况下对其进行修改和更新的技术。这些算法对于处理实时数据和动态环境非常有用,并且可以大大降低计算成本和时间。以下是几种流行的神经网络快速增量学习算法: 增量学习(Incremental Learning):增量学习是指通过不断添加新的训练样本来扩充神经网络的能力。它https://www.cda.cn/bigdata/201736.html
21.TencentPretrain框架实战之训练中文领域模型通常,大模型在训练是会用到大量通用语料,其数据来源多种多样,既包括微博、社区评论、点评等用户生成数据,也包括新闻、论文等专业数据。但是具体到垂直领域时,即使模型具有该领域的基本知识,但由于领域数据只占通用数据等很小比例,模型仍面临知识匮乏的问题。需要对模型进行领域增量训练。 https://cloud.tencent.com/developer/article/2333481
22.增量学习机器之心通过使用增量学习的方式可以有效的利用新增数据来对模型进行训练和进一步完善。此外,通过使用增量学习的方法可以从系统层面上更好地理解和模仿人脑学习方式和生物神经网络的构成机制,为开发新计算模型和有效学习算法提供技术基础。 Contributor: Yilin Panhttps://www.jiqizhixin.com/graph/technologies/09134d6a-96cc-409b-86ef-18af25abf095
23.更加灵活经济高效的训练——新一代搜推广稀疏大模型训练范式GBA搜推广模型既需要高训练加速比回追数据的能力,也需要高并行的定性实验和日常增量训练的能力。主流搜推广稀疏大模型通常采用异步或同步的训练模式。在异步训练中,训练通常采用PS(Parameter server)架构并以高并发的方式执行,每个计算节点所需的资源量不大,可以利用阿里巴巴内部混部策略下的海量资源,适合定性实验和日常增量https://developer.aliyun.com/article/1135620