LLM时代下Embedding模型如何重塑检索增强生成本文正在参加金石计划附加挑战赛——第一期命题Embeddin

Embedding模型作为RAG中检索召回的重要一环,扮演着极其关键的角色,直接影响到信息检索的效果和生成文本的质量。更加准确的Embedding模型在抑制模型幻觉、提升封闭领域回答能力等方面都能发挥优势。

为了解决传统机器学习文本处理中的维度灾难和特征语义信息捕捉不足的问题,研究者们提出了许多新的Embedding模型,它可以将高维度的数据转化为低维度的嵌入空间,并保留原始数据的特征和语义信息,从而提高模型的效率和准确性。

C-MTEB是由北京智源研究院发布的最大规模、最为全面的中文语义向量表征能力评测基准,包含分类、聚类、句对分类、重排、检索和句子相似度六大类评测任务和31个数据集。

注:空白处为数据尚未公布或更新

虽然我们可以通过MTEB排行榜对比不同向量模型的差异,但也只能作为一个参考,这些模型在公开数据集上的benchmark在垂直领域、企业自身的业务领域不一定成立,具体选择哪个向量模型还需结合业务特点进行综合比较、权衡。

GTE(GeneralTextEmbedding)系列模型是由通义实验室开源的一系列通用文本表征和分析模型,它们专为RAG(检索增强生成)等检索场景设计,以提供先进的文本表征和排序功能。该系列包括基于BERT架构的模型以及基于QwenLLM系列训练的大型语言模型(LLM)嵌入模型,例如gte-Qwen2-1.5B-instruct和gte-Qwen2-7B-instruct。目前,基于双向注意力机制的Encoder-only结构模型,在召回和排序效果上,相较于Decoder-only模型显示出明显的性能优势。

尽管如此,现有的基于Encoder-only的Embedding和Ranking模型仍然面临一些源自BERT时代的挑战,例如最长上下文长度限制为512个token,以及预训练阶段使用的语料库规模不足。为了克服这些问题,GTE模型的开发团队从零开始,训练了一种新的Encoder-only基础模型,该模型能够支持更长的上下文和多语言处理。在此基础上,他们推出了最新版本的GTE-Multilingual系列模型,简称为mGTE模型。这些模型旨在提供更强大的多语言支持和更长上下文的处理能力,以满足现代NLP任务的需求。

gte-Qwen2-7B-instruct模型是基于Qwen2-7BLLM模型训练的,整合了双向注意力机制,增强了模型对上下文的理解能力;模型仅在查询侧进行指令微调,这种针对性的微调提高了模型在特定任务上的效率和性能;模型在包含多种语言的大型文本语料库上进行训练,这使得模型能够适用于多种语言和多种下游任务。

商汤自研的通用Embedding模型Piccolo2目前支持512/2K/8K三种向量长度,其中8K模型是目前(2024.6.12)中文Embedding中能够实现对标OpenAI向量长度的模型。无论是应对幻觉和可解释性,还是应对长文,Piccolo2加持的商汤日日新5.0都完美地完成了从长文中处理和获取信息的任务。相比之前同量级的SOTA模型acge-embedding,Piccolo2模型综合评分提升了约1.9个点。

受到OpenAI的text-embedding-v3的启发,商汤在研发Piccolo2时,也扩大了Embedding的维度尺寸,从1024增加到1792。

与上一代(Piccolo)相比,Piccolo2主要利用高效的多任务混合损失训练方法,有效地利用来自不同下游任务的文本数据和标签。同时,Piccolo2扩大了嵌入维度,并使用MRL训练来支持更灵活的向量维度。除了训练方法之外,Piccolo2还利用了一个数据合成框架和难负挖掘方法,以不断扩充数据集的数量和质量。

合合信息的acge模型在设计上充分考虑了实际应用的需求。与目前C-MTEB榜单上其他的开源模型相比,acge模型在保持高性能的同时,具有更小的模型体积和更低的资源占用,且模型输入文本长度为1024,使其更适用于实际生产环境。此外,模型支持的可变输出维度功能,使得企业可以根据具体场景灵活调整资源分配,进一步优化应用效果。

值得一提的是,acge模型不仅在传统文本处理任务中表现出色,还能在不同场景下构建通用分类模型,提升长文档信息抽取精度,为大模型在多个行业中的快速应用提供了有力支持。这一特性使得acge模型在帮助企业实现数字化转型、提升业务效率等方面具有广阔的应用前景。

BGE系列的技术亮点:

Dmeta-embedding是一款跨领域、跨任务、开箱即用的中文Embedding模型,适用于搜索、问答、智能客服、LLM+RAG等各种业务场景,支持使用Transformers/Sentence-Transformers/Langchain等工具加载推理。优势特点如下:多任务、场景泛化性能优异,模型参数大小仅400MB,对比参数量超过GB级模型,可以极大降低推理成本支持上下文窗口长度达到1024,对于长文本检索、RAG等场景更适配。

OpenAI的embedding模型如text-embedding-ada-002,通过将五个独立的模型(文本相似性、文本搜索-查询、文本搜索-文档、代码搜索-文本和代码搜索-代码)合并为一个新的模型,在长文本搜索、文本相似性和代码搜索等任务上表现出色,它支持8191tokens的输入长度。不过,OpenAIEmbedding并不是免费的,而是根据token数量来收费,这可能会增加一定的使用成本。

第二章已经列出各个向量模型在支持序列长度、向量维度等方面的差异以及在检索和重排任务上的性能比较。下面列出一些关键的考量点:

纯参数化语言模型(LLM)将从大量语料库中获取的世界知识存储在模型的参数中。本身有以下的局限性:

THE END
1.机器学习进阶之路:集成学习带你走向巅峰集成学习是机器学习中的一个重要分支,集成学习即ensemble learning,它是一种利用样本数据训练多个不同的弱分类器,然后将这些弱分类器整合成一个强大分类器的机器学习方法。 集成学习的基本结构为:先产生一组个体学习器,再使用某种策略将它们结合在一起。集成模型如下https://mp.weixin.qq.com/s?__biz=MzUyODk0Njc1NQ==&mid=2247487379&idx=1&sn=099ff6e3a0832f2ff621d278512090c7&chksm=fb3770b9b25665ea991215c83d7a2fed53a08b81f08830897340688306517071cfc392e193fc&scene=27
2.eelement有什么优势mob6454cc69d373的技术博客所谓E-Learning,简单地说,就是在线学习或网络化学习,即在教育领域建立互联网平台,学生通过PC上网,通过网络进行学习的一种全新的学习方式。当然,这种学习方式离不开由多媒体网络学习资源、网上学习社区及网络技术平台构成的全新的网络学习环境。在网络学习环境中,汇集了大量数据、档案资料、程序、教学软件、兴趣讨论组、https://blog.51cto.com/u_16099224/11632875
3.在线学习Elearning作为企业的一种培训手段优缺点是什么?作为公司的一名培训师,培训本来是公司给予员工的福利,但是员工似乎并不买账,反而当做一项不得不去完成的任务 ,一副苦大仇深的样子去参加培训。在线培训课程就放在网络上,但是究竟员工学习了没有?学到什么程度?有什么效果?我一概 无法监控。一顿小皮锤 2022-12-28 17:02:27相关https://edu.iask.sina.com.cn/jy/hYR5PNq0Xx.html
4.U校园智慧教学云平台和新为ELearning哪个好有什么区别U校园智慧教学云平台和新为E-Learning对比页面从功能、价格、点评为您详细介绍了U校园智慧教学云平台和新为E-Learning哪个好,好用,区别,对比,优缺点,便于您更好的了解产品。https://www.36dianping.com/vs/g4yk.html
5.总结了九种机器学习集成分类算法(原理+代码)导读:本文是分类分析(基于Python实现五大常用分类算法(原理+代码))第二部分,继续沿用第一部分的数据。会总结性介绍集成分类算法原理及应用,模型调参数将不在本次讨论范围内。这里没有高深的理论,但足以应对面试或简单场景应用,希望对你有所帮助。 集成算法(Emseble Learning)是构建多个学习器,然后通过一定策略结合把https://cloud.tencent.com/developer/article/1861382
6.eLearning是什么ーe此页面将简洁明了地为您介绍e-Learning(在线学习)的相关信息,包括基本说明、近年的流行趋势和成功案例。如果您正在讨论引进e-Learning进行员工培训,希望这些e-Learning(在线学习)的基础知识可以为您提供一定参考。 1. 到底什么是e-Learning? e-Learning(在线学习)中的“e”是英文“electric”,意思是“电子的”。这https://www.sh-lightworks.cn/column/7627
7.网络学院组织化学习西安内训西安拓展落实E解决方案是什么,各有什么优缺点,他希望得到什么样的支持,优化后能达到什么效果。 比如销售主管来找你,建议运营部门提升线索的质量。 他已经结合销售数据,从过程指标和关键指标的维度,复盘销售流程SOP、话术、培训、辅导。 结论是线索数量虽然多,但质量不高,转化率逐月降低,而且同类线索,在同一个销售手里,转化率逐月http://www.xatbc.com/show.asp?thex=1512&Cla=86&Ncla=67
8.GitHub马尔科夫决策过程之最优价值函数与最优策略 条件随机场(CRF, 判别式模型) 如何轻松愉快地理解条件随机场 如何用简单易懂的例子解释条件随机场(CRF)模型?它和HMM有什么区别? HMM ,MHMM,CRF 优缺点与区别 降维算法 数据降维算法-从PCA到LargeVis 主成分分析(PCA) https://github.com/neaueema/DeepLearning
9.2024年互联网教育市澈争与发展趋势图表17 美国企业e-learning发展阶段 C 图表18 互联网教育行业价值链分析 i 图表19 互联网教育和传统教育的差别 r 图表20 三方合作的在线教育应用股份结构 . 图表21 2018-2023年我国互联网教育市场规模及增长情况 c 图表22 2018-2023年我国网民规模及互联网普及率 n 图表23 2018-2023年中国手机网民规模及其占网民https://www.cir.cn/R_QiTaHangYe/55/HuLianWangJiaoYuShiChangJingZhengYuFaZhanQuShi.html
10.关于培训方案14篇3、e-learning(在线学习) 在线学习起到对线下学习的补充作用,充分考虑到中高层管理人员时间调配困难的问题,做到能够随时学习,有针对性的复习,学习成果也能够及时跟踪。 4、分享式学习 围绕战略发展、经营管理经验等主题,利用专项讨论、读书分享、TED分享或世界咖啡教学等方式开展分享式学习,共同构建知识分享、关系梳理、https://www.ruiwen.com/peixunfangan/6830522.html
11.信息检索大赛范文6篇(全文)2. 布尔检索的优缺点。 布尔检索模型实现起来比较容易,速度快,计算的代价比较少;查询语言表达简单,用户可以根据自己的知识结构表达检索模式;但是,它的检索策略源于二值判定标准,文献要么相关,要么不相关,况且也没有文档分级的概念,难以提高检索性能;虽然布尔表达式有确切的语义,但通常很难将用户的信息需求转换成布尔表达https://www.99xueshu.com/w/file77si59aq.html
12.LLM微调LLM:LoRA还是全参数?Llama2的深入分析在本文中,我将全参数微调与 LoRA 进行比较,并回答有关这两种技术的优缺点的问题。使用 LoRA 涉及服务效率和模型质量之间的权衡,这根据手头的具体任务而变化。此外,我还提供有关如何通过智能提示技术稳定 LoRA 训练的见解。进一步表明,采用较低的学习率可以提高所得模型检查点的可靠性。 https://www.skycaiji.com/aigc/ai7640.html
13.在线学习(Elearning)作为企业的一种培训手段优缺点是什么?培训的信息化呗,还有就是省钱 省力 省心 省事啊,而且现在的e-learning平台是有很多管理功能的,是很好的培训管理的工具,优点主要 成本低 课程资源多 个性化培训 分散学习 随时随地的学习 可以全员覆盖,便于管理等,缺点就是互动性差。互动性这个都是需要结合系统的设计来实现,比较论坛。像我们的平台https://zhidao.baidu.com/question/557781099.html
14.《电力电子技术》核心期刊杂志厦门论文发表我们决定实现这两种类型的模型(抑制率和复合),假设这两种训练方法的优缺点可能是互补的,"抑制率"GP在没有更大的数据集的情况下表现不佳,但在收集足够的数据后,也许能够更好地描述从驱动器成功到驱动器失败的过渡区域。 全科医生评估。 我们通过评估总体模型生成的实际输出与GP模型预测的输出之间的均方根误差(RMSEhttps://www.lunwen133.com/html/2021/a_lwfbfw_1230/403.html
15.TrackingandActionRecognitionwithDeepLearning:ASurvey将SPPE扩展到MPPE时,自上而下和自下而上的方法各有优缺点。 此外,这两种方法都面临着在严重遮挡下可靠检测个体的挑战。 自上而下方法中的人体检测器可能无法识别重叠人体的边界。 在自下而上的方法中,遮挡场景的身体部位关联可能会失败。 一阶段方法绕过了自上而下和自下而上方法的缺点,但仍然较少使用。 随着https://www.yiyibooks.cn/__trs__/arxiv/2310.13039v1/index.html
16.人工智能在环境设计中的应用范例6篇手,提出了基于协同过滤技术的学习资源个性化推荐系统模型。该模型能有效指导e-learning个性化学习环境的设计,提高e-learning绩效。但是,这其中有多个因素会影响个性化推荐的精度,降低算法的推荐效率,从而导致推荐结果难以满足学习者的个性化学习需求。 1.学习者兴趣偏好的获取及更新 https://www.baywatch.cn/haowen/244152.html
17.人力资源管理大为管理咨询2010年第39大为管理咨询2010年第39期10月【管理寓言【管理寓言】HYPERLINK徒劳的寒鸦03【咨询案例手记】HYPERLINKE-Learning实施的五重合力04【职场实战】HYPERLINK如何应对烦人同事06【调查报告】HYPERLINK职场人对公司福利的反馈调查08【劳动关系】HYPERLINK加班容易留证难10【前沿理念】HYPERLINK防止公司政治“https://www.renrendoc.com/paper/234322717.html
18.从BlendingLearning看教育技术理论新发展.PDF能够从理论高度进 涵,同时却赋予它一种全新的含义:所谓 行思考并提出较深刻的思想观点,从而具有较大 ,就是要把传统学习方式的优 BlendingLearning 指导意义的论述并不多见。真正有些新意并给我 势和 即数字化或网络化学习 的优 E-Learning( ) 留下较深印象的,是一个被称作 势结合起来;也就是说,既要发挥https://max.book118.com/html/2019/0120/6150132013002003.shtm