知识库检索匹配的服务化实践|离线训练和在线训练_在线学习

知识库是企业经营过程中的面向客户和内部员工的知识沉淀文档库，里面包含各类教程、问答、案例等，知识库的检索匹配是自然语言处理(NLP)中一个重要的基础问题，本质是进行文本语义的相似度计算，也就是语义匹配，我们很多领域的任务都可以抽象为文本匹配检索任务，例如检索引擎、智能客服、知识检索、信息推荐等领域。知识库检索匹配可以概述为：给定一个query和大量候选知识库的文档，从这些文档中找出与用户输入query最匹配的TopK个文档。

检索优化第一步：DSL改写，接手前业务方自己已经对检索结果做过优化，调整不同字段的匹配权重，这一方法的已经难以继续优化。从知识运营的角度出发，在用户检索时，将运营认为重要的文档推到前面，由于文档之间互相有链接引用，可以使用PageRank算法给每个文档计算重要分(PR值)。PageRank的核心思想是，被引用次数越多的文档越重要。算法原理如下，假设只有四个网页ABCD，以AB间的箭头为例，代表可以从B网页跳转到A网页，对B即一次引用（链出），对A则一次被引用（链入）。L(B)表示B网页的链出数量，PR(B)表示B网页的PageRank分数。假设所有文档的初始PR值是0.25，这里L(B)=2，L(C)=1，L(D)=3，计算出PR(A)=0.458，接下来计算所有其他被引用（有链入）的文档PR值，PageRank是个迭代算法，反复计算以后所有的PR值会收敛，那就是最终每个文档的PR值，也是用来改写DSL的关键信息：

newscore=oldscore*log(1+2*PageRank)oldscore指原来不同字段加不同权重由ES算出来的BM25分数，PageRank缺失值使用1代替。

文本召回是召回中最常用的一种策略，最常见的方式是通过对Query直接进行分词，然后将分词后的关键词到ES构建倒排索引，进行tf-idf等相似计算匹配索引召回，这种召回方式的优点是实现简单，不需要训练模型、低资源需求、检索速度快，然而它的缺点也很明显，文本是具有语义的、是有语法结构的，文本召回忽略了语句的语法结构，同时也无法解决一词多义和同义词的问题，对query进行语义层面相似的召回效果就比较一般，解决这个问题就要用到向量召回。

L_i=-log(\frac{exp(sim(z_i,z_i^+)/\tau)}{\sum_j{exp(sim(z_i,z_j)/\tau)}})分子是正例对的相似度，分母是正例对+所有负例对的相似度，最小化infoNCEloss，就是最大化正例对的相似度，最小化负例对的相似度。在计算损失时，label可以在batch内生成，检索词和文档的编码向量经过矩阵乘法可以得到一个相似度方阵，对角位置就是互相匹配的检索词和文档的分数，如果batchsize=4，那每行对应的label就是[0,1,2,3]。inbatch负采样损失计算示意图：

模型训练好以后，就得到文本的编码器，输入两个文本，就可以得到一个匹配的分数，将这个模型部署到小盒子，在需要排序时，输入候选的文档标题和检索词，按计算出来的分数从高到低排序，就完成了一次对检索结果的排序。

当线上接受一条检索请求文本后，先调用在线推理-小盒子计算Query向量，然后去Milvus向量库中和知识库向量进行相似度计算，并返回距离最近的TopN个Item作为向量召回的结果。

海量的知识语料库向量化计算在自研DP平台离线运行，使得全库文本匹配速度较快：1）语料库预处理：包括语料库的文本清洗、文本筛选等预处理逻辑2）语料库向量化：利用上述的向量计算模型进行向量化3）导入Milvus库：将集合部署在Milvus集群，依次批量导入更新机器的集合保证线上可用

{"inputs":[{"name":"INPUT","shape":[1,1],"datatype":"BYTES","data":["满足条件满减送没有赠品"]}],"outputs":[{"name":"OUTPUT"}]}4.3、Milvus向量检索Milvus是一款开源的、针对海量特征向量的向量相似性检索(ANNS，Approximatelynearestneighborsearch)引擎，集成了Faiss、Annoy等广泛应用的向量索引，成本更低、性能更好、高度灵活、稳定可靠以及高速查询等特点，十亿向量检索仅毫秒响应。1、Milvus向量索引列表如下：简言之，每种索引都有自己的适用场景，如何选择合适的索引可以简单遵循如下原则：1）当查询数据规模小，且需要100％查询召回率时，用FLAT；2）当需要高性能查询，且要求召回率尽可能高时，用IVF_FLAT；3）当需要高性能查询，且磁盘、内存、显存资源有限时，用IVFSQ8H；4）当需要高性能查询，且磁盘、内存资源有限，且只有CPU资源时，用IVFSQ8。

2、Milvus目前支持的距离计算方式与数据格式、索引类型之间的兼容关系：选择合适的距离计算方式比较向量间的距离，能很大程度地提高数据分类和聚类性能，主要采用内积(IP)的计算方式，内积更适合计算向量的方向。内积计算两条向量之间的夹角余弦，并返回相应的点积。内积距离的计算公式为：假设有A和B两条向量，则||A||与||B||分别代表A和B归一化后的值。cosθ代表A与B之间的余弦夹角。在向量归一化之后，内积与余弦相似度等价。因此Milvus并没有单独提供余弦相似度作为向量距离计算方式。

算法模型接口服务由ai-service和ai-app两个服务组成，ai-service负责调用算法模型在线推理、Milvus实时向量召回等接入库，ai-app负责业务逻辑的开发。1、ai-service配置示例：

{"model_name":"similarity_jira","model_source_type":"YZ_MODEL","model_version":1,"model_invoke_timeout":3000,"protocol":"kfserving","infer_type":"triton","feature_maps":[{"model_feature_key":"INPUT","data_type":"string","shape":"(-1,1)","default_value":"","feature_source":"PARAMS","source_key":"jira_text","is_required":1}],"param_mapping":{"jira_text":""}}2、ai-app接口设计实现业务逻辑开发测试后，发布上线即可提供前后端调用。a、Maven示例:

com.youzanai-app-api1.0.13-RELEASEb、请求示例：

invokecom.youzan.ai.app.api.service.jira.Service.retrieve({"fromApp":"test","scene":"similarity_predict","Title":"满足条件没有赠品","Key":"XXX"})c、返回示例：

{"code":200,"data":{"Similaritys":[{"createdAt":1648137600000,"score":0.9390,"key":"XXX0123442334","title":"满足条件没有赠品"},{"createdAt":1636214400000,"score":0.9010,"key":"XXX0123365819","title":"满足条件没有送赠品"},{"createdAt":1653408000000,"score":0.8735,"key":"XXX0123482446","title":"订单满足条件没有送赠品"},{"createdAt":1655308800000,"score":0.8312,"key":"XXX0123496337","title":"订单满足条件但是没有送赠品"},{"createdAt":1659628800000,"score":0.8028,"key":"XXX0123527965","title":"订单满条件但是赠品没有送"}]},"success":true,"message":"successful"}

THE END

知识库检索匹配的服务化实践

IlyaSutskever：预训练模式已经走到尽头算法知识库大模型神经网络ilya

在线学习和离线学习淼淼兮予怀

共享学习：蚂蚁金服提出全新数据孤岛解决方案新浪财经

基于Adaboost算法的日间前方车辆检测

蚂蚁金服核心技术：百亿特征实时推荐算法揭秘干货技术博文

知识库检索匹配的服务化实践

Nature2017AlphaGoZero强化学习论文解读系列(二)

机器学习之增量训练

AIOps的新机会虚拟现实

AWAC：使用离线数据集加速在线强化学习技术博客技术支持京天机器人官网

基于改进LightGBM的电动汽车电池剩余使用寿命在线预测