知识库大模型服务平台百炼(ModelStudio)

在没有专属知识库时,大模型无法准确回答“百炼手机”的问题,因为这是一个虚构的私有知识。

有专属知识库的应用

引入专有知识库后,大模型就能准确回答“百炼手机”方面的问题。

支持从本地上传(非结构化或结构化数据)、从阿里云对象存储OSS(非结构化数据)导入、从阿里云数据库RDS导入三种方式(暂不支持阿里云以外的数据源,如GitHub、Notion等)。

知识库功能支持下列预置模型:

知识库功能支持基于下列模型调优后的自定义模型:

从左侧的数据表管理列表中选择相应的数据表,然后单击导入数据。

以下情况,建议选择结构化数据:

是否参与检索:开启后表示该元数据字段和值将和文本切片的内容一起共同参与知识库检索。

是否参与模型回复:开启后表示该元数据字段和值将和文本切片的内容一起共同参与大模型的回答生成过程。

Excel文档表头是否支持拼装(可选)

建议仅在导入文档均为xlsx、xls格式且含表头时开启,否则无需开启。

文档切分chunk

选择智能切分(推荐)或自定义切分。

命中测试用于评估知识库在给定的相似度阈值下语义检索的表现,例如检查文本切片是否被正确召回,从而确定是否需要进一步调整知识库的相似度阈值,以确保后续大模型能够从知识库中获得有效的知识输入。要进行命中测试,请展开命中测试(可选)并按步骤操作。

命中测试(可选)

命中测试建议步骤

RerankMinScore字段指定相似度阈值。该值用于筛选召回的文本切片,即只有和用户问题相似度超过此数值(默认为0.2)的文本切片才会被召回。增加此数值会降低召回的文本切片数量。

下图是一个基于知识库的问答类智能体应用示例。此类应用有效解决了通用大模型难以处理私有知识和获取最新信息的问题。适用于个人助理、客户服务、技术支持等领域。

检索配置修改后仅对当前应用生效。

参数名称

参数说明

召回片段数

知识库拼装最大长度

查看业务空间下的知识库列表,搜索某个知识库,以及查看指定知识库的基本信息、配置和内容。

创建知识库后,您可自定义修改其基本信息和部分配置。编辑知识库暂不支持API操作。

更新知识库包括向知识库补充私有知识、引入最新信息和移除过时信息。定期更新有利于维持知识库的准确性和时效性。当知识库内容不再反映最新情况或存在错误时,应尽快进行更新。

您在使用上述API更新知识库时,可能遇到下表所示的问题。

问题

说明

更新知识库时,是否需要按照特定顺序调用上述API接口?

是否需要按顺序调用API取决于您的业务需求和更新策略。以下是更新知识库时可能采用的一个API调用顺序示例:

是否需要调用该接口来删除旧的文档,这取决于您具体的更新策略。如果您需要确保知识库中的文档始终是最新的,并且旧知识不再适用,那么推荐执行删除操作,以避免旧的知识被错误地检索。

百炼是否支持上述追加和删除等API操作日志的记录和查看?

百炼知识库功能暂未集成API日志记录和查询功能。鉴于此,需要在您的应用程序中自行集成日志机制和校验逻辑,以确保知识的完整性。

如何设置RDS实例的白名单?

设置RDS实例的白名单,具体操作步骤如下:

长文本大模型(Long-ContextLLM)和RAG怎么选?

百炼是否支持自动更新知识库?

如何构建图片索引?

构建图片索引需两步:

我的知识库是否私有?其他公司或用户能否访问它?

您的知识库仅供您当前的业务空间使用,不会对外公开。

百炼是否会使用我账号下的知识库来回答其他用户的问题?

百炼不会使用您账号下的知识库来回答其他用户的问题。

如果只能上传非结构化文档,如何组织文档内容有助于知识库检索?

建议使用易于文本解析的文档格式(如txt、md格式)进行导入;文档内容上建议明确标题和段落,并利用列表和编号整理信息突出关键词和概念。

百炼是否支持将知识库下载到本地?

暂不支持将知识库下载到本地。

数据管理中已导入知识库的文档/数据表是否可以删除?

知识库是否计费?

步骤

计费情况

导入数据

不计费。

创建知识库

测试知识库

引用知识库

调用应用时,从知识库召回的文本切片会增加大模型输入Token数量,从而产生费用。

管理与维护知识库

如何检查文本切片质量?

文本切片过短

文本切片过长

明显的语义截断

切分chunk过短导致语义缺失,无法匹配。

切分chunk过长导致引入语义噪音,降低匹配精度。

切分chunk出现了强制性的语义截断,导致召回时缺失内容。

当用户对RDS源表进行DDL操作时,比如DROPTABLE、RENAMETABLE、TRUNCATETABLE、ADDCOLUMN、DROPCOLUMN,百炼会如何处理?

如何手动查询AnalyticDBforPostgreSQL中与Prompt相似的文本?

基于上图,以下是详细操作步骤。

如何选择取决于您对哪个SDK更为熟悉。以下是使用DashScopeSDK调用text-embedding-v2,将文本Prompt“百炼手机X1”转换为向量的代码示例。

request_id=a4ddd876-5003-971b-abca-81da4cxxxxxxoutput={'embeddings':[{'embedding':[0.012356398553941625,0.029741432266407613,-0.0027946300120853308,...],'text_index':0}]}usage={'total_tokens':4}异常响应request_id=dea1ba20-68fe-9552-a1be-a5fa81xxxxxxcode=401message=InvalidAPI-keyprovided.响应中embedding字段的值即是根据Prompt生成的向量。

非结构化知识库ADB-PG示例

每个非结构化知识库(使用ADB-PG作为向量数据库)在创建时,会在表空间knowledgebase下的ns_cloud_index数据库中创建两张表,分别为cloud_index_adb_xxxxx_prod和cloud_index_adb_xxxxx_doc_prod。

结构化知识库ADB-PG示例

每个结构化知识库(使用ADB-PG作为向量数据库)在创建时,会在表空间knowledgebase下的ns_cloud_index数据库中创建表cloud_index_adb_xxxxx_prod。

欧氏距离(平方值)越小,表示两个向量之间的相似度越高。

SELECTid,l2_squared_distance(vector,array[0.012356398553941625,0.029741432266407613,-0.0027946300120853308,...]::float4[])ASdistanceFROMcloud_index_adb_xxxxx_prodORDERBYvector<->array[0.012356398553941625,0.029741432266407613,-0.0027946300120853308,...]::float4[]LIMIT3;返回示例如下,其中id为llm-x的文本切片的向量与输入Prompt向量的欧氏距离最小。

id|distance------+--------------------llm-x|0.787400245666503906llm-y|1.07475090026855469llm-z|1.42198872566223145(3rows)获取点积距离(在归一化时,点积距离等于余弦相似度)点积距离越大,表示两个向量之间的相似度越高。

SELECTid,dp_distance(vector,array[0.012356398553941625,0.029741432266407613,-0.0027946300120853308,...]::float4[])ASsimilarityFROMcloud_index_adb_xxxxx_prodORDERBYvector<->array[0.012356398553941625,0.029741432266407613,-0.0027946300120853308,...]::float4[]LIMIT3;返回示例如下,其中id为llm-x的文本切片的向量与输入Prompt向量的余弦相似度最大。

SELECTid,contentFROMcloud_index_adb_xxxxx_prodwhereid='llm-x';返回示例如下。

id|content-------+-------------------llm-x|欢迎来到未来科技的前沿,探索我们精心打造的智能手机系列,每一款都是为了满足您对科技生活的无限遐想而生。百炼X1-畅享极致视界:搭载6.7英寸1440x3200像素超清屏幕,搭配120Hz刷新率,流畅视觉体验跃然眼前。256GB海量存储空间与12GBRAM强强联合,无论是大型游戏还是多任务处理,都能轻松应对。5000mAh电池长续航,加上超感光四摄系统,记录生活每一刻精彩。参考售价:4599-4999。(1rows)场景教程本文仅介绍了百炼的知识库功能,您接下来可以尝试通过百炼快速构建一个在线知识库问答应用,以便全天候(7×24)响应用户咨询,提升用户体验、增强业务竞争力。以下是一些场景案例:

THE END
1.非结构化数据包括哪些内容非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等。 优势 有大量的数据需要处理 非结构化数据在任何地方都可以得到。这些数据可以在你公司内部的邮件信息、聊天记录以及搜集到的https://xue.baidu.com/okam/pages/strategy-tp/index?strategyId=141143856795013&source=natural
2.为什么叫非结构化数据库帆软数字化转型知识库非结构化数据库之所以被称为非结构化数据库,是因为它们能够存储和管理非结构化数据,具备灵活性、扩展性和高效性。其中,灵活性是非结构化数据库的一个显著特点。与传统的关系型数据库不同,非结构化数据库不需要预定义固定的数据模式,这使得它们能够更自由地处理各种类型的数据,如文本、图像、视频等。这种灵活性使得https://www.fanruan.com/blog/article/292598/
3.非结构化数据库——基础知识非结构化数据库——基础知识 1.NoSQL数据库定义、TRDB和NoSQL区别 NoSQL是一种不同于关系数据库的数据库管理系统设计方式,是对非关系型数据库的统称,它所采用的数据模型并非传统关系数据库的关系模型,而是类似键/值、列族、文档等非关系模型。NoSQL数据库没有固定的表结构,通常也不存在连接操作,也没有严格遵守https://blog.csdn.net/weixin_51911075/article/details/129328964
4.非结构化的数据库51CTO博客已为您找到关于非结构化的数据库的相关内容,包含IT学习相关文档代码介绍、相关教程视频课程,以及非结构化的数据库问答内容。更多非结构化的数据库相关解答可以来51CTO博客参与分享和学习,帮助广大IT技术人实现成长和进步。https://blog.51cto.com/topic/feijiegouhuadeshujuku.html
5.非结构化数据库包括哪些内容王利头非结构化数据库在现代数字世界中扮演着至关重要的角色,处理着大量来自各种来源的数据,从社交媒体帖子到传感器读数。与传统的关系数据库不同,非结构化数据库不使用预定义的模式或架构来组织数据。这为存储和查询大量异构数据提供了更大的灵活性。 非结构化数据库的类型 https://www.wanglitou.cn/article_26670.html
6.大数据基础术语精粹来袭非结构化数据库是指其字段长度可变,并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库,用它不仅可以处理结构化数据(如数字、符号等信息)而且更适合处理非结构化数据(全文文本、图象、声音、影视、超媒体等信息)。 十七:数据库(Database) http://www.mudan.gov.cn/2c908084831c4eb30183205259ac001f/2c908084831c4eb3018320df837d0020/1669185201282129920.html
7.结构化半结构化和非结构化数据腾讯云开发者社区结构化、半结构化和非结构化数据 一、结构化数据 结构化的数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据。一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。举一个例子: 代码语言:javascript 复制 id name age gender1Liu Yi20male2Chen Er35female3Zhang San28https://cloud.tencent.com/developer/article/1351609
8.非结构化数据包括哪些内容非结构化数据涵盖了文本、图像、音频、视频等多种类型的数据形式,具有丰富多样的内容和应用场景。https://www.gokuai.com/press/a572
9.了解结构化数据与非结构化数据的差异SQL(结构化查询语言)。 MySQL和类似RDBMS的编程语言。该语言查询和管理关系数据库中的结构化数据。 阿帕奇 Hadoop。适用于结构化、半结构化和非结构化数据的大数据框架。 阿帕奇火花。使用数据帧实现大规模处理、数据流和结构化数据分析。 什么是非结构化数据? https://www.360doc.cn/article/68899713_1124424478.html
10.数据架构:大数据数据仓库以及DataVault这里的全体数据包括与企业中各类型数据相关的所有事项。 进一步细分企业中的全体数据有很多种方式。一种细分方式(但是肯定不是唯一方式)是将全体数据划分为结构化数据和非结构化数据,如图1.1.2所示。 结构化数据是一种可预见、经常出现的数据格式。通常,结构化数据包括记录、属性、键和索引等,可以通过数据库管理系统(https://www.ituring.com.cn/book/tupubarticle/11854
11.GIS空间数据库特征开源地理空间基金会中文分会开放地理空间实验室摘要: GIS空间数据库特征 1.综合抽象特征 空间数据描述的是现实世界中的地物和地貌特征,非常的复杂,必须经过抽象处理。不同主题的空间数据库,人们所关心的内容也有差别。所以空间数据的抽象性还包括人为地取舍数据。 2.非结构化特性 空间数据不能满足通用关系数据库的结构 https://www.osgeo.cn/post/ca0f9
12.非结构化数据的存储方案在企业中,非结构化数据一般指的是大型文档、图片、视频、日志、音频、微博等形式的数据。对于传统的SQL关系型数据库来说,非结构化数据是比较难被管理和处理的,在处理这种类型的数据时,就需要考虑一些简便的存储方案。基于文件系统的存储方案是最为常见的方式之一,因为它比传统的关系型数据库的存放非结构化数据更经济https://www.filez.com/news/detail/f258a16a3ce8fdc4aa02e5e7c67d5785.html
13.以下那些数据属于非结构化数据的是?()声明: 本网站大部分资源来源于用户创建编辑,上传,机构合作,自有兼职答题团队,如有侵犯了你的权益,请发送邮箱到feedback@deepthink.net.cn 本网站将在三个工作日内移除相关内容,刷刷题对内容所造成的任何后果不承担法律上的任何义务或责任 https://www.shuashuati.com/ti/d13c328065ce4f07888ba39048aa7e72.html
14.mongoDB和mysql对比分析及选择(详细版)数据库其它1)表结构不明确且数据不断变大 MongoDB是非结构化文档数据库,扩展字段很容易且不会影响原有数据。内容管理或者博客平台等,例如圈子系统,存储用户评论之类的。 2)更高的写入负载 MongoDB侧重高数据写入的性能,而非事务安全,适合业务系统中有大量“低价值”数据的场景。本身存的就是json格式数据。例如做日志系统。 https://www.jb51.net/database/287301v7z.htm
15.数据资产如何进行有效分类?数据分类的目的是为了针对不同特性的数据采取不同的管理策略,以期实现最大的投入产出比,不同的企业或组织基于不同的目的,可以从多个角度对数据进行分类,今天就来聊一聊主流的分法。 1、按照结构特征划分 可以分为结构化数据、非结构化数据及半结构化数据。 https://aidc.shisu.edu.cn/6e/59/c11041a159321/page.htm
16.干货:18张思维导图,后端技术学习路线长这样!应用程序服务器中间数据分为结构化数据与非结构化数据 像数据库表这种的数据是结构化数据;而对于像HTML、XML、文档这样不定长度且无固定格式的数据我们称之为非结构化数据。非结构化数据也称为全文数据,对非结构化数据的搜索可以用全文检索的方式, 目前两大主流的全文搜索引擎「Solr」和「Elasticsearch」都是基于 Lucene 建立。搜索引擎https://www.163.com/dy/article/FSRNF6FO0511FQO9.html
17.什么是NoSQLAWSNoSQL高性能非关系数据库服务下面列出了 NoSQL 数据库的优点。 灵活性 NoSQL 数据库通常提供灵活的架构,可以实现更快速、更多的迭代开发。灵活的数据模型使 NoSQL 数据库成为半结构化和非结构化数据的理想之选。 可扩展性 NoSQL 数据库通常被设计为通过使用分布式硬件集群来横向扩展,而不是通过添加昂贵和强大的服务器来纵向扩展。一些云提供http://aws.amazon.com/cn/nosql/columnar/
18.关系型数据库与非关系型数据库的区别数据库关系型数据库:关系型数据库基于关系模型,数据以表格的形式组织,由行和列组成。每个表格代表一个数据实体,行代表记录,列代表字段。数据之间的关系通过主键和外键来维护。 非关系型数据库:非关系型数据库则更加灵活,不依赖于固定的数据模型。它们可以存储和查询非结构化和半结构化的数据,如文档、图形或键值对等。这种https://developer.huawei.com/home/forum/hwc/thread-02112142096582872004-1-1.html