挖掘非结构化数据潜能——向量数据库的探索之路

挖掘非结构化数据潜能——向量数据库的探索之路

2022-09-22eNet&Ciweek

IDC预测,到2025年,中国的数据量将增长到48.6ZB,80%是非结构化数据,并且将成为全球最大的数据圈。在我们的日常生活中,非结构化数据的查询使用场景也越来越多见,比如以图搜图、视频搜索等等。

随着非结构化数据应用的增加,此类数据的处理分析需求也在随之增加,而现有的数据库产品绝大多数都是面向结构化数据的处理,非结构化数据处理工具寥寥。基于此现状,Zilliz在2019年开源了向量数据库Miivus,专注非结构化数据的处理。

9月15日,Zilliz合伙人和技术总监、LFAI&DATA基金会技术咨询委员会成员栾小凡以“挖掘非结构化数据潜能——向量数据库的探索之路”为主题,全面介绍了非结构化数据处理与向量数据库技术发展概况,以及Zilliz在数据库技术云服务上的探索。

此外,9月24日Zilliz还将举办“2022非结构化数据大会”,深度解读非结构化数据处理技术。

以下正文部分为“挖掘非结构化数据潜能——向量数据库的探索之路”主题直播回顾。

栾小凡

栾小凡是Zilliz合伙人和技术总监,同时是LFAI&Data基金会技术咨询委员会成员。在加入Zilliz前,他在阿里云担任研发经理,负责NoSQL数据库Lindorm的研发工作。此前,他曾先后在美国甲骨文公司和软件定义存储公司Hedvig担任软件工程师。栾小凡拥有康奈尔大学计算机工程硕士学位。

非结构化数据与向量数据库

OSCHINA:非结构化数据的格式和标准非常多样,而且在技术上它会比结构化信息更难以标准化和理解,目前非结构化数据的技术发展情况大概是怎样的?

栾小凡:

我是做传统数据库出身的,非结构化数据对我来说,也是一个非常新的一个领域。

传统的数据库,无论是OLTP、OLAP数据库,还是NoSQL数据库,主要面向的是一些结构化的数据,比如说像string、int等数值类型的。非架构化数据会更加多样化,比如生活中常见的图片、视频,或者是推荐系统中的用户信息、商品信息,都被归到非结构化数据范畴中。其实非结构化数据的体量在整个业界的规模是更大的,而且增长数独也很快。

那么现在比较主流的非结构化数据处理方式,基本上都是通过一些深度学习的模型实现。因为非结构化数据本身的种类非常多,可能没有办法很容易地通过某一种规则去处理。传统的结构化数据,通过排序或者聚合可以去做一些比较好的处理,它的算子方式相对来讲比较统一。但非结构化数据由于种类很多,所以我们希望先把它统一成一种机器能够理解、能够处理的结构。那么目前比较主流的方式,其实是通过一些深度学习的模型,把数据生成向量embedding,然后再去做一些近邻的匹配,那么在高纬空间底下,如果这个向量的距离是相似的,我们就认为它代表非结构化数据的一些相似性。

举个简单的例子,我想做图片搜索或者以图搜图,就可以把图片经过深度学习模型转化成一个向量。然后在高纬的向量空间里,找到一些近似的向量。那么这些近似的向量背后代表的那些图片,可能就跟原始的想要查询的图片比较相似。

至于怎么定义这个事情,很大程度上取决于你的深度学习模型,包括训练的时候带有哪些特征等等。比如在做人脸识别的时候,可能会在训练的时候特意给出一组相似的人脸样本,和一组不相似的人脸样本;或者在做物体识别的时候,给到的图片分类里还包括其他生物的图,通过这种方式,把这个问题转换成模型问题。

OSCHINA:向量数据库作为挖掘非结构化数据的有效方法,在实践中突破了哪些关键技术,遇到了哪些难点,目前发展的现状大概是怎样的?

刚才的回答里也提到,我们定义非结构化数据,最终需要把各种类型的数据转换成机器更容易理解的一个形态,这个形态就是我们所说的向量。

向量数据库其实就像传统数据去处理一些关系型数据、结构化数据一样,承担的是非结构化数据的低成本存储和高性能计算两大核心能力。

就向量数据库来讲,我们认为它要具备三个特性:第一个就是它需要具备高维度的数据处理能力,这和传统的数据库有很大的区别,传统数据库去处理一些string或者字符、数值类型的时候,它的数据的维度往往是一维的。

近年来也出现了一些类似于时空数据库,开始去处理二维或者三维的数据。但总的来讲,传统数据库的数据的维度都比较低,在数据维度比较低的情况下,使用的一些索引,比如常见的像这个B数的索引、LSM数的这些索引,可能在一个更高维度的数据上做相同索引,是不能达到效果的。所以对于向量数据库来说,第一要找到适合处理高维数据的索引类型,这是第一个难点。

第二个难点,向量数据库既然作为一个数据库,那么它本身应该是有一个比较好的数据管理能力的,因为大家都知道数据库就是用来管理和检索数据的,向量数据库也不例外。那么我们希望这个向量数据库能够给到用户过往使用数据库产品的一些相同体验和抽象概念。

比如向量数据库里有表的概念,也有日志的概念,然后我们帮用户解决了怎么去做持久化,怎么做分布式、做扩展、做高效查询等等,怎么把一些固定的查询语句转化成最终的执行结果。所有这些事情都是向量数据库需要去解决的。

最后一点,回到向量数据库本身的特性上来,向量数据库有一个很重要的特点:对计算量的要求特别大。这种计算量主要是体现在:比如传统数据库处理一行数据可能是对一个float类型去做大小的比较,那么对于这种高维度向量数据的操作来说,去计算欧式距离,简单来讲就是对一些数字做加减乘除、再平方、再开方,而且这个数据的维度又特别高,因此它对算力的要求是相对来讲比较高的。

因此,在向量数据库里,我们也在利用一些定制的硬件,包括CPU并行计算,向量化计算来去加速查询执行,这个可能也是向量数据库本身面临的一个比较大的挑战。

Zilliz:坚持开源,服务上云

OSCHINA:向量数据库其实是Zilliz提出的一个新物种,聚焦到Zilliz本身,简单给大家介绍下你们正在做的事情?

在这个基础上,面向用户需求,我们做的第一件事情就是做了一个向量数据库,然后在已有的向量检索的基础上完善了整个向量数据的使用机制,包括用户的使用习惯。并且我们当时做了世界上第一个开源的向量数据库,也就是Milvus。

接下来,我们做了两件大事,一是开源Towhee,Towhee项目的核心就是把非结构化数据转换成向量的过程,我们也将其称为非结构化数据的ETL。那么在这里面,我们也是大量使用了开源模型,然后根据用户需求,提取用户数据中的关键信息和向量。

除了做开源的产品,我们公司还有另一个这个比较大的一个标签,其实是做云。我们面向公有云提出的SaaS的服务,这个服务里也包含了我们的开源产品。那么在未来的话,像Towhee,包括围绕着整个Milvus生态的一些其他开源项目,比如我们向量检索的内核引擎Knowhere,然后比如说我们的可视化的工具Attu、还有Feder,这些工具也都会在云上上线。

OSCHINA:你是在什么时候加入Zilliz的,选择加入的原因是什么?

我加入Zilliz的原因:第一个,向量数据库是一个相对来讲非常新的赛道,相较其他数据库赛道,其他数据库赛道基本都有一个领先的王者,比如关系型数据库大家会想到MySQL,会想到PostgreSQL,搜索领域会想到Elasticseartch。

而在向量数据库领域,目前Zilliz是最早去做的一家,并且做到也算不错,所以这对我来说是一个很好的机会,能够去参与做一个世界领先的数据库,对我也是一个比较大的挑战。我本人也是从美国回到国内,所以其实蛮有信心,觉得今天中国的工程师是有能力做出一个可以让全世界工程师一起去使用的产品。

第二个动力,其实Zilliz本身是一家做开源,也是一家做云的公司,从我自己的背景来说,我过去对公有云和专有云都有一定的了解,我也一直都是个开源爱好者,也曾经参与过ApacheHbase的开发,也希望能有机会深度参与到一个开源社区里面,去主导一个开源社区的发展。所以,Zilliz也是一个能施展我自身才华的舞台,加入Zilliz之后也交到了许多志同道合的朋友,这也是我来Zilliz一个很大的收获。

OSCHINA:你在这家开源商业化公司身负多重角色,包括Zilliz技术总监/Milvus项目maintainer/产品架构师。你是如何平衡这些不同角色的?现在你一天的工作内容和节奏大概是什么样的?

另一个我觉得很好的契合点就是,我们公司本身也确实在基于开源项目做商业化工作,所以项目本身的成功对我们自己做商业化成功也是非常有帮助的。那么我们在日常工作中,工作重心也是随着整个产品和项目的发展,一直在去做平衡和调整。可能在某个阶段,比如社区发版的关键时刻,我会花更多精力在社区上面,和其他社区成员做更多沟通,帮助他们去找到一些解决问题的方法,与此同时我也会从公司的利益角度出发,去寻找一些公司和社区同时需要的东西去作为我们对社区的一种贡献。

从心理上来讲,因为本身兼具做商业化和做开源两个不同的职责。虽然说我们会尽力去找到一些共同点,但也必然存在一定的冲突。那么怎么样能够既满足开源用户的需求,吸引到优质贡献者、用户进入到社区中,这肯定是一个挑战。但另一方面,也要去思考项目更长期的发展,怎么保证项目能跟我们自己的商业化利益长期保持一致,这个其实还是挺有挑战的。

但在这个过程中,很多开源用户给了我们很多支持。因为Milvus一直以来,包括最近的2.01版本都做了一些比较大胆的设计,其间也遇到了稳定性、性能等各方面的挑战。在这个过程中,确实很多开源用户、开发者给了我们非常多的帮助和建议。这也是让我们觉得做开源,做一个能在国际上有知名度和影响力的开源项目的意义所在。

OSCHINA:Zilliz最近还有一个大动作就是推出了ZillizCloud,测试版本最近刚刚上线,介绍下这个新产品吧。

首先它的定位是一个非结构化数据处理的云。这个云里面,最核心的产品就是我们刚才聊的比较多的——Milvus向量数据库。在我们的设想和规划里,非结构化数据和结构化数据本身的处理流程并没有什么不同,应该都是围绕在一个数仓或者一个数据库,然后通过工具去做数据转换与处理。

我们现在的,也是从我们的开源向量数据库出发,在数据库的基础上,打造一系列的服务,包括大家能感知到的Web前端的一些OpenAPI。中间可能大家感知不到,但是是非常重要的,这种资源调度、池化,共用等逻辑,以及面向整个非结构化数据处理的一些组件,比如说数据迁移、数据导入、数据备份。那我们推出的Zillizcloud,其实最主要的原因跟我们做Milvus、Towhee都是一样的,我们希望用户能够在云上,以较小的投入去处理遇到的各种各样非结构化数据,并从中挖掘自身的业务价值。

OSCHINA:上云是很多开源项目实现商业价值的一个必经之路。可以介绍一下你们是怎么看待开源产品的商业化,以及商业化上的整体战略和路径吗?

可能也有人会问,我们为什么不能在开源产品上把这件事做得更好,而是一定要通过云去提升用户体验。这其实就回我们做云服务的初心,其实整个云上的代码和软件数据和传统数据库会有非常大的不同,在开源领域,我们没有办法假设所有用户都是在云上使用这个数据库,肯定有一些离线用户需求,那么可能这部分用户的使用体验没有办法像云上用户一样那么简介,这其实就是我们做云服务一个很重要的目标,让用户以最少的理解成本把产品用起来。

当然围绕Milvus生态,我们也做了大量的生态工具,希望这些工具能帮到用户解决他们在生产环境中遇到的一些问题。在开源领域,我们依然会持续投入,把开源产品打造得更好用,我们希望无论是在云上还是开源产品上,Milvus都是能是用户在向量数据库领域的一个最佳选择。

OSCHINA:能长期坚持开源产品免费的公司,一定有它独特的工程师文化。Zilliz内部有着怎样的工程师文化?

我们是一家特别强调工程师文化的公司。主要体现在两方面:

首先,公司的所有合伙人以及重要岗位的负责人都有工程师的背景。

当初加入Zilliz时,星爵问我:“你希不希望做一个能影响世界的产品?如果要做这个产品,你觉得你需要一些具备什么能力的伙伴?”这句话触动了我。加入公司之后,我跟老板形成了一个默契:我们一定是一家产品优先的公司。

在工程师文化里,产品优先就意味着,公司希望所有人都对自己在做的事情有比较清晰的了解,并且知道自己做的事情在整个业务版图里,或者说在整个非结构化数据处理的版图里面到底有什么样的价值。

其次,公司非常鼓励大家使用开源,包括第三方的一些SaaS服务。因为我们自己也是一家做SaaS的公司,依赖了大量的开源项目,包括Parcel、Grewnetys、ETCD,以及很多第三方的SaaS服务。在使用开源的时候,我们一直鼓励工程师积极向其他社区回馈。现在,公司有很多同学已经慢慢成长为在开源领域比较有影响力的一拨人。我们希望,无论是中国的开源,还是中国的SaaS领域,未来能有越来越多的Ziiliz同学继续发光发热。

OSCHINA:Zilliz最近在学术界也取得了一些很好的成绩,感觉公司内部的学术氛围非常浓厚。可以给大家介绍一下这方面的情况吗?

在这篇论文里,我们比较详细地阐述了向量数据库面临的挑战以及开发该数据库的过程。此外还提出了Milvus1.0面临的生产模式,并得出了一些比较有意思的测试结果。

与云原生数据库相比,向量数据库面对的挑战是截然不同的,因为向量数据对算力要求非常高。比如在构建向量索引时,操作完全是离线的,对算力资源、弹性的要求远远高于云原生数据库。对技术细节感兴趣的同学可以去搜一下这篇论文。

OSCHINA:举办2022非结构化数据大会的契机是什么?

我们公司是向量数据库包括非化数据领域的一个先行者,同时也是一个探索者。在整个非结构化数据处理的生态里面,我们贡献了两个开源项目,一个是Milvus,一个是Towhee,未来还会贡献更多的非结构化数据处理领域的项目。

一方面,我们希望能产生影响力,帮助我们的用户及生态合作伙伴更好地理解怎么处理非结构化数据,以及在处理过程中需要什么样的能力及工具。

另一方面,希望能借此机会跟非结构化数据处理生态里面的伙伴聊一下:大家是以什么方式做非结构化数据处理的?在开源项目或者使用场景中需要哪些工具?可以给用户提供哪些能力?能否共同构建一个更好的生态,真正地把非结构化数据变成一个可以落地的概念,而不是仅仅停留在纸面上?

在这次会议上,我们还会正式发布ZiilizCloud。我们也知道,很多用户对能够托管的云服务期盼已久。因为在非结构化数据领域,很多工具是散的,用户只能把各种各样的开源组件拼接起来用,处理流程会比较繁琐,难以管理,并且在稳定性、易用性方面还会遇到各种各样的问题。ZiilizCloud的发布之后,用户就有了更多的选择。

精彩问答

Q:现在市场上,有什么面向用户端的向量数据库应用案例?

向量数据库本身的应用场景还是非常广泛的。非结构化数据本身的种类就很多,比如图片、音频、视频、长文本等等。

还有针对图片或视频的处理,比如去重、风控等等,以及多模态应用——根据图片找文字或者根绝图片找音频,这些都是向量数据库很大的应用场景。

在视频领域还有一个绕不过去的应用场景——安防,其中涉及到人脸识别、指纹识别、声纹识别,这些也是向量数据库比较容易落地的应用场景。

当然还有一些比较有意思的场景。比如在生物制药领域用向量数据库帮助小分子药物找到蛋白质上的靶点;在时序数据里找到趋势近似的历史,实现时序预测。

我们的一个口号其实就是everythingtoembedding,我们希望在现实生活中所有能看到的数据,都能通过Towhee把它变成向量数据,然后再基于Milvus发掘其中的价值。欢迎有特殊数据的用户来跟我们交流

Q:向量数据库是一个比较新的概念,你们有过那种摸着石头过河的经历吗?

我们不是有过这种经历,而是一直在摸着石头过河。到现在为止,这条河可能也只过了一半,有时候甚至没想清楚怎么过得去。任何领域的先行者,都会面临相同的问题,都在不断地尝试。

在尝试的过程中,公司对学术的重视以及创始人的技术背景和学术背景,让我们能够更早地去看到未来方向。

2019年我们做第一代数据库的时候,看到了一些方向,并且在工程化的过程中,越来越多的预测得到了应验。眼前来看,向量数据这个领域确实有很多不确定性,但如果抬起头看得更远一些,还是能看到一些方向的。

我们总结的另一个经验是,要快速迭代。尤其是作为开源软件,快速迭代能够快速找到一帮用户,一起打磨产品。正是有了这些用户,我们的产品才能比较快速地去迭代,正是因为有了这种快速迭代,我们才能在一个新赛道找到自己的方向。三四年前刚开始做这件事的时候,没有太多人能把向量数据库最终的状态想得很清楚,我们也是一步步根据用户的需求才找到了方向。

Q:你们是怎么获得首批客户的?一些产品都开源了,会不会很难让用户去付费?

我们把用户分为开源用户、付费用户两部分。

对开源用户而言,最重要的事情就是要找到产品的独特价值。因为Milvus瞄准的是一个比较新的领域,很多时候不是我们主动去联系用户,而是用户主动联系我们,希望能用我们的产品帮他们解决问题。我觉得无论是在创业还是做开源项目,在已经决定要往这个方向投入经历之前,可以提前做一些产品宣传,看看能否通过产品的核心价值吸引到一批用户。忠实用户会跟着产品一起成长,并且有足够的耐心共同来解决很多问题。

至于商业转化,我们公司还处于刚刚起步的状态。我认为最关键的就是,要给付费用户提供更大的价值。我们的服务有公有云和开源的区别。开源产品已经能够满足大部分用户的业务诉求,但开源只能做到八十分。而云服务可以从八十分提升到一百分。因为云服务有一些限制,可以让我们更好地去设计整个产品,给用户提供很多附加价值。

Q:向量数据库商业化的计划是什么?目标客户有哪几类?市场上有没有一些对应的竞品?

从选择向量数据库这个赛道就可以看出来,我们是一个有自己的品位和调性,比较相信自己判断的一个公司。

在向量数据库商业化这条路上,我们坚定地选择在公有云上做SaaS服务这一方向。在国内,做公有云或者SaaS并不是一个特别主流的选择。面对这种情况,我们的选择是瞄准海外市场。所以,公司现在整个商业化产品都优先在SaaS上线。

公司的一个理念是,只做正确的事情,不做容易的事情。可能在国内获得订单比去海外做SaaS服务,从零到一会容易很多。但目前来看,国外用户对向量数据库或非结构化数据处理的SaaS服务,不论是需求还是接受程度都会更高。我们选择直接跟竞争对手在这个赛道上硬刚。

我们的主要竞争对手分为三类:

一是共有云厂商。我们是在共有云上做SaaS服务,跟AWS、Google、微软有一定的竞争关系,他们也都有一些向量检索。

二是搜索领域的特殊竞争对手。比如已经上市的Elastic,几十亿美金估值的巨头公司Algolia。他们本身就是做搜索出身,现在也开始往向量检索这个领域做一些探索。因为向量检索提升业务效果很明显。接下来三到五年,向量检索应该会变成一个非常主流的选择。

Q:云可以支持亿级的向量搜索吗?

亿级已经不是我们现在的目标了。在内部测试环境里,我们都是以十亿向量起步去做测试。

我们在设计Milvus系统时,是冲着百亿规模甚至千亿规模去设计的。现在真正落地的环境里,几十亿比较常见,一些其他用户可能有百亿规模甚至有千亿规模的向量数据。所以亿级不是一个特别有挑战性的一个目标。

比较有挑战性的一个问题是,在亿级规模下,我们能做到多高的吞吐量?目前社区正在针对这一点持续优化。当然,我们在云上借助更多资源也可以实现万级别甚至更高的QPS。

Q:目前向量数据库这个细分行业的瓶颈是在被什么主导?Zilliz开始选择了一个非常细分的发展方向,现在又加入了Towhee,感觉慢慢在形成生态。这种生态能够打破瓶颈吗?

我觉得数据库并不是一个细分领域,而是一个很大的领域,只是还在成长中。

我们认为,可能向量数据库正在处于技术主导的阶段,很多应用场景没能落地,主要是卡在产品本身,比如说向量数据库性能无法满足要求——用户有亿级的数据量,但是现有的解决方案没法用。如果我们解决了这个问题,那自然就会把行业推到下一步。我们会看到算法层面的大幅提升或者我们所说的KillerAPP会出现。反过来,它们也会推动这个行业发展。

Q:现在Zilliz的产品基本上融合了深度学习、大数据处理、分布式计算很多不同的技术。门槛这么高,招到顶尖的技术人才是不是就会比较难?公司现在想要吸引什么样的人才加入呢?

THE END
1.数据分析及应用试题库及答案.pdf数据分析及应用试题库及答案 、单选题(共50题,每题1分,共50分) l、用顺序查找法对具有n个结点的线性表查找一个结点的时间复杂度为 () A、AO(log2n2) B、BO(nlog2n) C、CO(n) D、DO(log2n) 正确答案:C 2、a=np.array([10,100])b=np.array([1,2])print https://max.book118.com/html/2024/0922/8064045143006127.shtm
2.第四学期智能数据分析期末复习题1、在线性降维方法中,PCA 主成分分析和现行判别分析对于全局线性结构的数据具有很好的降维效果。 2、主成分分析是一种线性降维方法。 3、与在线分析处理不同,传统的数据库在线事务处理是事件驱动、面向应用的。 4、企业的数据处理大致分为两类,一类是事务型操作型处理,另一类是历史数据分析型处理。 https://blog.csdn.net/Abraxs/article/details/144297526
3.第三单元数据处理与应用测试题1、以下关于数据处理的叙述,错误的是() A.数据处理过程中,数据源会影响数据质量的真实性B.数据处理的基本目的是从大量的、杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据C.数据处理是对数据的获取、存储、加工、表达和传输D.大数据可以不需要处理直接使用 https://www.wjx.cn/xz/164844968.aspx
4.下列数据不属于非结构化数据的是大学职业搜题刷题APP 下载APP首页 课程 题库模板 题库创建教程 创建题库 登录 创建自己的小题库 搜索 【单选题】下列数据不属于非结构化数据的是 A. 网络日志 B. 音频 C. 关系数据库的二维表 D. 微信 题目标签:属于结构数据如何将EXCEL生成题库手机刷题 https://www.shuashuati.com/ti/74fe05e1b7a643a895268cb6dae237a3.html
5.阿里云大数据ACA和ACP题库B:是一个用来处理结构化数据的Spark组件 C:基于内存多语言执行的核心引擎 D:Spark机器学习库 解析:Spark的MLlib提供了较丰富的机器学习库,包括分类、回归、协同过滤、聚合,同时提供了模型选择、自动调参和交叉验证等工具来提高生产力。MLlib主要支持非深度学习的算法模块https://help.aliyun.com/document_detail/4419https://developer.aliyun.com/article/1393816
6.非结构化数据提取技术在统计工作中的应用摘要结构化数据和非结构化数据是大数据的两种类型,目前非结构化数据信息已达信息总量的85%以上,且每年以55%~65%的速度增长,统计工作受到大数据的冲击,日常总会遇到一些非结构化数据提取的难题,导致工作量加大,效率低下。本文对非结构化数据及其提取技术、大数据处理语言——Python语言进行学习研究,解决实际中遇https://tjj.changzhi.gov.cn/sjfx/202207/t20220704_2588893.html
7.数据统计分析学习范文如何实现非结构化数据与结构化数据的结合?首先,完善非结构化数据的整合,然后我们可以用结构化数据做数量说明,非结构化数据加强描述;或是提高数据处理技术,实现结构化数据与非结构化数据的互相转化,选择能更好说明问题的数据形式作为后续分析基础。这都是值得再深入思考研究的新问题,而且这不仅仅是大数据和统计研究的事https://www.gwyoo.com/haowen/174794.html
8.2022年4月自考00051管理系统中计算机应用真题试卷自考B.快速应用开发法 C.结构化方法 D.面向对象方法 18.下列选项中,不是在系统分析阶段使用的描述工具是 A.数据流程图 B.组织结构图 C.业务流程图 D. 模块结构图 19.业务流程图需要描述的信息不包括 A.业务活动 B.业务分布 C.信息关联关系 D.信息处理环节 https://www.educity.cn/zikao/356611.html
9.IBMCloudObjectStorage在银行业非结构化数据存储嘲下的对象随着银行业IT技术的快速发展和业务的不断升级变革,业务应用系统产生的非结构化数据(包括文件、图片、音视频文件等)的规模也越来越大,银行业非结构化数据呈指数式爆发式增长。目前使用非结构化数据的主要系统包括内容管理平台、后督影像系统、身份验证、柜员办业务扫描件等需要用到影像图片,以及呼叫中心系统、电话客服的https://redhat.talkwithtrend.com/Article/242823
10.科学网—[转载]武新:大数据架构及行业大数据应用那时候的数据增长缓慢、系统都比较孤立,用传统数据库基本可以满足各类应用开发。互联网的出现和快速发展,尤其是移动互联网的发展,加上数码设备的大规模使用(CCD、CMOS技术的大规模产业化),今天数据的主要来源已经不是人机会话了,而是通过设备、服务器、应用自动产生的。传统行业的数据同时也多起来了,这些数据以非结构https://blog.sciencenet.cn/blog-887780-1358813.html
11.2022年中国知识图谱行业研究报告澎湃号·湃客澎湃新闻一、互联网信息碎片化与非结构化的处理需求 互联网的海量信息带有碎片化与非架构化特征。新兴互联网应用的蓬勃发展,让完整信息被分类分解为信息片段,信息被大量简化,从而导致信息本身不全面、内在逻辑不完整。同时,文本、图片、各类报表和音频、视频、HTML等非结构化数据广泛存在于互联网中。互联网企业需要在现有的存量业https://www.thepaper.cn/newsDetail_forward_19458208
12.非结构数据怎么分析帆软数字化转型知识库非结构数据指的是不符合特定数据模型的数据类型,这些数据通常包括文本、图像、音频、视频等。与结构化数据不同,非结构数据没有预定义的数据模型,因此在存储、处理和分析时会面临更多的挑战。例如,文本数据需要进行分词和语义理解,图像数据需要进行特征提取和分类,视频数据需要进行帧处理和对象识别。 https://www.fanruan.com/blog/article/644632/
13.2022年度陕西省重点研发计划项目申报指南目录4.9 大规模非结构化网格并行剖分技术研究 4.10 大流量高温燃油调节方法及调节器设计关键技术 5.新一代通信技术 5.1 空地一体化网络立体致密多维覆盖技术 5.2 面向天地一体化大规模星座的网络化测控关键技术 5.3 新型天线形态下基于大规模 MIMO 的机载数据高速传输技术 http://www.kt180.com/html/sxs/9889.html
14.结构化半结构化和非结构化数据腾讯云开发者社区结构化数据,简单来说就是数据库。结合到典型场景中更容易理解,比如企业ERP、财务系统;医疗HIS数据库;教育一卡通;政府行政审批;其他核心数据库等。这些应用需要哪些存储方案呢?基本包括高速存储应用需求、数据备份需求、数据共享需求以及数据容灾需求。 非结构化数据,包括视频、音频、图片、图像、文档、文本等形式。具体到https://cloud.tencent.com/developer/article/1351609
15.mysql数据库技术与应用试题库试题及答案《数据库技术与应用》试题库1 一、填空题 1、数据库是存储和管理数据的仓库,但数据库并不能直接存储数据,而是将数据存储到中的 2、如果MySQL服务名为MySQL8则在Windows的命令窗口中,启动MySQL服务的指令是—o 3、在删除关联表中数据时,可以先删除从表中的相关记录或将从表外键字段值设置为,再删除主表中的相关https://www.yxfsz.com/view/1686946242167410690
16.大数据时代带来的影响(精选5篇)大数据是在种类繁多、数量庞大的多样数据中进行的快速信息获取,它不是定量描述数据量大小的名词,一般产生于邮件、视频、微博、帖子以及页面点击,是结构化数据、半结构化数据与非结构化数据的总和。大数据概念首先出自于天文学学科和基因学学科,最后广泛应用开来,将计算机时代不断增长的信息,应用到各行各业,发挥信息的自https://www.1mishu.com/haowen/289788.html
17.软考【解析】本题考查CPU中相关寄存器的基础知识。 指令寄存器(IR)用来保存当前正在执行的指令。当执行一条指令时,先把它从内存取到数据寄存器(DR)中,然后再传送至IR。为了执行任何给定的指令,必须对操作码进行测试,以便识别所要求的操作。指令https://mp.weixin.qq.com/s?__biz=MzI3ODAyNTEzMA==&mid=2456070202&idx=7&sn=a36bcbdc8598ae8f7deb2201e73ca924&chksm=fccd4effcbbac7e95d6d2e86a95c465ed6801e743eb98cd51830355ab27c84db06f6c6b34508&scene=27
18.mpp数据库架构mpp数据库与传统数据库MPP (Massively Parallel Processing),即大规模并行处理,在数据库非共享集群(传统的单节点不属于集群,双机热备或Oracle RAC等,均是基于共享存储的)中,每个节点都有独立的磁盘存储系统和内存系统,业务数据根据数据库模型和应用特点划分到各个节点上,每台数据节点通过专用网络或者商业通用网络互相连接,彼此协同计算,作为整https://blog.51cto.com/u_16213683/7296250
19.2017年9月计算机二级Msoffice高级应用考试题库一、选择题(每小题1分,共20分) 1.程序流程图中带有箭头的线段表示的是( )。 A.图元关系 B.数据流 C.控制流 D.调用关系 2.结构化程序设计的基本原则不包括( )。 A.多态性 B.自顶向下 C.模块化 D.逐步求精 3.软件设计中模块划分应遵循的准则是( )。 https://www.yjbys.com/edu/jisuanjidengji/312682.html