非结构化数据管理难,爱数AnyShareFamily革新企业内容管理爱分析调研

海量非结构化数据激发企业数字化转型新需求

随着移动互联网、社交网络等新媒介发展及人工智能等新技术的突破性进展,企业面临的内外部数据快速增长。IDC数据表明,2020年全球新建和复制的信息量将超过40ZB,是2012年的12倍,其中中国的数据量将在2020年超过8ZB,比2012年增长22倍。

伴随海量非结构化数据的产生,客户也面临新的数据管理挑战:

目前为止,行业内还没有一套有效的解决方案能应对企业的非结构化数据管理需求。国内的企业内容管理平台主要集中在内容存储、传统企业网盘、文档管理及协作等方面,无法满足企业非结构化数据管理的需求。同时,很多客户即使上线了国外最好的系统,但由于缺乏统一架构,仍然存在很多问题无法解决。

例如,一家农信银行曾上线了一套影像平台,基于Documentum内容管理平台开发了内容门户,并部署在Oracle数据库上,这已经使用了全球领先的技术与平台,但目前该银行数据每天增长300~500G,架构扩容难;同时,影像文件都是非结构化数据,文件小,每一次备份都不低于20天,严重影响业务连续性。因此,基于行业基本的架构,海量非结构化数据的扩展能力和备份恢复能力都无法得到保证,企业需要架构创新,能够满足同时将业务数据、知识数据、桌面数据在一个平台里面进行统一内容级的管理能力。

02

承载爱数非结构化数据战略,AnyShareFamily7应运而生

面对客户在非结构化数据方面的痛点和需求,爱数基于其新发布产品AnyShareFamily7(智能内容云),为客户提供非结构化数据的内容管理平台。AnyShareFamily7不仅是存储和管理非结构化数据的产品,而且以利用与共享作为其核心价值,为用户提供数据整合、管理和洞察。

作为一家大数据基础设施提供商,爱数从2010年就开始打磨AnyShare产品。2011年,爱数推出AnyShare3.0版本,产品定位于更好的NAS,即网盘原型,解决用户数据存储的问题;随后,爱数逐步推出AnyShare3.5、AnyShare5.0等产品,解决用户集中管理文档、桌面备份等问题,并于2018年推出AnyShareFamily6(统一文档云),不断拓展产品的深度与广度,为客户建立非结构化数据中心,将海量、分散的非结构化数据管理起来。

随着爱数的企业战略由过去的企业内容存储和文档管理向企业内容管理转型,爱数的系列产品也随之不断演进。经过多个技术的创新突破之后,爱数于2020年7月揭秘AnyShareFamily7,定位于企业内容管理,并融合大量核心人工智能技术,面向整合业务应用、内容应用开发、文档管理、团队协作和非结构化数据洞察等五大关键场景,使爱数从企业云盘市场进入企业内容管理市场。

AnyShareFamily7具有特殊的产品体系架构,是一个一体化的内容云平台,覆盖应用、桌面、移动端的非结构化数据;采用一套内容总线架构进行各类数据的统一集成;基于一个内容数据湖提供海量非结构化数据的管理和分析能力;同时具有一套文档管理体系和一套安全服务框架。AnyShareFamily7可以部署在公有云、私有云及混合云,满足各种IT架构。基于云原生架构,实现系统架构弹性扩展,可以应对海量用户并发访问高吞吐量的访问请求,这也是AnyShareFamily7相比于国际知名内容管理平台厂端的核心优势之一。

AnyShareFamily7进行了诸多技术创新,其中包括两个突破性的技术:第一个特性是智能搜索能力。基于微服务+索引集成、IVFFLAT倒排索引、支撑集+PQ编码优化等技术,AnyShareFamily7可以提供强大的计算能力,以极小查找计算量实现数十亿文件的以图搜图功能,并有效减少内存空间。AnyShareFamily7的智能搜索的功能包括全文搜索、标签搜索、编目搜索、以文搜图、以图搜图等,相对上一代AnyShareFamily6(文档云)性能提高5倍以上。

例如,一家银行有超过6000万个影像文件,包括身份证、合同等60多种影像数据类型,爱数提供了多功能引擎,包括特征向量搜索引擎、源数据服务引擎、全文检索引擎,并将这些引擎结合在一起,完成6000万影像文件的自动分类和搜索。

爱数结合AnyBackupFamily和AnyShareFamily7两款产品,并创新性地开发了OSS网关技术,保证系统不再只备份海量小文件,而是备份合并后的大对象,能够保障小文件的备份恢复性保持在240MB以上,且性能稳定不抖动,解决了困扰行业30年的小文件备份恢复的难题。

03

打造非结构化数据中台,赋能企业数据内容复用

非结构化数据管理之所以难,不仅因为其数量多、分散性高,还在于用户对于非结构化数据的需求是多层次的。在数据、内容、信息和知识层面分别有不同的需求。所以,目前为止,行业在非结构化数据层面很难从数据层面到知识层面提供完整有效的方案。

爱数将AnyShareFamily7与其他产品AnyBackup、AnyRobot、AnyDATA组合,基于人工智能驱动和数据架构底座,提出非结构化数据中台,可应用于智慧企业、金融科技、智慧城市、智慧教育等领域,真正解决用户内容管理的需求。

爱数的非结构化数据中台目前已经面向四类场景落地应用:数据资产管理赋能数字化运营、内容自动化赋能业务流程自动化、智能知识运营赋能学习型组织、立体安全赋能业务合规性管理。

内容自动化场景应用出自大量企业降低出错率、提高生产效率、降低人力成本等诉求,以期实现业务流程自动化。传统内容自动化技术识别内容主要基于页面实现填表自动化,但爱数的非结构化数据中台基于AnyShare平台和源数据提取及SmartSheets核心技术,能够针对不同的页面需要重复识别,覆盖数据采集、内容分析和数据生成、业务系统对接等全环节,实现内容自动化+智能检索,进而实现数据处理流程自动化。例如,某银行需要对贷后800家上市公司的财务报表进行监控与核查,使用RPA后,实现全流程自动化,此前40个人的工作量仅需一个人完成,提升工作效率与员工的工作满意度。

在业务合规管理场景下,随着海量数据产生及人工智能技术应用,企业内外部的合规性要求愈发严格。传统的数据安全方案大多只解决了企业文档层面的安全问题,但没有解决内容方面的安全问题。爱数的非结构化数据中台基于AnyShareFamily7和AnyRobot,从数据安全、内容安全、信息安全、知识安全等多层次建立立体安全体系。同时,爱数在其应用生态中引入第三方安全应用或程序,保障客户的数据安全合规。

04

平台+生态合作,创造领先商业模式

全球内容服务市场是一个超过180亿美元的市场,增长迅速,中国市场的应用成熟度尚且不够。

全球内容管理平台的领导者是微软、OpenText、IBM、Box等,但是这些企业的内容管理平台并非是完美的。根据Gartner发布的报告,各企业平台都有或多或少的缺陷。在未来,人工智能技术是内容管理创新共同的突破点,而在人工智能方面,全球企业都处于初始阶段。因此,尽管全球领先厂商具有较高的内容成熟度,但从行业角度来看,AnyShareFamily7仍有很大的发展空间。

借着国产化浪潮来临的市场机遇、人工智能和云计算等快速发展的技术机遇,以及数字化转型的行业机遇,爱数创新性地开辟了能够迎头赶上的企业发展战略和商业模式:平台+生态。

AnyShareFamily7通过和合作伙伴构建全新的生态系统,将AnyShareFamily7打造成一个开放平台。因此,AnyShareFamily7可以由爱数与合作伙伴生态,联合创新,共同为客户提供覆盖广泛、功能丰富的内容管理解决方案。目前,AnyShare已经与数据安全整体解决方案厂商华途、PDF内容管理解决方案厂商福昕等,在不同细分行业领先的企业全面展开生态合作。

爱数的平台+生态的商业模式体现在两方面:一是爱数与合作伙伴共同创新研发,基于爱数的四大数据服务平台,结合基础设施生态、行业生态、应用生态、服务商生态等合作伙伴,帮助各行业用户进行数字化转型;二是和商业伙伴形成创新的商业模式,爱数向合作伙伴开放其平台及市场,与合作伙伴相互销售产品、共享收获收益,进而快速地实现规模效益。

未来,爱数将会连接更多的生态伙伴,与爱数深度融合,为客户提供最佳的数字化服务。

智能内容云,打造数据化时代的生产力平台

爱分析:如何定义智能内容云?

贺鸿富:智能内容云的定义可以拆解为三个部分:第一是云,我们利用大量的云计算技术,帮助用户解决海量非结构数据问题。云计算的技术特点包括弹性、敏捷性、可靠性等,涉及对象存储技术、索引技术、云原生技术、外部接口技术等,客户既可以部署在私有云里面,可以部署在它信任的服务合作伙伴里面,也可以选择爱数公有云。

第二是内容,内容就是把数据打开能看到的信息、查看方式、数据合法性、知识点等。如果只是把数据打包从A点移动到B点,那是对象存储。爱数平台的核心价值之一是云中立,广泛兼容各种云基础设施,包括各种对象存储,我们已经兼容了18个对象存储的选择,客户可以选择用自己的平台或者我们提供的开源平台。

第三是智能,客户的很多需求得不到满足就是因为还不够智能,AnyShareFamily7最大的创新的点就是融合了大量的智能技术,包括机器学习、深度学习、自然语言处理等,实现对非结构化数据内容的搜索、识别、抽取以及知识生成。例如,图片搜索就是利用了人工智能技术。

爱分析:AnyShare的产品是如何迭代到目前的版本的?

贺鸿富:AnyShare定位很明确,是作为下一代的企业内容管理平台,“下一代”这三个字如何解读,是我们探索和创新的方向。我们从两个视角来看这个问题。

第二是从企业内容管理平台应用角度,Gartner、IDC、Forrester等研究公司在定义企业内容管理平台的时候,都认为作为企业内容管理平台,需要具备几大核心能力:整合业务系统中的非结构化数据、给特定的业务系统提供内容能力、文档管理、团队协作等功能。

所以,我们原来做内容总线,只解决数据集成和数据共享流转的问题,解决的问题领域其实是非常有限的。后面我们又提出内容数据湖,到现在提出非结构数据中台,逐步演进,能比较完整地支撑下一代企业内容管理平台,有效地管理整个数据生命周期,并且能够实现数据洞察赋能业务。这是我们新的AnyShareFamily7的演进过程。

爱分析:AnyShareFamily7相比AnyShareFamily6有哪些技术突破与升级?

贺鸿富:有很多创新。例如,在图片搜索图片分类方面,首先产品架构要能支持海量数据处理,需要具有微服务化、索引集群化等;其次,我们不采用大规模的计算模型,注重性价比,所以可以采用很多算法来帮客户做计算压缩、内存压缩、并行处理等处理。所以爱数的重点不是算法创新,而是应用创新。

爱分析:智能内容云平台会融入哪些新的AI技术?如何在实际业务场景中和客户的需求和业务诉求结合?

贺鸿富:涉及的技术点非常多,从总体来看,技术分成几大类别:第一是对内容的识别方面涉及NLP和知识图谱,第二在图片方面涉及技术机器学习和深度学习,第三对表格数据自动化等系列产品应用的是模式识别等。

但是,人工智能技术经过这几年的蓬勃发展,已经有了很好的发展。大量的人工智能基础平台技术提供方(如谷歌、华为、微软等)开放了算法框架,所以爱数在人工智能方面主要是应用,而不是算法创新。我们会根据客户的需求去寻找最佳匹配的算法,并且集成到产品中。

联合创新合作伙伴生态,赋能行业数字化转型

爱分析:中国的内容管理市场跟国外相比有什么特点?爱数的机会在哪里?

贺鸿富:中国有很多独特的行业,所以有很多的内容管理公司。但是,中国的内容管理市场刚刚起步,企业会根据客户需求搭建数据库、操作系统、中间件等,并逐渐模块化。但是,越来越多的客户意识到,从上到下全部开发有很大的局限性。

国外企业应用跟中国不一样,几乎每一个领域都有平台厂商,也有大量的专业服务商,根据客户的要求基于平台做实施服务和应用。

爱分析:爱数和生态合作伙伴采取什么样的合作形式?

贺鸿富:第一,我们的生态战略不是简单地找一些合作伙伴作为销售渠道,而是双方一起联合创新,在研发阶段进行技术融合,给客户创造更大价值。

第二,我们把合作伙伴生态战略定位为整个公司的发展战略,把公司的商业模式从原来的产品销售模式演变成平台+生态的商业模式。因此,目前的合作伙伴关系发生了很大转变,你中有我我中有你,我们和合作伙伴可以相互销售对方的产品。

第三,我们选择的合作伙伴要有核心的开发能力,我们的合作都是强强合作,我们在每一个细分领域里面寻找最优秀的这些公司,所以我们有独特的平台价值。

爱分析:爱数的生态合作的战略与其他竞争对手的生态有什么区别?

贺鸿富:爱数的平台加生态的战略思路是把我们的平台能力无限拓展,大部分内容服务的能力都不是由爱数开发,而是把内容服务能力完全开放出去,只要是合作伙伴能提供的我们就不做了,这是我们的一个原则,而且我们是开放给所有的合作伙伴。我们的生态开放精髓不是开放服务能力给服务商更好地服务客户,这只是其中重要的一部分,更重要的是应用厂商在我们的平台上面更好地开发应用。

爱分析:如何定义数字时代的生产力平台?

爱分析:爱数的平台战略是否能够满足客户的个性化需求?

贺鸿富:解决这个问题的办法有很多种,一种就是按照客户的要求从上到下全部开发,另一种是基于高度内聚能力的平台做延伸和定制。我们选第二种方案,所以我们从不避讳客户的定制化需求,我们要解决的问题是如何用我们的方式满足客户的定制需求。我们依据于研发体系,打造平台,平台本身是没有任何定制需求的,但是这个平台里面有大量的开放性的特征,比如我们提供了超过400个API、大量的可配置的模块、大量可集成技术开发框架,满足用户各种场景下的集成需求,这考验的是我们平台的抽象能力和开发能力。

同时,我们提供了一个先进和完整的商业模式改变在中国建设生态的问题,其中有两个精髓:第一是要创造更大的平台吸引合作伙伴;第二是我们要打造开放性的合作模式,保证合作伙伴能共享利益并且有话语权。我们不是参考国内产品销售代理的模式,而是把爱数的服务和市场完全开放给合作伙伴,让他们独立销售。

非结构化数据中台赋能企业内容级管理

爱分析:当前在数据化转型阶段企业客户目前主要面临的挑战是什么?

贺鸿富:几乎没有一家企业能够告诉企业如何落地其数字化战略,企业有很强烈的意愿要做数据驱动,但他们对数据驱动的实现路径并不清楚,所以当有一个新的物种出来的时候,他们就会去尝试,建设结构化数据中台,但是发现建设并不是可以一步到位的。因为从结构化数据着手包袱太重,面临的业务重构的问题太多了。

爱分析:目前,在这四大场景下,面临的技术挑战有哪些?

同时,算法也是难点之一。有些企业客户的算力和数据都很有限,在这样的情况下,要保证好的效果就要保证算法有一定的突破。

爱分析:什么行业、哪种类型的客户最先有可能落地非结构化数据中台?

贺鸿富:每个行业都有相应的企业,只是不同行业中企业自身的经营战略和领导风格不同,会导致大家在数字化的态度上参差不齐。

数字化转型走在前列的企业会先落地。第一,数字化要成为整个公司的战略重点;第二,公司已经有一些很好的数字化基础了;第三,公司出于外部环境或自身战略需求,需要进一步加大数字化的投入和推进。

爱分析:如何看待数字化转型中懂行的必要性?

贺鸿富:做数字化转型必须得懂行,因为数字化是业务转型,是业务智能化,不懂行业无法提供相应针对性的解决方案的。

同时,数字化和信息化不一样,信息化是全球堆栈,系统、中间件、应用分工很明朗,但是在数字化里实现业务智能化,背后是大量新技术驱动,原来只专注应用的堆栈全部都要重构,因此技术性公司必须要懂行。客户也必须要转型成一家软件公司,两者结合才可能实现数字化落地。

爱分析:未来,非结构化数据中台会如何演进?

贺鸿富:从用户的角度来看,非结构化数据的管理有几个核心需求:数字资产管理、业务流程自动化、知识运营、业务合规性管理。从爱数的角度来看,我们现在已经提供了这些场景解决方案,但在技术层面要解决的问题非常多。未来2~3年内,爱数都会围绕这些场景解决方案在技术层面持续突破,这并非是一蹴而就。例如,目前我们在知识图谱方面构建的应用场景还很有限,无法覆盖各行各业。所以,未来我们会围绕这4个方向,持续深化、帮助用户实实在在地创造更多基于海量非结构化数据的价值。

THE END
1.用机器学习解决非结构化数据问题随着非结构化数据变得越来越普遍并且与日常业务决策和运营更加相关,基于 ML 的质量控制可提供急需的保证,确保您的数据相关、准确且有用。当您不关心数据质量时,您可以专注于使用数据来推动业务发展。 想想当您控制数据时出现的可能性——或者更好的是,让 ML 为您处理工作。https://zhuanlan.zhihu.com/p/591740592
2.软件系统架构黄金法则13:非结构化数据存储架构法则随着数据的增长和复杂性,非结构化数据存储技术变得越来越重要。非结构化数据包括文本、图像、音频、视频和其他不符合结构化数据库的数据。传统的结构化数据库无法有效地存储和管理非结构化数据,因此需要一种新的存储架构来处理这些数据。 本文将涉及非结构化数据存储架构的核心概念、算法原理、最佳实践、实际应用场景和工https://blog.csdn.net/universsky2015/article/details/135778787
3.什么是非结构化数据?我们所处理的数据分为三类,分别是规格化数据、半结构化数据以及非结构化数据,其中非结构化数据的定义为:呈现出不规则且无明显结构特征的数据。 -规格化数据:数据与字段相对应,数据以表格和数据集形式存在。 -半结构化数据:这种数据形态介于规格化数据和非结构化数据之间,方法是结合不明晰的规则来补足规格化数据的缺陷。https://www.filez.com/news/detail/faee08ab6bdc85c2d6216e4773bcc01f.html
4.数据中台的技术架构有哪些帆软数字化转型知识库数据中台的技术架构包括:数据接入层、数据存储层、数据处理层、数据服务层、数据安全层、数据运营层。数据接入层是数据中台技术架构中的第一步,其主要功能是从各种数据源中采集和接入数据,包括结构化数据、半结构化数据和非结构化数据。通过数据接入层,企业能够将不同来源的数据统一接入到数据中台,确保数据的全面性和https://www.fanruan.com/blog/article/639918/
5.HitachiVantara吴卫平:以非结构化数据存储管理解决方案,推动企业在非结构化数据存储管理上,Hitachi Vantara并非仅是推出一个单一的产品,而是结合Hitachi Vantara的技术和运营经验,为用户提供一个整体的框架;同时,结合Hitachi在IT领域长期的数据采集、分析能力,使得平台+业务构成为一个完整的解决方案,帮助用户实现业务重构,推动企业的数字化转型。这即是Hitachi Vantara的宏大愿景。 https://www.51cto.com/article/625502.html
6.软考高级——信息系统项目管理师(第4版)思维导图模板越来越多的产品中嵌入了智能化元器件,使产品具有越来越强的信息处理功能 产业信息化指农业、工业、服务业等传统产业广泛利用信息技术,大力开发和利用信息资源,建立各种类型的产业互联网平台和网络,实现产业内各种资源、要素的优化与重组,从而实现产业的升级。 https://www.processon.com/view/654c455f8f11b40fe56ece43
7.大数据技术原理与应用期末复习知识点全总结(林子雨版2.数据存储和管理层面 功能:利用分布式文件系统、数据仓库、关系数据库、NoSQL 数据库、云数据库等,实现对结构化、半结构化和非结构化海量数据的存储和管理 3.数据处理与分析层面 功能:利用分布或并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析;对分析结果进行可视化呈现,帮助人们更好https://developer.aliyun.com/article/1418435
8.《华为数据之道》读书笔记:第5章面向“联接共享”的数据底座建设1 支撑非数字原生企业数字化转型的数据底座建设框架 华为公司通过建设数据底座,将公司内外部的数据汇聚在一起,对数据进行重新组织和联接,让数据有清晰的定义和统一的结构,并在尊重数据安全与隐私的前提下,让数据更易获取,最终打破数据孤岛和垄断。 ? 通过数据底座,主要可以实现如下目标: https://xie.infoq.cn/article/ca685bfdce0341b1280fb71b0
9.Milvus旨在帮助用户实现海量非结构化数据的近向量搜索引擎 Milvus 旨在帮助用户实现海量非结构化数据的近似检索和分析。单个 Milvus 实例可处理十亿级数据规模,而对于百亿或者千亿规模数据的需求,则需要一个 Milvus 集群实例,该实例对于上层应用可以像单机实例一样使用,同时满足海量数据低延迟、高并发业务需求。集群内部处理请求转发、读写分离、水平扩展、动态扩容,https://juejin.cn/post/6844904105672966158
10.非结构化数据提取技术在统计工作中的应用摘要结构化数据和非结构化数据是大数据的两种类型,目前非结构化数据信息已达信息总量的85%以上,且每年以55%~65%的速度增长,统计工作受到大数据的冲击,日常总会遇到一些非结构化数据提取的难题,导致工作量加大,效率低下。本文对非结构化数据及其提取技术、大数据处理语言——Python语言进行学习研究,解决实际中遇https://tjj.changzhi.gov.cn/sjfx/202207/t20220704_2588893.html
11.如何把非结构化的数据转结构化?2. 非结构化数据转化成结构化数据 3. 构建知识图谱、构建搜索及推荐引擎 2.如何建立全息档案? 建立全息档案的技术框架包括 Web 索引层、知识图谱层和应用层三部分。 Web 索引层是我们逐步做出的一个「搜索引擎」,每天不断爬取互联网中的网页,留下可能与我们感兴趣的机构——我们称为种子机构——相关的部分,经过https://www.jianshu.com/p/d41516910ce2
12.了解结构化数据与非结构化数据的差异数据用途广泛,有多种形式,并且可以通过多种方式进行组织。一种常见的分类是结构化或非结构化数据,具有不同的存储、处理和分析方法。了解这些差异有助于从任何数据集中提取有价值的见解。 结构化数据与非结构化数据:主要区别 结构化和非结构化数据在许多方面都有所不同。两者都使用不同的工具和方法来处理和分析信息https://www.360doc.cn/article/68899713_1124424478.html
13.干货!非结构化数据分析的10个步骤腾讯云开发者社区4. 存储数据准备 数据准备意味着要处理在数据中删除所有的空白,格式化等问题。现在,当企业拥有所有的数据时,不管是否对业务有用,一旦准备好数据,就可以开始整理一堆有用的数据,并索引非结构化数据。 5.采用数据堆栈和存储技术 消除无用的数据后,堆叠数据是理想的下一步。请务必使用最新的技术来保存和堆叠数据,以便https://cloud.tencent.com/developer/article/1008189