非结构化数据管理难,爱数AnyShareFamily革新企业内容管理爱分析调研

海量非结构化数据激发企业数字化转型新需求

随着移动互联网、社交网络等新媒介发展及人工智能等新技术的突破性进展,企业面临的内外部数据快速增长。IDC数据表明,2020年全球新建和复制的信息量将超过40ZB,是2012年的12倍,其中中国的数据量将在2020年超过8ZB,比2012年增长22倍。

伴随海量非结构化数据的产生,客户也面临新的数据管理挑战:

目前为止,行业内还没有一套有效的解决方案能应对企业的非结构化数据管理需求。国内的企业内容管理平台主要集中在内容存储、传统企业网盘、文档管理及协作等方面,无法满足企业非结构化数据管理的需求。同时,很多客户即使上线了国外最好的系统,但由于缺乏统一架构,仍然存在很多问题无法解决。

例如,一家农信银行曾上线了一套影像平台,基于Documentum内容管理平台开发了内容门户,并部署在Oracle数据库上,这已经使用了全球领先的技术与平台,但目前该银行数据每天增长300~500G,架构扩容难;同时,影像文件都是非结构化数据,文件小,每一次备份都不低于20天,严重影响业务连续性。因此,基于行业基本的架构,海量非结构化数据的扩展能力和备份恢复能力都无法得到保证,企业需要架构创新,能够满足同时将业务数据、知识数据、桌面数据在一个平台里面进行统一内容级的管理能力。

02

承载爱数非结构化数据战略,AnyShareFamily7应运而生

面对客户在非结构化数据方面的痛点和需求,爱数基于其新发布产品AnyShareFamily7(智能内容云),为客户提供非结构化数据的内容管理平台。AnyShareFamily7不仅是存储和管理非结构化数据的产品,而且以利用与共享作为其核心价值,为用户提供数据整合、管理和洞察。

作为一家大数据基础设施提供商,爱数从2010年就开始打磨AnyShare产品。2011年,爱数推出AnyShare3.0版本,产品定位于更好的NAS,即网盘原型,解决用户数据存储的问题;随后,爱数逐步推出AnyShare3.5、AnyShare5.0等产品,解决用户集中管理文档、桌面备份等问题,并于2018年推出AnyShareFamily6(统一文档云),不断拓展产品的深度与广度,为客户建立非结构化数据中心,将海量、分散的非结构化数据管理起来。

随着爱数的企业战略由过去的企业内容存储和文档管理向企业内容管理转型,爱数的系列产品也随之不断演进。经过多个技术的创新突破之后,爱数于2020年7月揭秘AnyShareFamily7,定位于企业内容管理,并融合大量核心人工智能技术,面向整合业务应用、内容应用开发、文档管理、团队协作和非结构化数据洞察等五大关键场景,使爱数从企业云盘市场进入企业内容管理市场。

AnyShareFamily7具有特殊的产品体系架构,是一个一体化的内容云平台,覆盖应用、桌面、移动端的非结构化数据;采用一套内容总线架构进行各类数据的统一集成;基于一个内容数据湖提供海量非结构化数据的管理和分析能力;同时具有一套文档管理体系和一套安全服务框架。AnyShareFamily7可以部署在公有云、私有云及混合云,满足各种IT架构。基于云原生架构,实现系统架构弹性扩展,可以应对海量用户并发访问高吞吐量的访问请求,这也是AnyShareFamily7相比于国际知名内容管理平台厂端的核心优势之一。

AnyShareFamily7进行了诸多技术创新,其中包括两个突破性的技术:第一个特性是智能搜索能力。基于微服务+索引集成、IVFFLAT倒排索引、支撑集+PQ编码优化等技术,AnyShareFamily7可以提供强大的计算能力,以极小查找计算量实现数十亿文件的以图搜图功能,并有效减少内存空间。AnyShareFamily7的智能搜索的功能包括全文搜索、标签搜索、编目搜索、以文搜图、以图搜图等,相对上一代AnyShareFamily6(文档云)性能提高5倍以上。

例如,一家银行有超过6000万个影像文件,包括身份证、合同等60多种影像数据类型,爱数提供了多功能引擎,包括特征向量搜索引擎、源数据服务引擎、全文检索引擎,并将这些引擎结合在一起,完成6000万影像文件的自动分类和搜索。

爱数结合AnyBackupFamily和AnyShareFamily7两款产品,并创新性地开发了OSS网关技术,保证系统不再只备份海量小文件,而是备份合并后的大对象,能够保障小文件的备份恢复性保持在240MB以上,且性能稳定不抖动,解决了困扰行业30年的小文件备份恢复的难题。

03

打造非结构化数据中台,赋能企业数据内容复用

非结构化数据管理之所以难,不仅因为其数量多、分散性高,还在于用户对于非结构化数据的需求是多层次的。在数据、内容、信息和知识层面分别有不同的需求。所以,目前为止,行业在非结构化数据层面很难从数据层面到知识层面提供完整有效的方案。

爱数将AnyShareFamily7与其他产品AnyBackup、AnyRobot、AnyDATA组合,基于人工智能驱动和数据架构底座,提出非结构化数据中台,可应用于智慧企业、金融科技、智慧城市、智慧教育等领域,真正解决用户内容管理的需求。

爱数的非结构化数据中台目前已经面向四类场景落地应用:数据资产管理赋能数字化运营、内容自动化赋能业务流程自动化、智能知识运营赋能学习型组织、立体安全赋能业务合规性管理。

内容自动化场景应用出自大量企业降低出错率、提高生产效率、降低人力成本等诉求,以期实现业务流程自动化。传统内容自动化技术识别内容主要基于页面实现填表自动化,但爱数的非结构化数据中台基于AnyShare平台和源数据提取及SmartSheets核心技术,能够针对不同的页面需要重复识别,覆盖数据采集、内容分析和数据生成、业务系统对接等全环节,实现内容自动化+智能检索,进而实现数据处理流程自动化。例如,某银行需要对贷后800家上市公司的财务报表进行监控与核查,使用RPA后,实现全流程自动化,此前40个人的工作量仅需一个人完成,提升工作效率与员工的工作满意度。

在业务合规管理场景下,随着海量数据产生及人工智能技术应用,企业内外部的合规性要求愈发严格。传统的数据安全方案大多只解决了企业文档层面的安全问题,但没有解决内容方面的安全问题。爱数的非结构化数据中台基于AnyShareFamily7和AnyRobot,从数据安全、内容安全、信息安全、知识安全等多层次建立立体安全体系。同时,爱数在其应用生态中引入第三方安全应用或程序,保障客户的数据安全合规。

04

平台+生态合作,创造领先商业模式

全球内容服务市场是一个超过180亿美元的市场,增长迅速,中国市场的应用成熟度尚且不够。

全球内容管理平台的领导者是微软、OpenText、IBM、Box等,但是这些企业的内容管理平台并非是完美的。根据Gartner发布的报告,各企业平台都有或多或少的缺陷。在未来,人工智能技术是内容管理创新共同的突破点,而在人工智能方面,全球企业都处于初始阶段。因此,尽管全球领先厂商具有较高的内容成熟度,但从行业角度来看,AnyShareFamily7仍有很大的发展空间。

借着国产化浪潮来临的市场机遇、人工智能和云计算等快速发展的技术机遇,以及数字化转型的行业机遇,爱数创新性地开辟了能够迎头赶上的企业发展战略和商业模式:平台+生态。

AnyShareFamily7通过和合作伙伴构建全新的生态系统,将AnyShareFamily7打造成一个开放平台。因此,AnyShareFamily7可以由爱数与合作伙伴生态,联合创新,共同为客户提供覆盖广泛、功能丰富的内容管理解决方案。目前,AnyShare已经与数据安全整体解决方案厂商华途、PDF内容管理解决方案厂商福昕等,在不同细分行业领先的企业全面展开生态合作。

爱数的平台+生态的商业模式体现在两方面:一是爱数与合作伙伴共同创新研发,基于爱数的四大数据服务平台,结合基础设施生态、行业生态、应用生态、服务商生态等合作伙伴,帮助各行业用户进行数字化转型;二是和商业伙伴形成创新的商业模式,爱数向合作伙伴开放其平台及市场,与合作伙伴相互销售产品、共享收获收益,进而快速地实现规模效益。

未来,爱数将会连接更多的生态伙伴,与爱数深度融合,为客户提供最佳的数字化服务。

智能内容云,打造数据化时代的生产力平台

爱分析:如何定义智能内容云?

贺鸿富:智能内容云的定义可以拆解为三个部分:第一是云,我们利用大量的云计算技术,帮助用户解决海量非结构数据问题。云计算的技术特点包括弹性、敏捷性、可靠性等,涉及对象存储技术、索引技术、云原生技术、外部接口技术等,客户既可以部署在私有云里面,可以部署在它信任的服务合作伙伴里面,也可以选择爱数公有云。

第二是内容,内容就是把数据打开能看到的信息、查看方式、数据合法性、知识点等。如果只是把数据打包从A点移动到B点,那是对象存储。爱数平台的核心价值之一是云中立,广泛兼容各种云基础设施,包括各种对象存储,我们已经兼容了18个对象存储的选择,客户可以选择用自己的平台或者我们提供的开源平台。

第三是智能,客户的很多需求得不到满足就是因为还不够智能,AnyShareFamily7最大的创新的点就是融合了大量的智能技术,包括机器学习、深度学习、自然语言处理等,实现对非结构化数据内容的搜索、识别、抽取以及知识生成。例如,图片搜索就是利用了人工智能技术。

爱分析:AnyShare的产品是如何迭代到目前的版本的?

贺鸿富:AnyShare定位很明确,是作为下一代的企业内容管理平台,“下一代”这三个字如何解读,是我们探索和创新的方向。我们从两个视角来看这个问题。

第二是从企业内容管理平台应用角度,Gartner、IDC、Forrester等研究公司在定义企业内容管理平台的时候,都认为作为企业内容管理平台,需要具备几大核心能力:整合业务系统中的非结构化数据、给特定的业务系统提供内容能力、文档管理、团队协作等功能。

所以,我们原来做内容总线,只解决数据集成和数据共享流转的问题,解决的问题领域其实是非常有限的。后面我们又提出内容数据湖,到现在提出非结构数据中台,逐步演进,能比较完整地支撑下一代企业内容管理平台,有效地管理整个数据生命周期,并且能够实现数据洞察赋能业务。这是我们新的AnyShareFamily7的演进过程。

爱分析:AnyShareFamily7相比AnyShareFamily6有哪些技术突破与升级?

贺鸿富:有很多创新。例如,在图片搜索图片分类方面,首先产品架构要能支持海量数据处理,需要具有微服务化、索引集群化等;其次,我们不采用大规模的计算模型,注重性价比,所以可以采用很多算法来帮客户做计算压缩、内存压缩、并行处理等处理。所以爱数的重点不是算法创新,而是应用创新。

爱分析:智能内容云平台会融入哪些新的AI技术?如何在实际业务场景中和客户的需求和业务诉求结合?

贺鸿富:涉及的技术点非常多,从总体来看,技术分成几大类别:第一是对内容的识别方面涉及NLP和知识图谱,第二在图片方面涉及技术机器学习和深度学习,第三对表格数据自动化等系列产品应用的是模式识别等。

但是,人工智能技术经过这几年的蓬勃发展,已经有了很好的发展。大量的人工智能基础平台技术提供方(如谷歌、华为、微软等)开放了算法框架,所以爱数在人工智能方面主要是应用,而不是算法创新。我们会根据客户的需求去寻找最佳匹配的算法,并且集成到产品中。

联合创新合作伙伴生态,赋能行业数字化转型

爱分析:中国的内容管理市场跟国外相比有什么特点?爱数的机会在哪里?

贺鸿富:中国有很多独特的行业,所以有很多的内容管理公司。但是,中国的内容管理市场刚刚起步,企业会根据客户需求搭建数据库、操作系统、中间件等,并逐渐模块化。但是,越来越多的客户意识到,从上到下全部开发有很大的局限性。

国外企业应用跟中国不一样,几乎每一个领域都有平台厂商,也有大量的专业服务商,根据客户的要求基于平台做实施服务和应用。

爱分析:爱数和生态合作伙伴采取什么样的合作形式?

贺鸿富:第一,我们的生态战略不是简单地找一些合作伙伴作为销售渠道,而是双方一起联合创新,在研发阶段进行技术融合,给客户创造更大价值。

第二,我们把合作伙伴生态战略定位为整个公司的发展战略,把公司的商业模式从原来的产品销售模式演变成平台+生态的商业模式。因此,目前的合作伙伴关系发生了很大转变,你中有我我中有你,我们和合作伙伴可以相互销售对方的产品。

第三,我们选择的合作伙伴要有核心的开发能力,我们的合作都是强强合作,我们在每一个细分领域里面寻找最优秀的这些公司,所以我们有独特的平台价值。

爱分析:爱数的生态合作的战略与其他竞争对手的生态有什么区别?

贺鸿富:爱数的平台加生态的战略思路是把我们的平台能力无限拓展,大部分内容服务的能力都不是由爱数开发,而是把内容服务能力完全开放出去,只要是合作伙伴能提供的我们就不做了,这是我们的一个原则,而且我们是开放给所有的合作伙伴。我们的生态开放精髓不是开放服务能力给服务商更好地服务客户,这只是其中重要的一部分,更重要的是应用厂商在我们的平台上面更好地开发应用。

爱分析:如何定义数字时代的生产力平台?

爱分析:爱数的平台战略是否能够满足客户的个性化需求?

贺鸿富:解决这个问题的办法有很多种,一种就是按照客户的要求从上到下全部开发,另一种是基于高度内聚能力的平台做延伸和定制。我们选第二种方案,所以我们从不避讳客户的定制化需求,我们要解决的问题是如何用我们的方式满足客户的定制需求。我们依据于研发体系,打造平台,平台本身是没有任何定制需求的,但是这个平台里面有大量的开放性的特征,比如我们提供了超过400个API、大量的可配置的模块、大量可集成技术开发框架,满足用户各种场景下的集成需求,这考验的是我们平台的抽象能力和开发能力。

同时,我们提供了一个先进和完整的商业模式改变在中国建设生态的问题,其中有两个精髓:第一是要创造更大的平台吸引合作伙伴;第二是我们要打造开放性的合作模式,保证合作伙伴能共享利益并且有话语权。我们不是参考国内产品销售代理的模式,而是把爱数的服务和市场完全开放给合作伙伴,让他们独立销售。

非结构化数据中台赋能企业内容级管理

爱分析:当前在数据化转型阶段企业客户目前主要面临的挑战是什么?

贺鸿富:几乎没有一家企业能够告诉企业如何落地其数字化战略,企业有很强烈的意愿要做数据驱动,但他们对数据驱动的实现路径并不清楚,所以当有一个新的物种出来的时候,他们就会去尝试,建设结构化数据中台,但是发现建设并不是可以一步到位的。因为从结构化数据着手包袱太重,面临的业务重构的问题太多了。

爱分析:目前,在这四大场景下,面临的技术挑战有哪些?

同时,算法也是难点之一。有些企业客户的算力和数据都很有限,在这样的情况下,要保证好的效果就要保证算法有一定的突破。

爱分析:什么行业、哪种类型的客户最先有可能落地非结构化数据中台?

贺鸿富:每个行业都有相应的企业,只是不同行业中企业自身的经营战略和领导风格不同,会导致大家在数字化的态度上参差不齐。

数字化转型走在前列的企业会先落地。第一,数字化要成为整个公司的战略重点;第二,公司已经有一些很好的数字化基础了;第三,公司出于外部环境或自身战略需求,需要进一步加大数字化的投入和推进。

爱分析:如何看待数字化转型中懂行的必要性?

贺鸿富:做数字化转型必须得懂行,因为数字化是业务转型,是业务智能化,不懂行业无法提供相应针对性的解决方案的。

同时,数字化和信息化不一样,信息化是全球堆栈,系统、中间件、应用分工很明朗,但是在数字化里实现业务智能化,背后是大量新技术驱动,原来只专注应用的堆栈全部都要重构,因此技术性公司必须要懂行。客户也必须要转型成一家软件公司,两者结合才可能实现数字化落地。

爱分析:未来,非结构化数据中台会如何演进?

贺鸿富:从用户的角度来看,非结构化数据的管理有几个核心需求:数字资产管理、业务流程自动化、知识运营、业务合规性管理。从爱数的角度来看,我们现在已经提供了这些场景解决方案,但在技术层面要解决的问题非常多。未来2~3年内,爱数都会围绕这些场景解决方案在技术层面持续突破,这并非是一蹴而就。例如,目前我们在知识图谱方面构建的应用场景还很有限,无法覆盖各行各业。所以,未来我们会围绕这4个方向,持续深化、帮助用户实实在在地创造更多基于海量非结构化数据的价值。

THE END
1.机器学习面临的三个关键数据挑战当前,关于捕获哪些元数据没有行业标准。然而,元数据与数据本身一样重要。当您具有填充了不同元数据字段的相同类型的数据时,如何关联和过滤数据? 如果以浮标为例,初始数据传感器每十分钟收集一次水温,而较新的浮标每三分钟收集一次水温。关联数据的唯一方法是通过元数据在捕获时公开。当科学家进行历史分析时,他们需要元https://www.528045.com/article/7f423917e5.html
2.排序不完全成功的原因是什么?这种问题如何影响数据处理?在数据处理的领域中,排序不完全成功是一个较为常见但又颇为关键的问题。造成排序不完全成功的原因多种多样。首先,数据的复杂性和多样性是一个重要因素。当数据包含多种类型、格式不一致或者存在大量的缺失值时,排序算法可能无法准确地处理和比较这些数据,从而导致排序结果不完全准确。 https://funds.hexun.com/2024-12-18/216258656.html
3.四不像正版资料,构建解答解释落实m418.39.40看点在数据分析的世界里,我们经常会遇到各种看似杂乱无章的数据,这些数据就像“四不像”一样,难以直接归类和解释,正是这些“四不像”的数据,往往蕴含着最有价值的信息,本文将深入探讨如何构建、解答和落实这些“四不像”的正版资料,以期为数据分析师提供一套实用的方法论。 https://www.yzcjl.cn/post/5569.html
4.四不像正版资料,综合解答解释落实1b93.47.84最新我们时常会遇到一些难以直接归类或解释的数据集,这些数据被形象地称为“四不像”数据,它们既不完全符合传统的结构化数据特征,也不具备典型的非结构化数据模式,同时在半结构化数据的范畴内也显得格格不入,甚至超越了多结构化数据的复杂度,本文旨在深入探讨这类特殊数据的处理策略,提供综合解答,并确保解决方案的有效落实https://vip.cshuijitang.cn/post/2894.html
5.数据分析面临的挑战是什么会计实务答:提高数据分析效率的关键在于建立一套完善的数据管理和清洗流程。通过自动化工具和算法,可以快速识别和处理数据中的错误和不一致,从而提高数据质量。同时,利用先进的分析技术和工具,如大数据平台和云服务,可以加速数据处理和分析的过程,提高整体效率。 在数据安全方面,企业应采取哪些措施来保护用户隐私? https://www.chinaacc.com/kuaijishiwu/krky/zh20241216112531.shtml
6.机器学习找不到创新点?三种特征选择的方法包你拿下顶会!文章介绍了两种新的决策树框架LDATree和FoLDTree,它们结合了不相关线性判别分析(ULDA)和前向ULDA。这些方法能够高效地进行斜切分,处理缺失值,支持特征选择,并提供类标签和概率作为模型输出。通过在模拟和真实数据集上的评估,LDATree和FoLDTree在准确率上与随机森林相当,显示出作为传统单树方法的稳健替代方案的潜力。 https://www.bilibili.com/read/cv40067807
7.数据孤岛“孤”在哪里?不同部门或系统可能采用不同的数据格式来存储和处理数据,造成了数据格式多样杂乱。https://www.zhihu.com/question/440784592/answer/57419373127
8.清博智能王欢:实时接入结构化数据的大语言模型是如何练成的?结构化数据和非结构化数据有何不同? 王欢:非结构化数据,比如说你现在访问的网页,你只看正文部分它就是文本,它的内容就是原始正文。搜素引擎看的就是原始正文,给它训练的数据也是原始正文。 结构化数据不仅知道它的原始正文信息,还对这些信息做了结构化处理,包括发布提及的地域信息、文本分词信息、内容分类以及正负https://m.cls.cn/detail/1388555
9.2022年中国知识图谱行业研究报告澎湃号·湃客澎湃新闻同时,文本、图片、各类报表和音频、视频、HTML等非结构化数据广泛存在于互联网中。互联网企业需要在现有的存量业务中,收集碎片化信息,处理非结构化数据,挖掘信息间的潜在联系,还原完整的、有价值的信息。然而,信息的关联关系挖掘是一项工作量巨大且复杂的工程。https://www.thepaper.cn/newsDetail_forward_19458208
10.行政管理论文15篇这势必导致学生处理社会现实问题和交往能力的技能很难有所提升,他们的知识结构、能力结构和素质明显存在不平衡,很难适应信息社会高速发展的需要。操作性和实践性教学严重薄弱。虽然目前我国高校《行政管理学》课程内容体系一般都设置了教学实习、实训等实践环节,但由于其时间短、任务重,而且管理松散,缺乏常态化和规范化,https://www.ruiwen.com/lunwen/6220159.html
11.RPA机器人在处理非结构化数据时,有哪些挑战和解决方案?强化异常处理能力: 开发健全的异常处理机制,包括自动化的错误恢复和报警系统,以确保RPA在面对非结构化数据处理中的异常情况时能够迅速应对。 综上所述,虽然RPA在处理非结构化数据时面临诸多挑战,但通过结合先进技术、进行数据预处理、持续监控与调整以及强化异常处理能力等措施,我们可以有效地提升RPA在这方面的性能。https://www.ai-indeed.com/encyclopedia/9960.html
12.数据治理新要求2018 年初加入度小满金融开始组建数据智能部,从0到1建设度小满金融的智能引擎的核心算法,深耕计算机视觉、自然语言处理、图模型、机器学习、因果推断等技术能力,多篇文章被EMNLP、ACL、CIKM等国际顶会收录,“智能化征信解读中台”工程荣获吴文俊人工智能科技进步奖。相关技术广泛应用于度小满营销、经营、风控、反欺诈全流程https://hub.baai.ac.cn/view/32749
13.0.技术知识介绍:工业级知识图谱方法与实践1.3.1 非结构化数据的知识建模 1.候选术语抽取[目的是过去更多、更全的术语] 2.术语过滤[剔除低质量候选术语] 领域术语与普通词汇有不同特征,可以采用统计信息和语义信息过滤噪声,常见方法:互信息(MI)、词频逆文档频率(TF-TDF),术语相关频率(RTF)等定量刻画统计特征,或者用词向量方式捕捉术语之间的语义相关度刻画https://download.csdn.net/blog/column/12167028/126426906
14.大数据一般用什么数据库大数据领域的数据库通常使用开源软件,如Hadoop、Cassandra等,相比于传统的商业关系型数据库,成本更低。 综上所述,大数据领域的数据库相对于传统的关系型数据库,具有更好的可扩展性、高可用性、更快的处理速度、更好的适应非结构化数据和更低的成本等优势。https://www.linkflowtech.com/news/2745
15.非结构化数据灾难恢复方法有哪些?非结构化信息数据恢复主要针对3种不同的故障类型进行恢复工作,其基本原理是利用日志文件、副本来对系统中的非结构化信息进行恢复。 1.事务故障恢复 对于事务故障,利用保存在磁盘上逻辑日志以及物理日志中关于故障事务的信息,来撤销故障事务对非结构化信息所产生的影响。其具体的恢复步骤如下: https://www.qinfeng.gov.cn/info/4283/194279.htm
16.研究生开题报告模板这些非结构化数据库因为可扩展性强、资源利用率高,高并发、响应速度快等优势,在大数据应用环境中得到了广泛的应用。但此种应用只解决了前端的业务处理,要真正利用大数据实现商务智能,还需要为决策支持系统和联机分析应用等提供一数据环境——数据仓库。为此,导师指导本文作者拟此题目,研究基于Hadoop框架的数据仓库解决https://www.yjbys.com/file/yanjiushengkaitibaogaomoban.html
17.大数据中非结构化数据的挖掘:文本一、 点击流中的非结构化文本数据都有哪些? 首先来定性什么是非结构化文本数据,这里指的是点击流原始数据中以文字形式展现的数据,包括原始LOG日志以及已经被结构化入库中的部分数据,比如Adobe Analytics的Data Feed,Webtrekk中的Raw Data。当然,有些数据虽然是文本或字符串的形式,但并不是真正意义上的非结构化,比如https://www.51cto.com/article/432085.html