某银行非结构化数据存储痛点及对象存储需求分析

解决不同存储场景,不同数据形态的存储问题

提供高效、智能、可靠的数据管理方案

业务快速检索调用,让数据发挥更大价值

杉岩数据产品合集

全面满足客户海量数据存储、管理、应用需求

杉岩检测数据管理系统IDM

杉岩IDM针对企业海量检测数据,可以提供质量追溯、数据规整、数据分类、数据分析、可视化业务看板、价值挖掘、数据分层管理等多项功能模块,为企业构建一个高效、敏捷、灵活的制造支撑底座。

制造

金融

其他

产线检测数据管理案例集

比亚迪、京东方、孚能科技等先进制造企业如何控制数据存储和管理成本,实现产品质量和生产效率的同步提升?

杉岩检测数据管理系统

杉岩数据金融行业解决方案

为金融行业打造坚实存储底座,提供金融影像、非结构化数据、湖仓一体、信创存储等多种场景存储方案。

我们真诚为您提供帮助与支持

了解最新产品版本升级、发布动态

详细了解我们的服务政策和服务流程

联系方式

售后服务热线

400-838-3331转3

在这里认识杉岩数据,我们真诚地希望能与您携手合作

阅读杉岩数据最新产品动态、市场活动、大事件

获取海量数据存储和管理技术知识,给您的业务带来更多帮助

为您提供7*24小时技术服务支持

在这里,享受探索海量存储存储和管理技术的乐趣

杉岩数据公司介绍

全面了解杉岩品牌实力、产品业务和发展情况

一、非结构化数据存储的现状及痛点

地市影像数据目前分别存放于多个SAN存储当中,分别部署于不同的地市机房,根据地市的业务规模不一,存储容量也不一,平均每个SAN存储约100TB。总行影像数据通过存储分层架构实现在线、近线和离线数据的存储和隔离,如下图所示。在线存储存放于闪存(IBMFS900)当中,约10T,保存了近7天的影像数据,并通过IBMECM客户端定期迁移至ECM系统所接入的近线存储(IBMDS8870和V7000)当中,约50T,保存了近30天的影像数据,最后再通过IBMTSM备份软件每日将近线存储中的影像数据归档至离线存储(华为5300V3、IBMDCS3700)当中。

当信贷系统或者柜面等线下渠道业务需要调取7天以内的影像数据时,直接访问影像系统,读取影像节点的后端在线存储;当需要调取7天以上,30天以内的数据时,将先通过部署在影像节点上的ECM客户端,从ECM系统中抽取数据至影像节点,再传给相应的线上或线下的渠道业务系统;当需要调取30天以上的数据时,则步骤更加繁琐,涉及链路节点更多,需先通过TSM备份软件抽取备份的影像数据至ECM系统,再传给影像节点,最终传给相应的渠道业务系统。

因此,基于以上的现状及痛点,我行迫切需要对现有影像以及ECM的数据存储架构进行转型升级,精简该存储架构,全面提升影像数据的存储效率,并建设影像系统的两地三中心体系。

二、非结构化数据存储转型思路及需求分析

3、提升非结构化数据的副本数和冗余度。相较于现有存储架构中的单副本数据,要提升副本数,建设非结构化数据的两地三中心体系,必须通过存储级的复制技术实现,多副本间为完全拷贝,相同的一份数据在生产、同城和异地站点的存储中均保留一份,对于海量的影像数据而言,容量起步PB级,建设两地三中心,需要大量的存储成本投入,性价比低。而采用对象存储方案,其天生具有地理容灾性,通过独特的纠删码技术,将每份影像数据通过切片的方式切成若干份,分布于多个数据中心的多个存储节点当中,同时保留一定切片冗余。例如经典的7/12的切片规则,一份数据被切为12个切片,只要任意的7个切片数据完整,则原始数据就能正常访问,这样能够容忍任意5个切片数据失效。因此数据的冗余度也大大提升,即使某个数据中心的存储节点发生故障,或者访问节点发生故障,均可以通过其他存储节点和访问节点获取原始数据。该技术易于构建非结构化数据的两地三中心部署方案,提升数据可靠性,同时极大降低存储投入成本。

三、非结构化数据存储转型难点分析

基于以上的需求分析和转型思路,对我行的非结构化数据存储架构的改造而言,采用对象存储方案是最优的方案,转型后的架构如下图所示。但同时,另一方面,采用对象存储,也将给我行带来三个方面的难点问题,需要提前妥善解决。

2、非结构化数据存储迁移问题。原闪存、DS8870、5300V3中的非结构化存储数据需要通过调阅的方式迁移至对象存储当中,涉及的数据量较多,耗时较长,且影像系统在数据迁移过程中,不能影响各渠道业务的正常办理,业务不允许中断,迁移时也要对其他业务系统提供影像服务,因此,整个平滑迁移与过渡的方案要理清和妥善计划。另外,值得考虑的一点是,在迁移过程中,涉及历史数据调阅并重新通过API写入对象存储,同时正常的业务办理也需要调阅7天以上的影像数据至影像节点后端的文件系统,因此影像应用在改造时,需先同时兼容两种接口方式,并以拷贝的方式将数据备份至对象存储,而非直接迁移。

3、带宽扩容问题。由于我行多个地市目前分别部署了SAN存储用于存放当地市事后监督系统的影像数据,该方式设计的初衷也是为了规避集中在总行存放影像数据,带来地市到总行的流量带宽瓶颈问题,影像业务传输的大部分是图片,比特率较其他业务类型要大很多,在高峰时期可能会对地市其他线下渠道,如ATM、柜面、智能柜台、移动营销等业务造成影响。若采用了统一的对象存储方案,且对象存储统一部署在我行生产和同城数据中心,又将引入带宽瓶颈问题。因此,需要提前对所有地市的带宽和影像业务情况进行预估,提前对地市带宽进行扩容升级。另一方面,由于对象存储分布式部署于两个数据中心,生产数据中心的影像系统读写后端对象存储,存在跨中心访问的情况,需要通过两个数据中心的大二层网络进行。因此,为了不对其他业务系统的同城容灾复制和正常网络传输造成影响,需要合理评估影像数据跨中心访问的情况,并对跨中心波分带宽进行提前扩容。

我们使用cookie来个性化和增强您在我们网站上的浏览体验。点击“接受所有Cookie”,即表示您同意使用Cookie。您可以阅读我们的Cookie政策以了解更多信息。

预约演示

服务热线

400-838-3331

在线客服

顶部

总部地址:深圳市福田区上梅林凯丰路10号湾区国际金融科技城14层

THE END
1.机器学习面临的三个关键数据挑战当前,关于捕获哪些元数据没有行业标准。然而,元数据与数据本身一样重要。当您具有填充了不同元数据字段的相同类型的数据时,如何关联和过滤数据? 如果以浮标为例,初始数据传感器每十分钟收集一次水温,而较新的浮标每三分钟收集一次水温。关联数据的唯一方法是通过元数据在捕获时公开。当科学家进行历史分析时,他们需要元https://www.528045.com/article/7f423917e5.html
2.排序不完全成功的原因是什么?这种问题如何影响数据处理?在数据处理的领域中,排序不完全成功是一个较为常见但又颇为关键的问题。造成排序不完全成功的原因多种多样。首先,数据的复杂性和多样性是一个重要因素。当数据包含多种类型、格式不一致或者存在大量的缺失值时,排序算法可能无法准确地处理和比较这些数据,从而导致排序结果不完全准确。 https://funds.hexun.com/2024-12-18/216258656.html
3.四不像正版资料,构建解答解释落实m418.39.40看点在数据分析的世界里,我们经常会遇到各种看似杂乱无章的数据,这些数据就像“四不像”一样,难以直接归类和解释,正是这些“四不像”的数据,往往蕴含着最有价值的信息,本文将深入探讨如何构建、解答和落实这些“四不像”的正版资料,以期为数据分析师提供一套实用的方法论。 https://www.yzcjl.cn/post/5569.html
4.四不像正版资料,综合解答解释落实1b93.47.84最新我们时常会遇到一些难以直接归类或解释的数据集,这些数据被形象地称为“四不像”数据,它们既不完全符合传统的结构化数据特征,也不具备典型的非结构化数据模式,同时在半结构化数据的范畴内也显得格格不入,甚至超越了多结构化数据的复杂度,本文旨在深入探讨这类特殊数据的处理策略,提供综合解答,并确保解决方案的有效落实https://vip.cshuijitang.cn/post/2894.html
5.数据分析面临的挑战是什么会计实务答:提高数据分析效率的关键在于建立一套完善的数据管理和清洗流程。通过自动化工具和算法,可以快速识别和处理数据中的错误和不一致,从而提高数据质量。同时,利用先进的分析技术和工具,如大数据平台和云服务,可以加速数据处理和分析的过程,提高整体效率。 在数据安全方面,企业应采取哪些措施来保护用户隐私? https://www.chinaacc.com/kuaijishiwu/krky/zh20241216112531.shtml
6.机器学习找不到创新点?三种特征选择的方法包你拿下顶会!文章介绍了两种新的决策树框架LDATree和FoLDTree,它们结合了不相关线性判别分析(ULDA)和前向ULDA。这些方法能够高效地进行斜切分,处理缺失值,支持特征选择,并提供类标签和概率作为模型输出。通过在模拟和真实数据集上的评估,LDATree和FoLDTree在准确率上与随机森林相当,显示出作为传统单树方法的稳健替代方案的潜力。 https://www.bilibili.com/read/cv40067807
7.数据孤岛“孤”在哪里?不同部门或系统可能采用不同的数据格式来存储和处理数据,造成了数据格式多样杂乱。https://www.zhihu.com/question/440784592/answer/57419373127
8.清博智能王欢:实时接入结构化数据的大语言模型是如何练成的?结构化数据和非结构化数据有何不同? 王欢:非结构化数据,比如说你现在访问的网页,你只看正文部分它就是文本,它的内容就是原始正文。搜素引擎看的就是原始正文,给它训练的数据也是原始正文。 结构化数据不仅知道它的原始正文信息,还对这些信息做了结构化处理,包括发布提及的地域信息、文本分词信息、内容分类以及正负https://m.cls.cn/detail/1388555
9.2022年中国知识图谱行业研究报告澎湃号·湃客澎湃新闻同时,文本、图片、各类报表和音频、视频、HTML等非结构化数据广泛存在于互联网中。互联网企业需要在现有的存量业务中,收集碎片化信息,处理非结构化数据,挖掘信息间的潜在联系,还原完整的、有价值的信息。然而,信息的关联关系挖掘是一项工作量巨大且复杂的工程。https://www.thepaper.cn/newsDetail_forward_19458208
10.行政管理论文15篇这势必导致学生处理社会现实问题和交往能力的技能很难有所提升,他们的知识结构、能力结构和素质明显存在不平衡,很难适应信息社会高速发展的需要。操作性和实践性教学严重薄弱。虽然目前我国高校《行政管理学》课程内容体系一般都设置了教学实习、实训等实践环节,但由于其时间短、任务重,而且管理松散,缺乏常态化和规范化,https://www.ruiwen.com/lunwen/6220159.html
11.RPA机器人在处理非结构化数据时,有哪些挑战和解决方案?强化异常处理能力: 开发健全的异常处理机制,包括自动化的错误恢复和报警系统,以确保RPA在面对非结构化数据处理中的异常情况时能够迅速应对。 综上所述,虽然RPA在处理非结构化数据时面临诸多挑战,但通过结合先进技术、进行数据预处理、持续监控与调整以及强化异常处理能力等措施,我们可以有效地提升RPA在这方面的性能。https://www.ai-indeed.com/encyclopedia/9960.html
12.数据治理新要求2018 年初加入度小满金融开始组建数据智能部,从0到1建设度小满金融的智能引擎的核心算法,深耕计算机视觉、自然语言处理、图模型、机器学习、因果推断等技术能力,多篇文章被EMNLP、ACL、CIKM等国际顶会收录,“智能化征信解读中台”工程荣获吴文俊人工智能科技进步奖。相关技术广泛应用于度小满营销、经营、风控、反欺诈全流程https://hub.baai.ac.cn/view/32749
13.0.技术知识介绍:工业级知识图谱方法与实践1.3.1 非结构化数据的知识建模 1.候选术语抽取[目的是过去更多、更全的术语] 2.术语过滤[剔除低质量候选术语] 领域术语与普通词汇有不同特征,可以采用统计信息和语义信息过滤噪声,常见方法:互信息(MI)、词频逆文档频率(TF-TDF),术语相关频率(RTF)等定量刻画统计特征,或者用词向量方式捕捉术语之间的语义相关度刻画https://download.csdn.net/blog/column/12167028/126426906
14.大数据一般用什么数据库大数据领域的数据库通常使用开源软件,如Hadoop、Cassandra等,相比于传统的商业关系型数据库,成本更低。 综上所述,大数据领域的数据库相对于传统的关系型数据库,具有更好的可扩展性、高可用性、更快的处理速度、更好的适应非结构化数据和更低的成本等优势。https://www.linkflowtech.com/news/2745
15.非结构化数据灾难恢复方法有哪些?非结构化信息数据恢复主要针对3种不同的故障类型进行恢复工作,其基本原理是利用日志文件、副本来对系统中的非结构化信息进行恢复。 1.事务故障恢复 对于事务故障,利用保存在磁盘上逻辑日志以及物理日志中关于故障事务的信息,来撤销故障事务对非结构化信息所产生的影响。其具体的恢复步骤如下: https://www.qinfeng.gov.cn/info/4283/194279.htm
16.研究生开题报告模板这些非结构化数据库因为可扩展性强、资源利用率高,高并发、响应速度快等优势,在大数据应用环境中得到了广泛的应用。但此种应用只解决了前端的业务处理,要真正利用大数据实现商务智能,还需要为决策支持系统和联机分析应用等提供一数据环境——数据仓库。为此,导师指导本文作者拟此题目,研究基于Hadoop框架的数据仓库解决https://www.yjbys.com/file/yanjiushengkaitibaogaomoban.html
17.大数据中非结构化数据的挖掘:文本一、 点击流中的非结构化文本数据都有哪些? 首先来定性什么是非结构化文本数据,这里指的是点击流原始数据中以文字形式展现的数据,包括原始LOG日志以及已经被结构化入库中的部分数据,比如Adobe Analytics的Data Feed,Webtrekk中的Raw Data。当然,有些数据虽然是文本或字符串的形式,但并不是真正意义上的非结构化,比如https://www.51cto.com/article/432085.html