四个“一体化”——构建数智融合时代下的一站式大数据平台

一站式大数据平台,旨在通过一个平台即可满足各类业务需求,成为数智融合时代下数据基础设施的发展趋势,并从四个维度向四个“一体化”方向演进:数据架构-湖仓集一体化;数据处理-多模型一体化;数据分析-历史与实时数据一体化;资源管理-多集群应用、资源和数据一体化。

数据架构:湖仓集一体化

过去,企业在建设数据平台时通常使用传统的Hadoop湖+MPP仓的混合架构,逐渐有部分企业开始使用类似Hudi/Iceberg的湖仓技术。这两种技术架构都存在一些局限性,在线分析能力较弱,无法满足集市业务需求。因此企业往往需要再引入额外的分析查询引擎,用混合架构来满足湖仓集业务需求。

混合架构中,数据需要存储在不同平台里来提供服务,首先就造成了数据冗余和存储资源占用。其次,数据需要跨平台ETL流转,流转开销高,时效性较差。数据跨平台流转中还容易导致数据一致性问题,影响业务正确性。此外,多平台的开发标准不一致,存在一定的技术门槛,权限管理复杂。

星环科技大数据基础平台TDH从2014年支持了事务表和存储过程开始,形成了湖仓集一体雏形,在2023年TDH9.3版本中引入了湖仓集统一存储格式Holodesk,只需一种存储格式即可同时满足ODS数据实时数据接入、数仓模型加工和高性能集市查询分析等业务,不需要针对不同的业务场景使用不同的存储引擎而构建烟囱式混合架构。在星环一体架构下,湖仓集对用户来说,仅仅是业务逻辑上的区分,底层使用统一的技术栈,真正实现湖仓集一体化。

新发布的TDH9.4在资源隔离、端到端性能、统一运维管理等方面升级,帮助用户构建真一体化、高性能、易运维的湖仓集一体化平台。

*资源隔离新架构,在同一份数据上跑批查询混合负载互不影响。一套集群一份数据,基于Raft协议保障分布式一致性,在CPU、内存、IO、网络资源方面完全隔离,结合基于容器化的动态资源调整能力,保障不同的批量业务与查询业务性能需求。存储方面,针对湖仓集多种混合负载业务,支持分区级多级冷热数据存储,最大化利用存储资源,降低总体存储成本。

*湖仓集统一运维管理,大幅降低运维管理成本。湖仓集统一的监控导向UI,提供更细粒度的集群运行、资源使用、组件指标等监测,提供界面化补丁管理、磁盘管理等。此外,TDH支持X86和ARM混合集群部署和统一管理,首个在10000节点X86/ARM混部集群下,通过信通院云原生湖仓一体专项评测。

*支持Python生态,高效支撑大模型应用。基于统一的分布式计算引擎,提供分布式Python引擎,来帮助用户更方便地用Python进行分布式数据处理。并提供POSIX接口,挂载分布式文件系统TDFS到本体磁盘,让用户可以像处理本地数据一样处理海量AI训练数据,高效支撑数智融合时代下大模型应用和各类数据智能场景。

数据处理:多模型一体化

过去,不同的数据模型往往需要独立的平台来处理,而这些不同的产品在接口标准上不一致,开发者和业务分析人员需要掌握不同的语言。同样,这些产品也使用了各自独立的计算引擎和存储,数据存储在各自生态中难以互通,在业务上如果涉及到跨模型的混合业务,需要把数据从一个平台导入到另一个平台中,ETL流转效率低,同时也难以保证数据的准确性、一致性和实效性。

多模数据库旨在单个系统中集成了多个关系型和/或非关系型数据引擎(例如,文档、图、键值、时序等),满足业务对于结构化、半结构化、非结构化数据的统一管理需求,实现数据的多模融合处理。通过使用单个系统来降低操作的复杂性,更好地支持不同场景下的多种类型数据处理。

随着大语言模型的快速发展,对于多种模型数据的处理需求越来越高,同时由于其存在领域知识缺乏、知识时效性低、回答易幻觉、隐私数据不安全等局限性,需要通过检索外置知识库的方式来增强大模型能力。通过多种模型一体化处理的平台,在增强大模型的同时,可以降低系统搭建、开发、运维等方面难度,因此多模数据库成为大模型时代的刚需。

星环科技从2020年实现了多模型数据的统一处理技术,基于四层统一的架构提供统一的接口层,统一的计算引擎层,统一的分布式存储管理层和统一的资源管理层,并支持关系型、图、时序、时空、向量、键值等11种数据模型,业内首个通过了信通院《多模数据库技术要求》评测。

TDH9.4在多模型能力进行了升级,向量存储引擎Hippo发布了2.0版本,单机存储容量提升20倍,结合分布式架构可支持百亿字的向量存储,检索性能提升10倍以上,并提供完整的企业级能力,包括冷热灾备、跨集群数据同步、生命周期管理等,帮助用户更安全、便捷地支撑大模型应用。

图存储引擎StellarDB发布了5.1版本,引入GPU作为计算资源,部份场景下如子图查询性能提升10倍以上,结合深度图算法提供图谱召回、图谱推理等能力,提升大模型的准确度,帮助用户构建企业级知识库系统。

基于TDH多模型统一技术架构,满足大模型场景下多模态数据的统一存储管理与服务,大幅简化知识库的知识存储与服务层架构,降低开发与运维成本。通过将TDH作为大模型外置知识库,可以检索文本/图片/音视频转化后的向量数据、图数据、以及传统关系型数据等,并进行联合召回,可以极大增强大模型的准确率。

数据分析:实时与历史数据一体化

随着业务的快速发展以及企业内部决策的要求不断提高,用户对数据实时性的要求越来越迫切。实时数据处理架构Lambda和Kappa,在各自使用的场景都能解决一部分实时或近实时的用户需求,但是随着业务实时要求的提高,两种架构均存在一定的不足,主要体现在:

(1)Lambda架构将实时和历史数据分离,随着历史数据的积累,批量计算的性能会下降明显;

星环科技ArgoDB6.1版本中推出了数据增量计算能力,提出了业务实时计算新范式。在实时处理数据架构上,解决了Lambda架构中的实时与历史数据的不融合问题;同时避免了Kappa架构中的流与流计算窗口不可控问题。从数据的加载到数据的加工,保障了数据业务端到端的实时性能,极大地提升了业务分析的时效性。

ArgoDB6.1的增量计算技术,打破流表和物理表的使用壁垒,增量交由数据库识别、关联和分析:

*实时性能&数据准确性提升,减少计算数据量,为结果表实时提供最新的关联计算值;(即数据“不丢”“不重”且“计算高效”);

*增量数据可重复使用,原始数据落表,增量的数据可供下游使用,配置链路简单且数据可重复使用。

基于ArgoDB6.1增量数据计算能力,可在一个数据库系统中实现多种实时场景,数据仅需在库内流转:

场景一(即席查询,写入即服务):数据直接写入ArgoDB,由ArgoDB提供OLAP查询和在线服务;

场景二(增量数据准实时加工):在ArgoDB中进行ODS数据清洗,并在DWD数据明细层预加工后直接进行汇聚层加工,对接上层应用;

场景三(增量数据实时统计,事件驱动加工):DWD明细层预加工和DWS汇聚层预加工全部由ArgoDB增量计算完成,并提供给上层应用,帮助用构建新一代的实时数据仓库。

资源管理:多集群应用、资源和数据一体化

企业通常根据不同的业务系统构建多个不同的大数据集群,多个集群的运维管理给企业带来了很多困扰。不同的集群各自孤立,底层资源无法统一、无法均衡的调度和最大化利用,并且各个集群上的数据难以互通,当涉及跨集群数据调用时,需要在各个集群之间ETL,效率较低,也难以保证数据的准确性、一致性和实效性。当有新业务需要上线时,需要建设新的集群,进一步加剧上述问题。

多个大数据集群统一管理,能够将多集群统一纳管,实现资源统一调度,数据统一管理,并能够快速响应,满足新业务上线需求。

星环科技数据云平台TDC,在一个平台上提供了数据PaaS、分析PaaS、应用PaaS服务,底层共享基础设施资源,能够实现不同业务、不同环境下的多个集群统一纳管,不仅提供星环科技的大数据与人工智能产品等产品服务,也能够托管如Spark、Flink等开源生态产品。

TDC5.0在多集群及应用统一纳管基础上,对跨集群资源均衡调度、自动弹性伸缩、数据共享等能力进一步升级,帮助用户构建一体化的大数据与智能平台,降低企业多集群运维管理成本,最大化资源利用率,加速业务上线与创新。

跨集群资源均衡调度实现对多个集群底层资源的统一管理,当某个集群负载较大,需要扩展存储或者计算资源时,能够跨集群自动调用富余集群的资源,实现多个集群之间资源的均衡调度,提升所有集群的整体资源利用率。

跨集群数据共享跨多个集群实现数据的共享,集群之间不需要做ETL,可以直接共享使用对方集群的存储,进而实现NoCopy的数据共享,避免数据复制带来的存储压力和数据时延,以及不一致性问题。

THE END
1.AM正版全平台内容系统官网AM正版全平台内容系统官网-全智能原著内容系统是一个全自动优质内容生成器,可帮助企业和个人快速生成原创文章,满足不同领域或主题的需求。该系统汇集了多种先进的语言模型和算法技术,能够自动分析和提取海量数据信息,生成高质量、独特的文章内容,并且还支持多语言文本https://www.cykjshop.com/
2.正版全平台内容系统全平台内容系统官网正版思创全平台内容系统是一套全自动优质内容生成器,能够帮助企业和个人快速生成高质量、独特的原创文章,支持多语言文本生成,大幅提升了内容生产效率。 立即购买 思创全平台内容系统 全平台内容系统是一款强大的内容生成工具,相比其他类似产品,它具有以下几个优势 https://www.streeeem.com/
3.正版全平台内容系统全智能原著内容系统官网思创正版全平台内容系统-全智能原著内容系统官网-全平台原著内容系统是一个全自动优质内容生成器,可帮助企业和个人快速生成原创文章,满足不同领域或主题的需求。该系统汇集了多种先进的语言模型和算法技术,能够自动分析和提取海量数据信息,生成高质量、独特的文章内容,https://vpsctv.com/
4.内容服务平台(精选十篇)内容服务平台 篇1 全媒体运营的两个核心关键点是渠道建设和内容建设, 即通过建立全媒体媒资整合传统媒体和新媒体的业务系统, 打破当前的内容孤岛格局, 进行内容的广度和深度挖掘以及内容服务的运行, 提升内容服务的质量, 进而最大化内容价值。全媒体媒资不仅仅是在传统媒资的基础上增加对多媒体内容的管理和支持, 还https://www.360wenmi.com/f/cnkey1lr3gl0.html
5.企业一体化内容中台,实现多嘲多终端一致体验创新嘲一体化数字体验平台 资源库:统一的存储图片、音视频、文档、PDF、链接、文本片段等元数据。 知识库:多组织多层级的文档知识库中心,用于管理和规范企业知识。 体验库:模板化创建多渠道的内容管理系统、知识门户网站、帮助中心、用户反馈、问答、社区等场景应用。 https://www.tmtpost.com/7198442.html
6.《全媒体探索》介绍光明网新媒体交互内容创新实践编者按:近日,《全媒体探索》期刊2024年9月(总第37期)刊文《基于SVG技术的新媒体交互内容创新》,介绍光明网在新媒体交互内容创新方面的实践。其中,光明网与北京市政府部门、群团组织等合作推出一系列融媒体产品,以趣味性、互动性推动政务服务工作可视化呈现,提升公共服务信息影响力。原文如下:https://about.gmw.cn/2024-10/09/content_37603547.htm
7.什么是内容协同平台?内容协同平台都有哪些功能?Filez-联想集团旗下的协同办公品牌,致力打造“文件+内容+知识”全链智能协同办公和管理平台,帮助企业和组织建立创新工作模式,推动全行业全社会工作效率提升。Filez业务覆盖企业网盘、在线文档、非结构化数据平台等产品及解决方案。Filez企业网盘是国内投身研发最早、运营时间最长的企业网盘产品,自2006年面世,至今稳定运营十https://box.lenovo.com/news/detail/f36ba8ba6c7c7c97340e1dd0ec81dcf0.html
8.正版全平台内容系统正版全平台内容系统-全智能原著内容系统是一套全自动优质内容生成器,能够帮助企业和个人快速生成高质量、独特的原创文章,支持多语言文本生成,大幅提升了内容生产效率。 立即购买 全平台内容系统 正版全平台内容系统-全智能原著内容系统官网是一款强大的内容生成工具,相比其他类似产品,它具有以下几个优势 https://ai.nodecheck.cn/
9.实战案例!腾讯文档全平台系统设计复盘优设网我想这是全平台设计进程中的最令人激动的真正的创新。 当万物互联的时代到来时,一切都可以成为媒介,一切都可以交互。也许那时候真的可以做到“内容就像水”,跨过系统和平台的壁垒实现流畅无缝的体验。 △ 扫码下载腾讯文档 APP 引用: 欢迎关注作者微信公众号:「腾讯ISUX」https://www.uisdc.com/tencent-document-design/
10.内容公开创建社团集合组队及成就排行3大功能上线强化全平台在Xboxone周年更新之后,微软继续对这个全新的系统进行着不断完善,目前官方团队把精力放在强化Xbox Live的社交功能方面,在即将到来的9月系统更新中,创建社团、查找群组及成就排行3个重要功能将正式上线。从今天(9月7日)起该更新已经向Xboxone预览用户陆续推送,稍后将会面向Xboxone和全平台的Xbox APP用户推送正式版补丁。http://www.yxzzd.com/4962.html
11.视频监控安防平台国标281812016(GB28181视频监控安防平台-国标28181-2016 (GB28181-2016)平台全项检测 (需要检测文档和检测结果截图的联系QQ:123011785) 1、首先需要熟悉GB28181-2016版协议相对于GB28181-2011版本协议的修改内容 在经过公安一所检测之后,我来谈谈修改的主要信息,相对而言有几个坑: https://blog.csdn.net/songxiao1988918/article/details/53142594
12.世界启元官方版全平台策略手游《世界启元》官方版是一款由2K Games文明系列正版IP授权合作的全平台策略手游,它继承了《文明》系列深厚的文化底蕴与策略精髓,为玩家打造了一个跨越时空、融合多元文明的历史舞台。在游戏中,玩家将扮演一位文明的开拓者,从史前时代起步,历经火器时代、工业时代,直至https://app.3dmgame.com/android/423275.html
13.Mac系统flutter全平台开发环境搭建(使用Androidstudio开发目前Flutter默认支持iOS、Android、Fuchsia(Google新的自研操作系统)三个移动平台。但Flutter也支持Web开发(Flutter for web)和PC开发。现在大多教程是默认flutter开发环境配置,这里集合全平台Mac系统下使用Android studio开发flutter的环境配置。感谢其他作者提供的参考,以及同事提供的各平台配置帮助。 https://www.jianshu.com/p/98cc8e70c94b
14.抖音作品ip属地可以改吗?抖音如何优化?此外,抖音官方正式公布的一些系统消息,是抖音经过深思熟虑而发起的通知,通过此类通知并将其运用至内容创作中,是避免内容触碰红线的必要标准。 二、留意全平台的流行趋势和风格转变 平台内容风向标在实质上是实时变动的,正如抖音短视频从最初以歌舞才艺类的音乐短视频为主,到现在的内容全覆盖一样。 https://www.maijia.com/article/538272
15.中电信数智科技有限公司湖北分公司2024年荆州信息化系统建设项目1.2采购内容及分包(标段)划分情况: 1.2.1项目内容:本次监利监管中心信息化建设项目的主要内容主要包括:智能监管平台系统建设、监管中心信息化系统建设。主要包括公安办公楼、监管中心和武警三大区域的信息化改造建设。 1.2.2项目预算:7078398.2元(含税)。 http://www.ggzy.gov.cn/information/html/b/670000/0101/202401/10/0067e0bdd4aad68447618a8eaba275d0c3f8.shtml
16.WAVESNx测评:这个小发夹,真的能让你的耳机变成5.1音箱系统吗?内容:有全平台的支持,但没有全平台的待遇 对这个组合而言,WAVES Nx 的专用软件才是整个体验的核心。 就目前看来,WAVES Nx 在桌面端中支持 Mac 和 Windows,移动端支持 iOS 和 Android,基本上是实现了主流操作平台的全覆盖。 但在内容和体验上,桌面版和移动端的体验完全就是不一样的两种状态。对比功能更为全面https://www.ifanr.com/757453
17.2022年度上海七猫文化传媒有限公司社会责任报告(三)建立健全平台举报机制,引导用户参与全社会监督 在用户互动监督渠道上,七猫对旗下App和网站举报模块的前台入口及页面设置进行了优化升级,新增了面向广告和评论的举报和举报成功后的系统消息提示,同时在七猫中文网书籍详情页多处增加举报入口,并明确举报处理时限。 https://www.qimao.com/gonggao/6437bd43727af11b152b1316/
18.《空之要塞:启航》全平台公测!蒸汽轰鸣,冒险启航!四、活动内容 ● 内测回馈福利 之前参加测试的开拓者们,本次公测可获得内测限定头像框及丰富返利豪礼! ● 启航豪礼 全平台100万预约达成,上线即可领取10张邀请函,通关主线将可获得更多邀请函! 还有经验素材、进修素材等道具领取,每日登录更有豪礼相送!每日都可获得邀请函、源晶及源武等丰富奖品,助力开拓者畅游赛https://www.37.com/kzysqh/article.html?cate=xinwen&id=78
19.乐直播微信视频直播营销系统乐直播-微信视频直播营销系统-企业视频直播平台,为企业提供全方位商务视频直播服务乐直播专业为企业打造一套微信生态下的企业直播营销系统,拥有高清不卡顿的多链路传输技术和一站式高清直播解决方案,适用于各种企业场景直播,热线:400-900-5560http://www.lezhibo.com/
20.配置升级,系统重构,UGOSPro带来新的体验——绿联云私有云DXP1、UGOS Pro 全平台切换 绿联云作为专为 NAS 设计的客户端,2024 年 9 月,正式开启申请 UGOS 升级为 UGOS Pro。 最新的 UGOS Pro 系统不仅更安全而且更智能,也为用户适配了安卓手机、苹果手机、ipad、安卓平板、TV 电视、Win 电脑、MAC 电脑等操控系统。不同平台 APP 功能都非常丰富,特别是手机 APP 端,http://www.myzaker.com/article/671a6f8ee13823511d423d49
21.数字化内容管理平台支持内容产品投送与运营系统的无缝对接,提供待发布出版产品的元数据 支持全媒体内容的导入、导出、搜索和预览 支持存储存量资源 具备完备的权限管理、关联版权保护和日志功能,对文件的导入和导出进行安全加密 支持与社会公共网络出版内容运营云平台的关联系统对接,促进资源的有偿分享和使用 http://www.mpr.net.cn/products-detail.php?ProId=35
22.重磅发布!收听率4.0产品强势登场一方面,由于技术因素的驱动,渠道、平台外延不断拓展,多屏合一和跨屏互动明显,从渠道依赖向全平台传播,行业生态改善,商业模式创新;另一方面,在阵地意识驱动下,用户思维得到贯彻,从销售作品向用户运营转变,从提供内容向提供服务延伸,更多的用户个性化需求得到满足,粉丝经济和IP(知识产权)衍生价值受到重视,用户规模迅速扩大https://weibo.com/ttarticle/p/show?id=2309404786359318478965
23.全网渗透率达80%!“耳朵经济”将成为当下市场的流行趋势目前,音频平台与内容创作者之间的合作模式主要分为版权买断、联合出品、内容承制三大方向,根据对内容创作者的人气、作品数量、风格等多重维度的考量,音频平台与内容创作者之间结合实际情况选择匹配的内容合作模式。 版权买断指平台一次性向创作者支付费用购买产出的内容,后续因内容产生的相关收益归平台所有;联合出品指平台https://maimai.cn/article/detail?fid=1750579847&efid=JxnQq18TRvf6OEa5cr_ClA
24.主打就是不折腾——绿联私有云深度体验,NAS小白的入门说明书二、全平台客户端覆盖 绿联为用户提供了全面的设备客户端支持,涵盖了 iOS、安卓、Windows、Mac、TV 、网页以及小程序等七种平台,确保了对各种主流设备的完整支持。无论用户使用哪种终端,都只需一个软件即可进行文件备份和管理,彻底解决了潜在的兼容性问题,为用户带来无缝的操作体验。 https://www.miaomiaozhe.com/post/270544
25.疫情防控常态化,无纸化预检是HIS系统的进阶要求医院管理做好患者信息三级预检分诊是疫情防控使然,也是医院信息化发展的必然。而且这一类信息采集系统不仅适用于疫情场景,其他需要采集信息的场景均可适用,如患者满意度调查等,医疗机构使用全平台信息采集系统后,可以实现如下价值: 无纸化管理 手机端、PC端患者健康信息、流调信息填写,首先减少了实物接触、人员正面接触,也提高了http://zl.hxyjw.com/arc_44523