在DataDriven时代下,如何打造下一代智能数据体系?

本文整理自2024外滩大会“Data+AI”见解论坛骆骥(蚂蚁集团数据平台与服务部负责人)的演讲实录

在我们深入探讨当下的数据智能体系之前,想先和大家一起简要回顾一下数据领域技术发展的历程。在90年代,互联网悄然来临。在这个时代里,高效的数据库存储与管理技术,为广大中小微企业的信息数字化奠定了基础,有效支撑了电子商务等业务的发展。相应的,数据库等数据领域技术也一步步的向着高性能、高可用等方向发展。

2017年,一篇“AttentionisAllYouNeed”论文为生成式人工智能的发展奠定了关键的基础。以大模型为核心的智能化技术,围绕智能体的开放生态,让未来每个人都拥有全方位智能管家的服务成为可能,这也让数据领域开启了一个数智融合的新时代。

数据体系正在从成本&效率中心向价值中心转变

我们认为从大数据时代到数智融合的新时代,整个数据体系正在从成本效率中心向价值中心进行转变。在大数据时代,数据技术定位侧重于基础设施层面,无论是数据处理与服务的延迟、吞吐量、以及资源利用率背后的成本等等,定义了大规模数据存储和计算分析的核心技术竞争力。然而,随着我们迈入数智融合时代,数据技术的定位侧重发生了根本性的变化。

在数智融合时代,数据资产本身的规模、多样性、质量特别是内容的准确性等等是决定智能化效果的关键之一,数据更加直接的影响到智能化应用的效果,其价值日益彰显。我们看到,从数据资产的生产、加工与服务、消费与应用等各个环节都需要围绕数据的价值化这一全新的视角去构建相应的体系与技术能力。

01

数据生产方式的拓展

首先,数据生产方式的拓展是数智融合时代的一个重要标志。传统的搜索推荐和千人千面的服务重度依赖全网信息汇集,即通过网络爬虫等技术手段在合法合规的条件下广泛的抓取互联网上的公开数据,以及融合私域的专有数据为用户提供个性化的服务。

然而,在数智融合的新时代下,数据的生产进一步的扩展到了对日常生活点滴的细致记录与捕捉,例如可穿戴设备、智能家电及各种物联网终端所生产的数据,都在不断充实并丰富着我们的数据集合。这突破了传统互联网数据的局限性:我们认为人类、机器,甚至未来具身智能的所见所闻皆为可数字化,皆可沉淀为用于智能化的数据资产,也皆蕴含着巨大的价值。所以我们相信未来数据智能化的发展不是局限于当下互联网上有多少电子化的书籍,任何所见所闻、所思所想都可以被数字化,都是未来智能化发展非常重要的关键技术。

我从工业界的角度也想再次强调数据的标注也非常重要。就像传统教育界从小学开始经过培训,这些教材都是通过专家、学者编撰而成的,都是人工产出的。在大模型时代下,数据标注与合成技术是确保大模型训练所需的数据品质的关键,也是未来各方持续构建并提升生成式人工智能核心竞争力的关键。

这种由量向质的数据生产方式的变革,不仅显著提升整个智能化系统的可靠性,还会极大的提高了其处理复杂任务的能力,从而真正意义上推动了数智融合时代的发展,使其能够在更多的垂直行业领域内展现出前所未有的应用潜力,打开当下智能化的天花板。

02

数据资产加工与服务的演进

数据资产加工和服务,也需要在数智融合的时代下不断地演进和革新。

1.数据的形态正在从结构化向非结构化延展

根据IDC的数据预测,到2027年,全球非结构化数据的占比达到整个数据总量的86.8%,达到近250ZB。与传统的结构化数据加工处理不同,非结构化数据加工处理会涉及到融合多源异构全模态的数据,比如说文本、图片、音频和视频等等,并因此面临着许多新的挑战。

这里给大家举个例子,我们在构建大模型的数据体系里面,还可能会涉及到跨模态的数据互转问题,将一段视频里面的声音转变成文字,可能我们会得到一段文本的训练语料。这些都是我们需要去解决的问题。

在数据挖掘方面,传统的结构化数据我们有经典的特征挖掘,但是在非结构化数据,内容理解我们认为才是后续智能化应用的关键基础。在数据审核方面,表单的检验校对是发现传统的结构化数据可能问题的重要手段,而对文本、图片、视频等非结构化数据的专业审核是控制数据毒性、防止数据污染的必要方式。

2.数据服务正在从面向用户向面向机器与智能体延展

另一方面,我们认为数据加工和服务正在从面向用户向面向机器和智能体方向发生延展。在未来智能化的应用形态上,我们判断,传统的应用将向基于多智能体协作的智能助理及具身智能的形态上发展。得益于生成式人工智能在自然语言理解、在多模态上面的理解和表达能力上的巨大进步,应用的交互方式也将会从传统人工智能交互的UI图形交互向着更简化、更自然的人机交互方向发展。

在这两者基础上,相应的数据服务业会发生延展,包括:

3.数据形态与处理方式的延展,开拓更多的价值机会

一方面,数据形态正在从结构化向非结构化快速的延展。这为非结构化数据的加工,特别是提升内容与表达质量的清洗、多模态数据的融合处理、对数据内容理解挖掘以及专业审核上,带来了许多新的挑战。

另一方面,数据资产的加工服务正在从面向用户向面向机器与智能体延展。在面向Agent的语义表达,生成式人工智能下的编解码、渲染,以及多Agent网络数据传输等领域都提出了新的技术命题。

随着数据的形态以及服务的对象与方式不断丰富,必须要持续提升数据资产加工与服务的能力,让生产的数据通过加工和服务模式的革新,释放更高的增益价值。

03

数据应用新范式的挑战

我们再把目光转向消费与应用,在数智融合的时代下,可以看到数据的应用范式当下存在三个非常显著的挑战:

1.新搜索、新交互等创新场景下标量与向量数据的混合检索

第一,在新搜索、新交互等创新场景下,标量与向量数据的混合检索是一个非常关键的且具有极大用户价值的技术命题。有别于传统的搜索中的围绕关键词交互,在新搜索下,以自然语言、多模态数据为载体的交互将会极大的降低用户的使用门槛,提升交互效率。例如,我们可以很便捷的通过手机摄像头去捕捉并检索一瓶感兴趣的红酒。这瓶红酒的信息检索既可以以传统的内容理解加关键词检索方式完成,也可以直接通过向量化的方式进行相似性检索。

同时,对背景的捕捉也可以进一步丰富检索的场景,例如当背景是餐厅时,会显示酒的产地,历史,背后的故事等。如果背景是货架,在超市,就可以显示多款类似的红酒与电商网站作为选择。与此同时,新搜索的交互模式也可以让我们很容易的增加对标量的检索限定条件,例如不超过200元一瓶的红酒。

与此同时,在新搜索新交互中响应用户的即时兴趣(instantinterest)十分重要,这背后依赖的实时或者仅有分钟级延迟的近线数据流,如何与向量索引的构建高效融合在一起,也是未来数据基础设施要解决的技术难题。

我们相信,标量与向量数据的混合检索将会是未来新搜索新交互的常态,这是一个非常挑战但又非常具有用户价值的技术命题。

2.面向应用效果的不确定性:围绕数据的实验迭代原生工程体

在数智融合的新时代下,智能化的应用效果凸显了极大的不确定性。

过去的传统产品应用功能,是以「确定性」为主,每个功能被设计完成怎样的任务是非常明确的。而在智能化时代,应用的效果充满不确定性。我们并不清楚写作助手到底能写出一篇怎样好的命题作文,我们也并不能得到保证创意助手一定能创作出令我们满意的宣传动画。

不断提升智能化应用的确定性,十分依赖数据工作。我们判断,围绕数据的实验迭代原生的工程体系是未来支撑数据应用新范式的核心。

在这样的实验迭代原生工程体系中,我们需要在数据引入时做细致的评估工作:数据规模仅仅是其中一个视角,无论是数据的结构质量、内容质量还是表达质量,无论是可信等级还是教学性等级,无论是数据的语种构成还是知识领域分布,都需要进行全方位的充分的评估。

在这个体系中,我们也要具备综合的数据处理能力,从数据的选择、采样、混合配比,到存量与增量数据的更新,以及数据的版本化管理。在此基础上,我们需要构建一整套科学实验工程体系,从控制变量实验到双盲实验,从低参数到高参数的scalinglaw实验,从pre-train到post-train的不同阶段的实验,通过实验去评估数据质量划分的合理性以及验证何种特征的数据对模型性能和泛化能力的增益。

最后,价值关联的反馈在该体系中也至关重要。这既包含了资产探查反馈链路、实验反馈链路,也包含了模型推理应用的反馈链路,其反馈的类型也十分多样,既有实验结果与数据分析的反馈,也有模型评测和实际用户case的反馈。

我们相信,在数智融合的新时代,围绕数据的实验迭代原生工程体系是帮助智能化应用在需要时能够消弭不确定性的关键,也是未来数据应用的新范式之一。

3.面向数据生态:开放的数据价值发现与流通体系

在数智融合的新时代下,随着智能体协作网络的发展,智能化应用会步入一个开放的生态,相应的,数据体系也需要构建一个开放的生态。在这样一个数据生态下,开放的数据价值发现与流通体系十分的重要。

其次,在海量的数据集中,如何寻找到有价值的数据子集,对构建行业垂类的智能化应用十分重要。过去我们十分依赖专家经验,经常通过人工筛选的方式完成这样的工作,但是一方面,这显然没有办法支撑未来行业垂类智能化应用的规模化发展和迭代。另一方面,这也没有办法回答一个问题——“在一个庞大的融合数据湖中,我们到底有没有将数据的价值充分的释放?”我们认为,数据价值的主动发现是未来融合数据湖的一项关键能力。

同时数据要素的流通一定要提供安全合规的保障。这不是那么新鲜的话题了,如何保护用户数据的隐私安全,如何确保专数专用不扩散,以及实现在需要的时候我们的数据可算但不可见等等。这都是整个体系中关键的部分。相应的隐私数据保护、数据权限管控与血缘追踪、多方密态计算等技术能力是这样一个体系中的关键组成部分。

最后,我们需要支持对数据价值流通与应用效果的度量,以及在必要时进行价值的结算。这有助于整个数据生态的长期、健康、可持续发展。

展望:数智融合时代下的蚂蚁智能数据体系

在过去的两年里,我们一直努力在构建这样一个围绕融合数据湖的,底层基于全模态存储与计算引擎,上层面向丰富的业务应用场景,提供各式的数据驱动的智能化应用服务与能力,并取得了一些阶段性的进展。

在底层的全模态存储与计算引擎方面,我们从传统的KV存储、对象存储、文件存储持续拓展,构建了行列混存,以及面向新搜索新交互的向量数据库能力,并且为大模型训练打造了全模态缓存加速的新型存储技术产品;我们从传统的流批一体计算出发,深化了非结构化数据计算中的特征提取、可编排算子能力,在数智融合时代的多媒体数据技术领域积极布局,包括面向机器与智能体的编解码、端边云计算与渲染等。我们也在加速构建面向未来的混合检索与分析计算引擎。

在核心的融合数据湖里,我们相信结构化数据、半结构化数据与非结构化数据一定要能够充分有效的融合在一起。除了传统的数据管理与治理、端云/跨云的数据融合和隐私保护之外,我们认为统一元数据、支持三线一致和SingleSourceofTruth,以及特别针对非结构化多媒体数据的安全与可信能力是几大关键要素。

在上层的数据应用中,我们秉承着“围绕价值的数据驱动”理念。这其中包含了高价值数据的生产(包括数据引入、数据感知、数据标注、数据合成),也包含了全模态的数据研发和面向机器与智能体的新特征服务。这其中还包含了数据应用新范式中的数据价值发现、数据要素流通、数据评估、分析与实验工程体系等。我们也利用生成式人工智能技术构建了数据领域的众多智能体,进一步降低了数据洞察分析的门槛,极大的提升了数据洞察分析的效率。

回到开篇,在这样一个快速发展、日新月异的智能化的时代下,我们看见,数据技术领域也正在飞奔进入一个全新的历史阶段,一个充满着史无前例的挑战与机遇的阶段。我们相信,整个智能数据体系正在从过去的成本&效率中心向价值中心转变。在未来,秉承蚂蚁集团的使命愿景,蚂蚁数据会坚持数据驱动,创造无限的价值,通过数智融合,普惠美好的生活。

THE END
1.非结构化数据的处理技术和应用文本分析是非结构化数据处理的一种重要技术,可用于从文本数据中提取有用的信息和知识。文本分析可以分为三个步骤:文本预处理、特征提取和建模分析。文本预处理包括分词、去除停用词、文本归一化等步骤;特征提取包括词袋模型、TF-IDF等方法;建模分析包括聚类、分类、情感分析等方法。文本分析的应用场景包括社交媒体的舆情https://wenku.baidu.com/view/fea50c8f00d8ce2f0066f5335a8102d276a261e8.html
2.大数据时代的非结构化数据处理技术图像识别和视频分析技术是非结构化数据处理中不可或缺的一部分。得益于深度学习模型的快速发展,图像和视频分析技术能够从海量的视觉数据中自动提取关键特征,如物体识别、场景分类、动作分析等。 在安全监控领域,视频分析技术可以自动识别异常事件,减少人工监控的成本和误差。此外,在制造业,图像识别技术被广泛应用于产品质https://www.gokuai.com/press/a1165
3.非结构化数据提取技术在统计工作中的应用摘要结构化数据和非结构化数据是大数据的两种类型,目前非结构化数据信息已达信息总量的85%以上,且每年以55%~65%的速度增长,统计工作受到大数据的冲击,日常总会遇到一些非结构化数据提取的难题,导致工作量加大,效率低下。本文对非结构化数据及其提取技术、大数据处理语言——Python语言进行学习研究,解决实际中遇https://tjj.changzhi.gov.cn/sjfx/202207/t20220704_2588893.html
4.IBMCloudObjectStorage在银行业非结构化数据存储嘲下的对象随着银行业IT技术的快速发展和业务的不断升级变革,业务应用系统产生的非结构化数据(包括文件、图片、音视频文件等)的规模也越来越大,银行业非结构化数据呈指数式爆发式增长。目前使用非结构化数据的主要系统包括内容管理平台、后督影像系统、身份验证、柜员办业务扫描件等需要用到影像图片,以及呼叫中心系统、电话客服的https://redhat.talkwithtrend.com/Article/242823
5.人工智能技术在群聊类数据分析中的探索5.其他非结构化数据 如表情符号、红包等,也是群聊中常见的交流形式。 二、人工智能技术应用 为了有效处理群聊数据的碎片化、多样化等特性,人工智能技术发挥了重要作用,主要包括: 1.自然语言处理 通过NLP技术,我们能够对群聊中的文字数据进行多种处理,包括分词、词性标注、命名实体识别等。这些处理步骤可以帮助我们更好http://www.51testing.com/mobile/view.php?itemid=7800371
6.大数据金融第二章大数据相关技术首先是利用多种轻型数据库收集海量数据,对不同来源的数据进行预处理后,整合存储到大型数据库中,然后根据企业或个人目的和需求,运用合适的数据挖掘技术提取有益的知识,最后利用恰当的方式将结果展现给终端用户。 数据处理流程 一 数据采集 大数据的采集是指在确定用户目标的基础上,对该范围内的所有结构化、半结构化、https://www.jianshu.com/p/d68251554c66
7.Top前沿:农业和应用经济学中的机器学习,其与计量经济学的比较然后,确定了当前计量经济学和模拟模型工具箱在应用经济学方面的局限性,并探索了机器学习法提供的潜在解决方案。在预测和因果分析中,深入研究了不灵活的函数形式、非结构化数据源和大量解释性变量等情况,并强调了复杂模拟模型的挑战。最后,作者认为,当用于定量经济分析时,经济学家在解决机器学习法的缺点方面有着至关https://blog.51cto.com/u_15057855/2675591
8.互联网成数据宝库,网络数据采集技术推动人工智能发展官网互联网数据量呈指数式增长,非结构化数据的应用依赖于清洗标注 PC、互联网、消费级移动设备的兴起宣告了数据时代的来临,数据量呈指数式增长,据IDC统计,全球每年生产的数据量将从2016年的16. 1ZB猛增至2025年的163ZB,其中80%-90%是非结构化数据。过去计算机主要处理结构化数据,人工智能模型却以处理非结构化数据见长https://www.tanmer.com/blog/575
9.2022年度陕西省重点研发计划项目申报指南目录4.9 大规模非结构化网格并行剖分技术研究 4.10 大流量高温燃油调节方法及调节器设计关键技术 5.新一代通信技术 5.1 空地一体化网络立体致密多维覆盖技术 5.2 面向天地一体化大规模星座的网络化测控关键技术 5.3 新型天线形态下基于大规模 MIMO 的机载数据高速传输技术 http://www.kt180.com/html/sxs/9889.html
10.中信证券非结构化数据处理平台建设实践中信证券综合应用OCR、NLP、RPA、搜索引擎、知识图谱等AI技术,在非结构化数据识别解析、自然语言理解与结构化处理、非结构化知识存储与检索等方面,开展公司级非结构化数据处理平台建设。 作者 中信证券股份有限公司信息技术中心 岳丰 王哲 刘殊玥 余怡然 方兴 https://www.secrss.com/articles/53891
11.行政管理论文15篇工商行政管理工作想要顺应时代的潮流,跟上社会发展的步伐,就必须将现代的大数据技术应用的到工商行政管理工作中,以此来提高工作效率,更好地对企业进行监督管理,助推企业的规范化稳定快速发展。 2大数据技术概述 大数据技术是在庞大的数据信息资源中进行分析、处理和检索等过程,提取出对当前工作最有利用价值的信息资源。https://www.ruiwen.com/lunwen/6220159.html
12.科学网—[转载]武新:大数据架构及行业大数据应用所谓的“大数据应用”主要是对各类数据进行整理、交叉分析、比对,对数据进行深度挖掘,对用户提供自助的即席、迭代分析能力。还有一类就是对非结构化数据的特征提取(指纹、图像、语音自动识别、基因数据比对等),以及半结构化数据的内容检索(搜索)、理解(语义分析)等。传统数据库对这类需求和应用无论在技术上还是功能上https://blog.sciencenet.cn/blog-887780-1358813.html
13.什么是数据转换,数据转换的知识介绍图像数据转换:图像数据转换包括图像格式转换、大小调整、色彩空间转换等,广泛应用于图像处理、计算机视觉等领域。 3.数据转换分类 结构化数据与非结构化数据转换 结构化数据:指具有明确定义格式和字段的数据,如数据库表格中的数据。结构化数据转换通常涉及数据表连接、聚合、筛选等操作。 https://www.eefocus.com/baike/1694420.html
14.Python实战:非结构化数据分析非结构化数据处理在当今大数据时代,非结构化数据无处不在,包括社交媒体、电子邮件、网络日志、视频监控数据等。Python作为一种强大的编程语言,提供了丰富的库和框架,用于处理和分析非结构化数据。本文将详细介绍Python在非结构化数据分析中的关键技术,并通过具体代码示例展示如何应用这些技术。https://blog.csdn.net/oandy0/article/details/137567962
15.AnyShare内容数据湖:海量非结构化数据存储与处理的基石·海量非结构化数据难以描述,难以形成结构化的属性信息以提升识别、理解、查找、利用效率 业务系统的文档属性统一管理 ·业务系统孤岛为企业带来统一管理、搜索、整合难题,业务流程打通需要元数据管理能力支撑 海量数据的文档属性访问压力 ·非结构化数据的暴增和丰富的业务应用将带来内容元数据的增长和访问压力,元数据服务https://www.aishu.cn/cn/feature/content-lake