移动互联网爆发后,大数据的未来在哪里?

近年来,人们频频“遭遇”各类大数据工具,体验到许多前所未有的变化。不管是惊喜还是惊吓,数据工具都在加速整个社会的数字化转型,面对这样的趋势,加深我们对数据工具的认识和理解将越来越重要。

本文对大数据工具的变迁作了阶段性总结,并对未来数据产品的新方向进行探讨。通过当下可识别的坐标,铭刻十年前的历史引爆点,呈现数据生态链的环环相扣,也看见大数据工具不只是一套封闭的技术体系,人与数据产品互缘同构,它的一头接入算法的革新脉络,另一头与人的生产生活有机相连,持续回应更新的现实、观念和技术,并不断衍生出新的形态支撑各个行业的运转。

不过,无论解题工具(数据工具)多好,解题思路(算法)多棒,最终我们还是要一遍遍回到最原始的价值拷问——我们解题是为了什么?我们还将探讨工具大众化、跨云互通、架构融合和数据安全等数据产品的新方向。

我们看到数据本身是世界性(worlding)的存在,就像世界本身是一个开放的、涌现的、迭代的过程,数字化的进程也是如此,两者互为表里。

自1946年计算机发明以来,我们经历了软件、互联网、移动互联网到现在万物可联的时代。计算机也从最初的辅助“计算”功能,到现在成为我们承载信息的重要“伴侣”。个人的社交、购物、旅行等生活内容,企业的设计、生产、经营和管理都以数据的形式被记录着。

这些变化,在近十余年,尤其是移动互联网(PC时代计算机还只是触达了少部分人)让普通人的信息被计算机记录开始,令大家感受尤其明显。这背后同时也是一段数据工具的变迁史。

历史引爆点与萌芽期

2010年左右,智能手机的出现,移动互联网的爆发,实现“人联”,才真正开启了数据时代。也是在这前后,数据量的爆发式增长带来了数据工具的爆发。

2010年左右数据工具大爆发,数据平台架构百花齐放。

2010年之前传统数仓还是以处理信息化系统中的结构化数据为主。2010年,为了应对移动互联网中出现的大量用户行为日志等非结构化数据,以Hadoop为代表的大数据平台在此背景下诞生,揭开了大数据工具的序幕。并于随后几年出现了一大批围绕着Hadoop生态的大数据产品。

Hadoop批量处理能力强,但实时性差,难以满足应用系统对用户提供更加实时服务的需求,此时Spark、Flink等流式处理平台横空出世。批流数据并行的Lambda、Kappa等架构逐渐成为主流。

然而,数据平台架构演进的步伐并没有因此停止,数据湖、湖仓一体等架构在最近两年又被大家提出和应用。

事实上,百花齐放的数据平台架构背后是数据和应用复杂度的提升,优秀的产品永远致力于把功能做到极致,突破自身产品能力的边界;而优秀的用户永远在寻找适合自己的架构设计和产品组合,用户和产品就这样并行推动数据工具的发展。在这过程中也诞生了大量优秀的数据产品企业,如Splunk、Databricks、Snowflake、Clickhouse等。

数据工具是一个生态链。

我们看到另外一个比较主流的创业方向便是兼容于各种数据工具和应用系统的生态工具,如做数据采集的Fivetran、管道传输的Kafka和建模转换引擎dbt。

数据产品众多,架构选型成为关键。

经过十余年的发展,受益于开源、国内外互联网大企业的引领和创业公司不断创新,数据工具也是层出不穷,每一个数据处理环节都有大量可选工具。

工具没有绝对优劣,而用工具的人至关重要,如何搭建适合业务需求的工具组合才是用户需要重点关心的问题。

需求和算法驱动数据产品滚滚向前

现在我们拥有众多大数据的工具,但工具背后本身诞生的背景是什么,为什么会有如此多的工具?

这最终还是要回归到方法和价值上:我们处理的思路有什么革新?为什么要处理各种各样的数据,以及处理这些数据能带来多大的价值?

解题思路,算法驱动。

我们首先来看看人们处理数据的思路有多大的变化。“思路”在计算机领域换个词就叫“算法”,而“算法工程师”这个岗位大体是伴随着数据科学和人工智能诞生的。

在软件时代,算法更多停留在传统统计方法的应用:排序、求和、求统计值等,其最典型的应用在BI产品中,用于轻量级企业内部数据洞察。

在互联网时代,信息量的爆炸给统计机器学习带来新的机会,包括经典的逻辑回归、SVM、KNN等分类、聚类算法在搜索、推荐引擎中被大量使用。

同样是在2010年,AlexNet在ImageNet中图像识别的优异表现揭开了深度神经网络的序幕,大量的神经网络模型、算法被提出,不仅仅应用在图像领域,同样应用在语音、文本等非结构化数据中。而深度神经网络对数据的依赖达到了前所未有的高峰,数据甚至成为了AI的第一生产要素,这又对数据处理工具提出了更高的要求。

近年来,AI逐渐走入大模型时代,拥有高算力、大数据量的互联网企业训练了超大规模参数的通用AI模型,尤其是在文本和内容生成领域。这再一次推动了数据使用的新模式,对大模型使用者的数据要求从大而全走向细而精。

无论你的解题工具(数据工具)多好,解题思路(算法)多棒,最终我们都要回答一个最原始的价值问题:我们解题是为了什么?有什么作用?

解题目的,价值驱动。

在软件时代,数据聚合的目的更多是为了企业内部进行经营决策,所以BI是数据最早的出口形态。到了移动互联网时代,各种数据被互联网企业收集,进行用户洞察分析,提升搜索引擎、电商甚至信息流图文、视频的推荐准确率,提高用户点击率,数据价值崭露头角。

随着机器学习和神经网络的发展,人们发现数据可以被利用的思路和方法被进一步打开,更多非结构化数据、半结构化数据和最原始的结构化数据被收集,开始用于广泛的商业场景:

1.产品的研发迭代

互联网企业是利用用户数据迭代产品的最大受益者。数据辅助产品设计不仅仅可以在互联网、软件开发领域,在其他行业领域也可以被应用——服装设计中通过收集用户购买行为来进行款式设计,餐饮口味选品可以通过收集用户点评数据来辅助决策。

2.数据助力营销

其实最早的BI很重要的一个应用场景就是被用于营销洞察,但彼时缺乏足够的外部数据支撑。随着近年来电商的崛起和线上购物渗透率的快速提升,企业对外部消费者的洞察也越来越精确,精准的数据营销也成为数据应用的典型场景。

3.数据助力企业管理

4.数据助力人机协作

目前我们看到的数据应用大部分还是围绕着“人”的数据。随着“物联”越来越普及,机器和设备的数据也被大幅收集,人们可以更加了解机器,人机协作也变得越来越高效和精准。

随着数据在金融、电信、工业、政务、医疗教育甚至农业等行业应用,个人和企业将被深度数据化,行为和决策受数据驱动,执行过程被数据记录,劳动成果被数据化衡量,甚至整个社会的运转都是由数据在背后驱动,这将对数据工具提出新的需求。

数据产品发展方向:大众化、跨云、架构融合和安全

数据产品的诞生从源头来看是需求的驱动,从路径上看需要IT基础设施的助力,包括算法的迭代、硬件性能提升及成本下降,企业IT架构的调整。需求和技术的相互促进将带来更多创新机会。

1.工具大众化

上面所列的绝大多数数据处理工具都有较高的技术门槛和使用门槛,但企业最终使用数据的是决策者、运营人员和业务人员。他们并不具备高超的IT技能,这就无形中增加了企业使用数据过程中的沟通成本。所以,未来数据工具大众化也一定是大家追求的目标。

国外不少产品用Excel的形态来方便业务人员使用数据,降低工具使用的门槛。虽然这种形态无法发挥大数据工具的所有能力,但在用户体验上还是更进了一步。

大众化UI(交互界面)的形态并没有局限,但如何保证易用性才是问题的关键。也只有产品更加大众化,才能进一步扫清数据工具持续提升渗透率和用户基数的障碍。

2.产品跨云平台能力

公有云厂商向来是底层技术实力比较强的企业,其数据类产品当然也并不落下风。Snowflake能在AWS生态繁荣发展的前提也是使用AWS的S3来存储。而AWS在数据产品中从提取传输、存储、数据处理到消费都有对应的云产品。

如果公有云客户的第一选择还是考虑云厂商第一方产品,那第三方产品是不是就完全没有机会了呢?

即使放眼全球,多云和混合云架构也是企业的主流选择。这就给大量独立的数据工具提供了广阔的生存空间。跨云数据产品也将成为未来企业需要考虑的重点。无论是公有云还是非公有云,数据产品能兼容于各类异构云/云原生基础设施,将成为用户采用的前提。

3.产品架构融合能力

以往我们进行软件架构设计的时候,硬件成本是重要的考量因素:如何节约内存?如何降低CPU消耗?如何平衡IO吞吐和读写性能?随着摩尔定律的深入和后摩尔定律时代的到来,硬件复杂度提高,能力越来越强,硬件的单位成本也随之下降。

除了HTAP,在数据库领域新兴的其他趋势如批流一体、湖仓一体、AINative(算法/AI内生在数据库产品中)等等,无不体现了硬件能力提升背后软件功能的边界越来越宽的趋势。因此,数据产品应在设计之初就考虑未来产品的可扩展能力,如何逐步拓宽自己的功能边界,以获取更大的市场。

前面提到数据类产品未来将在各个行业深入渗透,但行业和行业之间对产品的要求千差万别。到底是产品本身能力扩展能够适应绝大多数行业,抑或未来出现行业版产品呢?这也是非常值得探讨的话题。

4.数据安全

如果不解决安全问题,数据的价值发挥将受到极大的限制。随着数据价值的不断提升,数据安全的价值也会越来越大。

不久前,工信部等16部门联合发布的《关于促进数据安全产业发展的指导意见》提出,到2025年,我国数据安全产业规模超过1500亿元,年复合增长率超过30%。

要知道,2022年整个网络安全的市场规模也不超过1000亿元,而这里面还包含了70多个产品品类。

我们在《数安法》颁布之前就已经布局了数据安全运营、API安全、隐私计算数据安全新兴方向,也从这些企业的发展感受到市场对数据安全需求的快速提升,也就不难理解政策部门对2025年数据安全规模的乐观预期了。

回头来看,大数据工具的变迁历史不过短短十余年,不过天下难事,必作于易,天下大事也必作于细,前路还有很多可能性。2023年,期待能看到更多充满生命力的创新涌现。

THE END
1.数据采集方式有哪些,都有什么特点?mse采集数据采集,又称数据获取,是利用一种装置,从系统外部采集数据并输入到系统内部的一个接口。在互联网行业快速发展的今天,数据采集已经被广泛应用于人工智能等相关领域,摄像头、麦克风等,都是数据采集的工具。 数据采集系统整合了信号、传感器等数据采集设备和应用软件。在数据大爆炸的互联网时代,数据的类型也是复杂多样的https://blog.csdn.net/esensoft123/article/details/130265447
2.当今的大模型,普遍患有“数据饥渴症”澎湃号·湃客澎湃新闻问题不仅仅是“数量”,互联网数据看似浩瀚,实则多是低质量的“沙砾”。偏见、冗余、虚假信息充斥其中,让模型无法真正站稳在“知识”的基石上。社交媒体的喧嚣,更多是噪声而非智慧。 高质量的数据集也捉襟见肘,ImageNet、COCO,这些曾让AI从“婴儿”走向“少年”的标志性数据集,如今对万亿参数级模型来说已经无济于https://www.thepaper.cn/newsDetail_forward_29673947
3.9000字详解数据治理和数据分类分级腾讯云开发者社区我们要如何看待数据这个话题。数据大爆炸已经成为了一个趋势,随着数字化转型的步伐逐步加快,数据的诞生不断加快。我们已经真正步入到一个大数据的时代。每个人每时每刻都在产生大量的数据,随着移动互联网的应用和传感网络的普及,我们的数据呈海量式增长,根据IDC发布的报告中统计,到2025年,全球的数据量将达到史无前例https://cloud.tencent.com/developer/article/2203077
4.信息爆炸时代,存储是数字经济的基石在网络连接下,人与人之间的距离不仅变得更近,人与世界的距离也被拉近。人们可以通过网络获得海量的信息。现在,信息技术的迭代还在继续,在互联网从人人互联进入万物互联的新时代,不仅人与人、人与物之间需要进行海量的信息交互,物与物之间更需要信息的传递交流。据预测,在未来五年,人们创建的数据将超过数据存储https://baijiahao.baidu.com/s?id=1748711872955836919&wfr=spider&for=pc
5.互联网发展新阶段网络暴力治理进展挑战和应对建议2009 年,在被称为美国“网络暴力第一案”(发生于 2006 年)的梅根·梅尔案件的影响下,美国曾试图通过《梅根·梅尔网络暴力预防法案》,在联邦层面对网络暴力行为进行规制,但由于存在可能影响网络言论自由的争论,该法案未能通过。在各州层面,根据网络欺凌研究中心的数据统计,截至 2023 年,美国已有 48 个州的法律中https://www.zgcsswdx.cn/info/12160.html
6.数据海量时代,华为云空间定义数字安全数据大爆炸时代,技术实力是根基,但对数据安全的始终敬畏则是鞭策华为云空间等服务商砥砺前行的唯一力量。 36氪报道企业服务 智能手机开启了全球移动互联网化的黄金十年:应用软件繁荣带来的移动化、碎片化、多元化小内容消费,也让个人用户生产的数据暴涨——这决定了PC时代的物理存储方式并不能很好的满足用户需求,在移动https://36kr.com/p/1723103952897