两万字解读:2024年版机器学习AI和数据(MAD)生态全景图谱

这是我们连续第十年发布的关于数据、分析、机器学习和人工智能生态系统的全景和行业状况报告。

从曾经的小众和技术密集型领域,MAD生态系统已走向主流。这种范式的转变似乎正在加速,其影响远超技术或商业层面,触及到社会、地缘政治乃至人类生存状态。然而,作为这一跨越数十年的巨大趋势,我们仍有许多故事等待书写。每年,我们都会尝试理解当前的产品、公司和行业趋势所在位置。

今年的团队成员包括AmanKabeer和KatieMills(FirstMark)、JonathanGrana(GoFractional)以及PaoloCampos,衷心感谢他们的贡献。同时也要感谢CBInsights为交互版本提供的数据支持。

本年度的行业报告分为三个部分:

第一部分:全景

公司数量

2024年的MAD全景图谱共展示了2011个公司Logo。

与去年的1416个相比有所增加,新加入了578家公司。

最初的2012版本仅有139个Logo。

这一全景图谱的密集程度,主要源于连续两轮大规模的公司创立和资金注入。

第一轮是持续约十年的数据基础设施周期,始于大数据概念,终于现代数据栈的形成。尽管人们期待这一领域的整合,但大部分公司依然存在。

第二轮则是以生成式人工智能的兴起为标志的机器学习/人工智能周期。由于我们正处于这一周期的早期阶段,且多数公司都相对年轻,因此我们在全景图中包含了许多年轻的初创公司(其中不少仍处于种子阶段)。

尽管每年将不断增加的公司数量纳入全景图变得愈加困难,但最终,将MAD领域视为一个生命周期完整的装配线——从数据收集、存储、处理到通过分析或应用创造价值——是一种理想的思考方式。

两轮浪潮加上有限的整合导致全景图上公司众多。

在“基础设施”和“分析”领域的主要变化

一些值得注意的变化包括:我们将“数据库抽象”更名为“多模型数据库与抽象”,以体现围绕全能的“多模型”数据库群体(如SurrealDB*、EdgeDB)的兴起;去年我们试验性创建的“加密/网络3分析”部分感觉不太适合这一全景,因此被去除;并且移除了“查询引擎”部分,因为它更像是部分的一部分而非独立部分(该部分的所有公司仍然出现在全景图上——比如Dremio、Starburst、PrestoDB等)。

在“机器学习与人工智能”中的主要变化

鉴于2023年人工智能公司的爆炸式增长,这里我们发现自己做出了迄今为止最多的结构性变化。

考虑到去年“AI赋能”层面的巨大活动,我们在MLOps旁边新增了三个类别:

“应用”中的主要变化

这里最大的更新是,毫不意外地,现在每一家应用层公司都自称是“AI公司”——正如我们尽力过滤所导致的,这导致你在MAD全景图右侧看到的新标志数量激增。

在结构方面的一些小调整包括:

“开源基础设施”中的主要变化

我们合并了一直很接近的类别,创立了一个跨越“数据访问”和“数据操作”的单一“数据管理”类别。

我们新增了一个重要的类别,“本地AI”,因为构建者们正在寻求提供工具来将AI和大语言模型带入本地开发时代。

第二部分:2024年我们正在考虑的24个主题

结构化与非结构化数据

这部分既是一个主题,也是我们在讨论中经常提到的,以帮助解释当前的趋势。

因此,作为对2024年讨论的一个引言,这里是一个重要的提醒,它解释了一些关键的行业趋势。并非所有数据都是相同的。简而言之,有两大主要数据家族,围绕每个家族,已经出现了一系列工具和用例。

非结构化数据(机器学习/人工智能)很热;结构化数据(现代数据栈等)不热。

现代数据栈是否已经过时?

不久前(比如说,2019-2021年),在软件世界中没有什么比现代数据栈(MDS)更性感的了。与“大数据”一起,它是从数据工程师跨越到更广泛受众(高管、记者、银行家)的罕见基础设施概念之一。

现代数据栈基本上覆盖了上述的结构化数据管道。它围绕着快速增长的云数据仓库,与位于其上游的供应商(如Fivetran和Airbyte)、位于其顶部的(DBT)和下游的(Looker、Mode)一起。

随着Snowflake成为有史以来最大的软件IPO,对MDS的兴趣爆炸式增长,伴随着狂热的、ZIRP(零利率政策)驱动的公司创立和风投资金。整个类别在一年或两年内变得过度拥挤——数据目录、数据可观测性、ETL、反向ETL,仅举几例。

现代数据栈既是一个真正解决问题的解决方案,也是一个营销概念和一系列跨数据价值链的初创公司之间的事实上的联盟。

但转眼到了今天,情况大为不同。在2023年,我们预见到MDS正面临“压力”,而这种压力只会在2024年继续加剧。

MDS面临两个关键问题:

数据基础设施领域的整合,以及大公司的壮大

鉴于上述情况,2024年数据基础设施和分析领域接下来可能会发生什么?

Databricks与Snowflake的情况

说到该领域的大公司,让我们看看两个关键数据基础设施玩家Snowflake和Databricks之间的“巨大冲击”。

Snowflake与Databricks竞争的主要新进展是MicrosoftFabric的推出。2023年5月宣布,这是一个端到端的基于云的SaaS平台,用于数据和分析。它集成了许多Microsoft产品,包括OneLake(开放湖库)、PowerBI和SynapseDataScience,并覆盖几乎所有数据和分析工作流,从数据集成和工程到数据科学。像往常一样,对于大公司产品的推出,宣布和产品现实之间有一定的差距,但结合Microsoft在生成式AI上的重大推动,这可能成为一个强大的威胁(另一个故事的转折是,Databricks在很大程度上建立在Azure之上)。

2024年的BI,以及生成式AI是否即将改变数据分析?

在现代数据栈和结构化数据管道世界的所有部分中,最有可能被重新发明的类别是商业智能。我们在2019年的MAD中强调了BI行业几乎完全整合的情况,并在2021年的MAD中讨论了指标存储的出现。

BI/分析的转型比我们预期的要慢。该行业仍然主要由较老的产品主导,如Microsoft的PowerBI、Salesforce的Tableau和Google的Looker,有时在更广泛的销售合同中免费捆绑提供。发生了一些更多的整合(Thoughtspot收购了Mode;Sisu被Snowflake悄悄收购)。一些年轻公司正在采取创新的方法,无论是规模扩大的公司(见dbt及其语义层/MetricFlow)还是初创公司(见Trace*及其指标树),但它们通常还处于旅程的早期。

除了在数据提取和转换中可能发挥强大作用外,生成式人工智能还可能在赋予和民主化数据分析方面产生深远影响。

的确有很多活动。OpenAI推出了代码解释器,后来更名为高级数据分析。Microsoft为Excel中的财务工作者推出了CopilotAI聊天机器人。在云供应商、Databricks、Snowflake、开源和一大批初创公司中,许多人正在研究或已经发布了“文本到SQL”产品,以帮助使用自然语言运行数据库查询。

承诺既令人兴奋又可能具有破坏性。数据分析的圣杯一直是其民主化。如果自然语言能成为笔记本电脑、数据库和BI工具的接口,将使更广泛的人群能够进行分析。

然而,许多BI行业人士持怀疑态度。SQL的精确性和理解查询背后商业背景的细微差别被认为是自动化的重大障碍。

现代AI堆栈的崛起

到目前为止,我们讨论的很多内容都与结构化数据管道的世界有关。

正如所提到的,非结构化数据基础设施正在经历一个非常不同的时刻。非结构化数据是喂养LLMs的数据,对它的需求极为迫切。每个正在尝试或部署生成式AI的公司都在重新发现老生常谈:“数据是新石油”。每个人都想要LLMs的力量,但训练在他们(企业)数据上。

大大小小的公司都在争相提供生成式AI的基础设施。

几家AI规模扩大的公司一直在积极发展其产品,以利用市场势头——从Databricks(见上文)到ScaleAI(他们将最初为自动驾驶汽车市场开发的标签基础设施演变为与OpenAI等合作的企业数据管道)到Dataiku*(他们推出了LLMMesh,使全球2000强公司能够在多个LLM供应商和模型之间无缝工作)。

与此同时,新一代AI基础设施初创公司正在出现,涵盖许多领域,包括:

我们一直在抵制使用“现代AI堆栈”这个术语,鉴于现代数据栈的历史。

而这一代新的AI基础设施初创公司将面临一些与MDS公司之前相同的挑战:这些类别中的任何一个是否足够大,可以构建一个价值数十亿美元的公司?哪一部分将由大公司(主要是云提供商,但也包括Databricks和Snowflake)自己构建?

我们处于AI炒作周期的哪个阶段?

AI有着几十年的历史,经历了AI夏天和冬天。仅在过去的10-12年里,这是我们经历的第三个AI炒作周期:2013-2015年之后深度学习在ImageNet2012之后进入了聚光灯下出现了一个;另一个在2017-2018年左右,在聊天机器人热潮和TensorFlow的崛起期间;现在自2022年11月以来,有了生成式AI。

这个炒作周期特别激烈,以至于感觉像是一个AI泡沫,原因有很多:技术令人难以置信地令人印象深刻;它非常直观,并跨越到了技术圈以外的广泛受众;对于坐拥大量干粉的风投来说,这是当下唯一的游戏,因为几乎所有其他技术都处于低迷状态。

炒作带来了所有通常的好处(“没有伟大的成就是没有非理性热情的”,“让一千朵花开放”阶段,为雄心勃勃的项目提供大量资金)和噪音(一夜之间每个人都是AI专家,每个初创公司都是AI初创公司,太多AI会议/播客/新闻简报……)。

任何炒作周期的根本问题都在于其必然的反作用。

这个市场阶段充满了不确定性和风险:代表这一领域的标杆公司拥有独特的法律和治理结构;进行了大量尚未充分理解或公开的“计算换股权”交易,可能涉及资金循环利用;很多顶尖的初创企业由AI研究人员领导;许多风投交易回想起了零利率政策(ZIRP)时期的情景:为了抢占市场份额而进行的大规模融资,给予年轻公司高额估值。

尽管AI炒作已经显现裂痕,但我们仍然处于几乎每周都有令人震惊的新发现的阶段。沙特阿拉伯宣布的400亿美元AI基金等消息似乎预示着资金流入这一领域不会很快停止。

实验与现实:2023年是否只是场幻觉?

关于炒作——到目前为止,有多少是真实进展,而非仅仅是实验性的?

2023年是充满行动的一年:a)每家科技供应商都急于将生成式AI整合进其产品中;b)每个全球2000强公司的董事会都指示其团队开展“AI”项目,一些企业部署以前所未有的速度进行,包括在受监管行业如摩根士丹利和花旗银行的公司;c)当然,消费者对生成式AI应用展现出极大的热情。

因此,2023年成为一个取得巨大成功的年份:OpenAI的年收入达到20亿美元;Anthropic以迅速的步伐增长,预计2024年收入达到8.5亿美元;Midjourney在没有任何投资和仅有40人团队的情况下,收入达到2亿美元;PerplexityAI从零增长到每月1000万活跃用户等。

在企业领域,大量支出用于概念验证或容易实现的项目,这些通常来自创新预算。

这些举措多少是出于高管们不想显得措手不及,而不是为了解决实际业务问题?

在消费者市场,AI应用表现出高流失率。这只是出于好奇吗?

在个人和职业生活中,许多人表示不完全确定如何使用生成式AI应用和产品。

并非所有由顶尖AI专家建立的生成式AI产品都能奇迹般地成功:我们是否应该将InflectionAI快速关闭,并在筹集了13亿美元后,视为承认世界不需要更多的AI聊天机器人或LLM提供商?

LLM公司:或许并非完全同质化?

巨额的风投和企业资金正投入到基础模型公司中。

此外,开源模型(如Llama3、Mistral和DBRX等)在性能方面迅速赶上。

另外,市场上的LLM提供商比最初看起来的要多。几年前,普遍的看法是LLM公司可能只有一两家,因为全球只有少数人具备扩展Transformers的专业知识,因此存在赢家通吃的动态。

事实证明,比最初预期的能力强的团队更多。除了OpenAI和Anthropic,还有很多初创公司在进行基础AI工作——Mistral、Cohere、Adept、AI21、Imbue、01.AI仅是几个例子——当然还有Google、Meta等团队。

话虽如此,到目前为止,LLM提供商似乎表现良好。非常感谢,OpenAI和Anthropic的收入正在以非凡的速度增长。也许LLM模型最终会变得同质化,但LLM公司仍面临着巨大的商业机会。他们已经成为全栈公司,在底层模型之上,为多个受众(消费者、企业、开发人员)提供应用程序和工具。

也许,将他们与云服务提供商进行类比确实相当合适。AWS、Azure和GCP通过应用/工具层吸引并留住客户,并通过大体上同质化的计算/存储层实现盈利。

LLMs、SLMs和混合未来

对于所有关于大型语言模型(LLMs)的兴奋,过去几个月一个明显的趋势是小型语言模型(SLMs)的加速发展,比如Meta的Llama-2-13b、Mistral的Mistral-7b和Mixtral8x7b,以及Microsoft的Phi-2和Orca-2。

尽管LLMs变得越来越大(据称GPT-3拥有1750亿参数,GPT-4拥有1.7万亿参数,世界正等待一个更巨大的GPT-5),SLMs因为操作成本低、易于微调并经常提供强大的性能,成为许多用例的有力替代品。

另一个加速的趋势是专用模型的崛起,这些模型专注于特定的任务,如编程(Code-Llama、PoolsideAI)或特定行业(例如Bloomberg的财经模型,或OrbitalMaterials为材料科学开发模型的初创公司等)。

正如我们在许多企业部署中已经看到的,世界正在迅速向结合多个模型的混合架构演进。

尽管价格一直在下降,但大型专有LLM仍然非常昂贵,存在延迟问题,因此用户/客户将越来越多地部署各种模型组合,包括大型和小型、商业和开源、通用和专用,以满足他们的特定需求和成本约束。

传统AI死了吗?

ChatGPT的推出发生了一件有趣的事情:直到那时为止部署的所有AI几乎在一夜之间被称为“传统AI”,与“生成式AI”形成对比。

这对于直到那时被认为在进行前沿工作的许多AI从业者和公司来说,有点令人震惊,因为“传统”这个词明确暗示了所有形式的AI将被新事物全面替换。

实际情况要复杂得多。传统AI和生成式AI最终非常互补,因为它们处理不同类型的数据和用例。

现在被标记为“传统AI”的东西,有时也被称为“预测AI”或“表格AI”,也完全是现代AI(基于深度学习)的一部分。然而,它通常专注于结构化数据(见上文),和问题,如推荐、客户流失预测、价格优化、库存管理。过去十年,“传统AI”经历了巨大的采纳,并且已经在全球数千家公司中大规模部署。

相比之下,生成式AI主要处理非结构化数据(文本、图像、视频等)。在不同类别的问题(代码生成、图像生成、搜索等)上表现出色。

这里同样,未来是混合的:公司将使用LLM完成某些任务,预测模型完成其他任务。最重要的是,它们经常将它们结合起来-LLM可能不擅长提供精确的预测,如客户流失预测,但你可以使用一个LLM调用另一个模型的输出,后者专注于提供那个预测,反之亦然。

薄包装(thinwrapper)、厚包装(thickwrapper)与成为全栈的竞争

“薄包装”是2023年大家都喜欢使用的轻蔑术语。如果你的核心能力由别人的技术(如OpenAI)提供,很难建立持久的价值和差异化。几个月前的报告称,像Jasper这样的初创公司在经历了流星般的收入上升后遇到了困难,似乎证实了这种思维方式。

到了2024年,看起来厚包装有通过以下方式实现差异化的路径:

专注于特定问题,通常是垂直领域-因为任何过于横向的东西都有可能处于大科技公司的“危险区”

构建针对该问题的工作流、协作和深度集成

在AI模型层面做大量工作-无论是使用特定数据集微调模型还是创建为其特定业务量身定制的混合系统(LLMs、SLMs等)

换句话说,它们需要既狭窄又“全栈”(即应用程序和基础设施)。

过去一年围绕AI智能体的概念引发了大量兴奋-基本上是智能系统的最后一环,能够执行任务,通常以协作方式。这可能是任何事情,从帮助预订旅行(消费者用例)到自动进行全面的SDR活动(生产力用例)到RPA风格的自动化(企业用例)。

AI智能体是自动化的圣杯-一个“文本到行动”的范式,AI代表我们完成任务。

每隔几个月,AI世界都会为类似代理的产品疯狂,从去年的BabyAGI到最近的DevinAI(一个“AI软件工程师”)。然而,一般来说,到目前为止,这种兴奋大多被证明为时过早。在复杂的系统涉及几个模型可以一起工作并代表我们采取实际行动之前,需要首先完成大量工作,使生成式AI变得不那么脆弱且更可预测。还有缺失的组件-比如需要在AI系统中构建更多记忆。然而,预计未来一两年AI智能体将是一个特别令人兴奋的领域。

另一个有趣的领域是边缘AI。尽管有一个巨大的市场需要在大规模运行并作为端点提供的LLMs,但AI的一个圣杯是可以在设备上本地运行的模型,不需要GPU,特别是手机,但也包括智能的IoT类型设备。这个领域非常活跃:Mixtral、Ollama、Llama.cpp、Llamafile、GPT4ALL(Nomic)。Google和Apple也可能会越来越活跃。

生成式AI是否正朝向AGI前进,还是朝向一个高原?

鉴于所有关于AI的令人屏息的看法,以及似乎每周都有令人难以置信的新产品出现-但是有没有一个世界,在那里生成式AI的进展放缓而不是一路加速到AGI?这意味着什么?

论点有两方面:a)基础模型是一种蛮力练习,我们将用尽资源(计算、数据)来喂养它们,b)即使我们没有用尽,最终通向AGI的路径是推理,这是LLMs无法做到的。

我们在AI推理方面取得了多少进展,总的来说不太清楚-尽管DeepMind的AlphaGeometry程序似乎是一个重要的里程碑,因为它结合了语言模型和符号引擎,使用逻辑规则进行推导。

我们距离任何类型的“计算或数据用尽”有多远是很难评估的。

“计算用尽”的边界似乎每天都在被进一步推迟。NVIDIA最近宣布的BlackwellGPU系统,该公司说它可以部署一个27万亿参数的模型(相对于GPT-4的1.7万亿)。

GPT-5上的巨大期望非常之多。它比GPT-4好多少将被广泛视为AI整体进展速度的晴雨表。

从创业生态系统参与者(创始人、投资者)的狭隘视角来看,也许这个问题在中期内并不那么重要-如果生成式AI的进展明天达到渐近线,我们仍然有数年的商业机会在前方,部署我们当前拥有的东西跨越行业和用例。

GPU大战(NVIDIA是否被高估了?)

我们是否处于一个巨大周期的早期阶段,其中计算成为世界上最宝贵的商品,还是大规模过度建设GPU生产,必然导致大崩溃?

作为几乎是生成式AI就绪GPU唯一的游戏玩家,NVIDIA当然一直处于一个特殊时刻,其股价上涨了五倍,达到2.2万亿美元的估值,并且自2022年底以来总销售额增长了三倍,围绕其收益的巨大兴奋和JensenHuang在GTC的表现与TaylorSwift的2024年最大事件竞争。

也许这部分是因为它是风投在AI中投资的所有数十亿美元的最终受益者?

生成式AI投资:风险投资公司通过被称为“初创公司”的中介将大量资金转移给NVIDIA的过程

此外,从AMD到Intel到Samsung的竞争正在尽力反应;像Groq或Cerebras这样的初创公司正在加速,可能会形成新的初创公司,如SamAltman传闻中的7万亿美元芯片公司。包括Google、Intel和Qualcomm在内的新一批科技公司联盟正试图攻击NVIDIA的秘密武器:其CUDA软件,将开发者绑定到Nvidia芯片。

我们的看法是:随着GPU短缺缓解,NVIDIA可能会在短到中期内面临下行压力,但AI芯片制造商的长期前景仍然非常光明。

开源AI:好事过头了吗?

这只是稍微搅动一下水。我们非常支持开源AI,显然这是过去一年或左右的一个大趋势。Meta对其Llama模型进行了重大推动,法国的Mistral从争议的饵料变成了生成式AI的新亮点,Google发布了Gemma,HuggingFace继续作为开源AI的活跃之家,托管着大量模型的上升。生成式AI中一些最创新的工作是在开源社区完成的。

然而,也有一种普遍的膨胀感渗透到开源社区。现在有数十万个开源AI模型可用。许多是玩具或周末项目。模型在排名中上升和下降,其中一些按Github星标准(一个有缺陷的指标,但仍然)在短短几天内经历了流星般的上升,只是永远不会转变成特别有用的东西。

市场将自我纠正,支持云提供商和其他大科技公司不成比例支持的成功开源项目将呈幂律分布。但与此同时,当前的爆炸对许多人来说令人眩晕。

搞AI到底要花多少钱?

生成式AI的经济学是一个快速发展的话题。不出所料,许多关于这一领域未来的讨论都围绕着它展开——例如,如果提供AI驱动的答案的成本显著高于提供十个蓝色链接的成本,真的能严肃地挑战谷歌在搜索方面的地位吗?如果推理成本吞噬了他们的毛利润的大块部分,软件公司真的可以成为AI驱动的吗?

对于AI模型的客户/用户来说,好消息是:我们似乎正处于价格方面竞争到底的早期阶段,这个过程比人们可能预测的要快。一个关键驱动因素是开源AI(如Mistral等)和商业推理供应商(如TogetherAI、Anyscale、Replit)的并行崛起,这些供应商采用这些开放模型并将其作为终点提供服务。对客户而言,切换成本很低(除了处理不同模型产生不同结果的复杂性之外),这对OpenAI和Anthropic构成了压力。一个例子是嵌入模型成本的显著下降,多个供应商(如OpenAI、TogetherAI等)同时降低了价格。

从供应商的角度来看,构建和服务AI的成本仍然非常高。据报道,Anthropic支付给像AWS和GCP这样的云提供商的费用超过了其生成的收入的一半,以运行其LLMs。还有与出版商签订许可协议的成本。

另一方面,也许我们所有作为生成技术用户的人应该享受由风投资助的免费服务的爆炸:

风投为您带来了便宜的Uber

风投为您带来了便宜的Airbnb

风投正在为您带来便宜的AI推理

大公司和AI的政治经济学变化:微软是否已经胜出?

AI奖励规模-更多的数据、更多的计算能力、更多的AI研究人员往往会产生更多的力量。大科技公司对此非常清楚。与以往平台转变中的现有公司不同,它也对潜在的颠覆持续敏感反应。

在大科技公司中,微软显然像在玩4D国际象棋。显然有与OpenAI的关系,微软首次在2019年投资OpenAI,并已经投资了130亿美元。但微软还与开源竞争对手Mistral合作。它投资了ChatGPT的竞争对手InflectionAI(Pi),最近以壮观的方式收购了它。

最终,所有这些合作似乎只会增加对微软的云计算需求——Azure的收入同比增长24%,达到了2024年第二季度的330亿美元,其中6个百分点的Azure云增长归因于AI服务。

如果您感到困惑:

微软是OpenAI最大的投资者,但也是OpenAI的竞争对手和竞争对手聊天机器人InflectionAI的投资者-与此同时,微软也是Databricks的关键合作伙伴,但也是AzureAI的竞争对手

希望这能澄清:

与此同时,谷歌和亚马逊已经与OpenAI的竞争对手Anthropic合作并投资(在撰写本文时,亚马逊刚刚向该公司承诺了另外27.5亿美元,在其计划的40亿美元投资的第二批中)。亚马逊还与开源平台HuggingFace合作。据报道,谷歌和苹果正在讨论在苹果产品中集成GeminiAI。Meta可能通过全面开源AI而使所有人都落后。

明显的问题是,初创公司有多少成长和成功的空间。一批初创公司(主要是OpenAI和Anthropic,可能很快就会有Mistral加入)似乎已经达成了正确的合作伙伴关系,并达到了逃逸速度。对于很多其他初创公司,包括那些资金充足的公司,结果仍然非常不确定。

我们是否应该从InflectionAI决定被收购,以及StabilityAI的CEO问题中读出,对一群“二线”生成式AI初创公司来说,商业牵引力实现起来更加困难的承认?

对OpenAI的狂热-还是不?

还有一些有趣的问题:

OpenAI是否试图做太多了?

在所有11月的戏剧之前,就有了OpenAI开发者日,在那里OpenAI清楚地表明它将在AI的各个方面(垂直(全栈)和水平(跨用例))做一切:模型+基础设施+消费者搜索+企业+分析+开发工具+市场等。当一家初创公司是大范式转变中的早期领导者,并且实际上可以无限制地获得资本时(Coinbase在加密领域有点类似),这并非史无前例的策略。但这将是有趣的观察:虽然这肯定会简化MADLandscape,但在竞争加剧的背景下,这将是一个巨大的执行挑战。从ChatGPT的懒惰问题到其市场努力表现不佳,表明OpenAI并非不受商业重力法则的影响。

OpenAI和微软会分手吗?与微软的关系一直很吸引人-显然,微软的支持对OpenAI在资源(包括计算)和分销(企业中的Azure)方面是巨大的推动,此举在生成式AI浪潮的早期被广泛视为微软的高明举动。同时,正如上面提到的,微软已经清楚表明它不依赖OpenAI(拥有所有代码、权重、数据),它已经与竞争对手合作(例如Mistral),并通过收购InflectionAI大大加强了其AI研究团队。

与此同时,OpenAI是否希望继续在与微软的合作伙伴关系中单线程,而不是部署在其他云上?

鉴于OpenAI的巨大野心,和微软对全球统治的目标,两家公司何时会得出结论,他们更多是竞争对手而不是合作伙伴?

2024年将是企业AI的一年吗?

如上所述,2023年在企业中感觉像是那些关键的年份,每个人都争先恐后地拥抱新趋势,但除了一些概念验证之外,实际上并没有发生太多事情。

也许2023年生成式AI在企业中的最大赢家是像埃森哲这样的公司,据报道它们通过AI咨询赚取了20亿美元的费用。

到目前为止,AI狂热的最大赢家:咨询公司。

无论如何,人们极其希望2024年将是企业中AI的大年——或者至少对于生成式AI来说,因为传统AI已经在那里有了显著的足迹(见上文)。

但我们还处于回答一些全球2000型公司面临的关键问题的早期阶段:

用例是什么?到目前为止,低悬果实用例主要是:a)开发团队的代码生成副驾驶,b)企业知识管理(搜索、文本总结、翻译等),和c)客户服务的AI聊天机器人(这个用例早于生成式AI)。当然还有其他(营销、自动化SDR等),但还有很多需要弄清楚(副驾驶模式vs全自动化等)。

我们应该选择哪些工具?根据上文,未来似乎是混合的,结合了商业供应商和开源,大型和小型模型,水平和垂直的GenAI工具。但从哪里开始?

谁将部署和维护这些工具?在全球2000家公司中存在明显的技能短缺。如果您认为招聘软件开发人员很难,只需尝试招聘机器学习工程师。

我们如何确保它们不会产生幻觉?是的,围绕RAG和护栏以及评估等正在进行大量工作,但生成式AI工具可能会完全错误,以及我们并不真正知道生成式AI模型如何工作的更广泛问题,这在企业中是个大问题。

对于生成式AI供应商来说,好消息是企业客户有大量兴趣分配预算(重要的是,不再是“创新”预算而是实际的OpEx预算,可能从其他地方重新分配)和资源来弄清楚。但我们可能谈论的是一个3-5年的部署周期,而不是一年。

AI会杀死SaaS吗?

这是过去12个月的时髦想法之一。

问题的一个版本是:AI使编码速度提高10倍,所以只需几个普通开发者,您就能创建一个定制的SaaS产品,满足您的需求。当您可以自己构建时,为什么要支付大量金钱给SaaS提供商。

问题的另一个版本是:未来是由一个AI智能(可能由几个模型组成)运行您的整个公司,通过一系列代理。您不再购买HR软件、财务软件或销售软件,因为AI智能做所有事情,以完全自动化和无缝的方式。

我们似乎还远未真正以任何全面的方式看到这两种趋势的发生,但正如我们所知,AI中的事情变化非常快。

与此同时,未来的一个可能版本是,随着AI被构建进每一个SaaS产品中,SaaS产品将变得更加强大。

AI会杀死风险资本吗?

撇开(永远有趣的)话题,AI能否自动化风险资本,无论是在公司选择方面,还是在投资后增值方面,围绕资产类别是否为AI平台转变正确规模的有一系列有趣的问题:

风险资本太小了吗?世界上的OpenAI需要筹集数十亿美元,可能还需要筹集更多数十亿美元。这些数十亿美元中的很多都是由像微软这样的大公司提供的-可能在很大程度上以计算换股权的形式。当然,许多风投公司已经投资于大型基础模型公司,但至少,这些投资明显偏离了传统的VC软件投资模型。也许AI投资将需要超大型VC基金-在撰写本文时,沙特阿拉伯似乎即将与美国VC公司合作推出一个400亿美元的AI基金。

风险资本太大了吗?如果您认为AI将使我们的生产力提高10倍,包括超级编码者和自动化SDR代理以及自动化营销创建,那么我们即将见证一个由骨干团队(或许只是一个独行侠)运营的全自动公司的诞生(理论上能够达到数亿美元的收入(并上市)?

一个由独行侠运营的1亿美元ARR公司在其旅程中的任何时点都需要风险资本吗?

AI会复兴消费者市场吗?

自社交媒体和移动时代以来,消费者市场一直在寻找下一个风口。生成式AI很可能就是它。

一些有趣的领域(还有许多其他领域):

搜索:几十年来,谷歌的搜索垄断地位首次出现了早期但可信的竞争对手。一小批初创公司,如PerplexityAI和You.com,正在引领从搜索引擎到答案引擎的演变。

AI伴侣:除了反乌托邦的方面,如果每个人都有一个无限耐心且有用的伴侣,专门满足个人的特定需求,无论是知识、娱乐还是治疗

出人意料的争议性观点:超个性化的伴侣AI,可以是您最好的朋友和/或一个始终在线的治疗师,这不是反乌托邦,而是对人类的一个重大净积极影响,将导致更少的孤独、暴力甚至战争。

AI硬件中:Humane、Rabbit、VisionPro是消费者硬件中令人兴奋的新产品。

超个性化娱乐:随着生成式AI工具不断改进(并且更便宜),我们将创造什么新形式的娱乐和艺术?

观看电影的体验变化:

AI和区块链:废话,还是令人兴奋?

我知道,我知道。AI和加密的交集感觉像是完美的X/Twitter笑料。

然而,不可否认的是,AI正在集中到少数拥有最多计算、数据和AI人才的公司手中——从大科技到著名的不开放的OpenAI。与此同时,区块链提议的核心是启用创建去中心化网络,允许参与者共享资源和资产。这里有探索的肥沃土壤,这是我们几年前开始探索的主题(演示)。

我们在这里没有讨论的其他主题:

第三部分:融资、并购和IPO

融资

当前的融资环境是“两个市场的故事”情况,其中有AI和其他所有东西。

整体融资继续下降,2023年下降42%,至2484亿美元。2024年的头几个月显示了一些可能的复苏迹象,但到目前为止趋势大致相同。

由于上述各种原因,数据基础设施几乎没有融资活动,SigmaComputing和Databricks是少数例外。

显然,AI是一个完全不同的故事。

AI融资市场不可避免的特征是:

大量资本集中在少数初创公司,特别是OpenAI、Anthropic、InflectionAI、Mistral等。

企业投资者的活动水平不成比例地高。2023年最活跃的3个AI投资者是微软、谷歌和英伟达

上述企业交易中有一些模糊之处,关于实际现金金额与“计算换股权”

并购、私有化

自2023年MAD以来,并购市场一直相对安静。

特别严格的反垄断环境使潜在收购者的事情变得更加棘手。

私募股权公司在艰难的市场中相对活跃,寻求低价机会。

涉及多年来出现在MAD景观上的公司的一些值得注意的交易(按规模顺序):

半导体制造商Broadcom收购了云计算公司VMWare,交易金额为690亿美元;网络和安全基础设施公司Cisco收购了监控和可观测性平台Splunk,交易金额为280亿美元;客户体验管理公司Qualtrics被SilverLake和CPPInvestments私有化,交易金额为125亿美元;支出管理平台Coupa被ThomaBravo私有化,交易金额为80亿美元;监控和可观测性平台NewRelic被FranciscoPartners和TPG收购,交易金额为65亿美元;数据分析平台Alteryx被ClearlakeCapital和InsightPartners私有化,交易金额为44亿美元;收入编排平台Salesloft被VistaEquity收购,交易金额为23亿美元,随后VistaEquity还收购了客户体验AI聊天机器人开发商Drift;提供数据湖仓的Databricks收购了AI开发平台MosaicML,交易金额为13亿美元(以及其他一些公司,金额较小,如Arcion和Okera);数据分析平台Thoughtspot收购了商业智能初创公司ModeAnalytics,交易金额为2亿美元;提供数据仓库的Snowflake收购了消费者AI搜索引擎Neeva,交易金额为1.5亿美元;云托管提供商DigitalOcean收购了云计算和AI开发初创公司Paperspace,交易金额为1.11亿美元;为云计算提供芯片的制造商NVIDIA收购了边缘的AI/ML优化平台OmniML。

当然,还有微软对InflectionAI的“非收购收购”。

2024年会是AI并购的一年吗?很多取决于市场动力的持续。

在市场的低端,过去12-18个月内资金充足的年轻AI初创公司获得了资助。在过去十年的前几个AI炒作周期中,很多收购发生在初始资金周期之后-通常价格似乎与这些公司的实际牵引力不成比例,但AI人才一直很稀缺,今天也不例外。

在市场的高端,领先的数据平台和领先的AI平台之间进一步融合有强烈的商业理由。然而,这些交易可能会更加昂贵。

IPO?

总的来说,公开市场上纯粹的AI股票仍然非常稀缺。可用的少数股票得到了丰厚的回报-Palantir股票在2023年上涨了167%。

然后是OpenAI和Anthropic如何看待公开市场的有趣问题。

结论

我们生活在非常特殊的时代。我们正处于范式转变的早期。是时候尝试和尝试新事物了。我们才刚刚开始。

THE END
1.结构化数据半结构化数据和非结构化数据通过这样的数据格式,可以自由地表达很多有用的信息,包括自我描述信息(元数据)。所以,半结构化数据的扩展性是很好的。 非结构化数据 顾名思义,就是没有固定结构的数据。各种文档、图片、视频/音频等都属于非结构化数据。对于这类数据,我们一般直接整体进行存储,而且一般存储为二进制的数据格式。https://blog.csdn.net/liangyihuai/article/details/54864952
2.什么是结构化半结构化和非结构化数据?①结构化数据:指关系模型数据,即以关系数据库表形式管理的数据,结合到典型场景中更容易理解,比如企业ERP、OA、HR里的数据。 ②非结构化数据:指数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。如word、pdf、ppt及各种格式的图片、视频等。 https://it.ynnu.edu.cn/info/1054/2898.htm
3.非结构化数据包括哪些内容在信息技术快速发展的今天,数据已经成为我们生活和工作中不可或缺的一部分。数据大致可以分为结构化数据和非结构化数据两大类。结构化数据主要指的是具有固定格式和结构的数据,如数据库中的表格数据。而非结构化数据,由于其形式多样、结构不固定,一直是数据处理和分析的难点和热点。 https://www.zhuflow.cn/news/information/1358.html
4.什么是非结构化数据?在当今数字化的世界中,数据的多样性和海量性已经成为了一个普遍的现象。除了传统的结构化数据,我们还面临着大量的非结构化数据。非结构化数据指的是缺乏明确的数据模式和格式,数据来源多样的数据类型。在本文中,我们将探索非结构化数据的定义、特点以及其在不同领域的应用。 https://www.filez.com/news/detail/974a6ef096d0b214bf7e13a2218d4e30.html
5.非结构化数据是什么9CaKrnJVtI1china.huanqiu.comzh-Hansarticle非结构化数据是什么非结构化数据主要是指那些无法用固定结构来逻辑表达实现的数据,简单来说就是用户散落在论坛、微博、微信或其他渠道发表的关于产品的各种评价或吐槽。国内的企业级客户在进行大数据分析时,仍以分析结构化数据为主。从形态上,非结构化数据主要包含三大块:第https://m.huanqiu.com/r/MV8wXzg5MzI2MTNfOTBfMTQ2MzMzODI2MA==
6.什么是非结构化数据?在当今的数字化时代,数据被认为是新的“石油”。企业、组织和个人每天都在产生大量的数据,而这些数据可以大致分为三类:结构化数据、半结构化数据和非结构化数据。其中,非结构化数据(Unstructured Data)占据了大部分,它的存在形式非常广泛和灵活,因此给数据管理和分析带来了巨大的挑战和机遇。本文将带你深入了解什么是https://zhuanlan.zhihu.com/p/721431172
7.非结构化数据是什么意思在大数据的浩瀚海洋中,数据被分为两大类:结构化数据和非结构化数据。结构化数据因其规整性和易处理性而广受欢迎,但非结构化数据同样蕴含着巨大的价值和潜力。那么,究竟什么是非结构化数据呢? 一、非结构化数据的定义 非结构化数据,顾名思义,是指那些不符合传统数据库结构(即行和列)的数据。这类数据通常以文本https://www.gokuai.com/press/a574
8.什么是非结构化数据?非结构化数据完整指南Elastic定义非结构化数据并探索数据示例以理解它与结构化数据有哪些不同。了解如何分析非结构化数据,非结构化数据的优点和带来的挑战。https://www.elastic.co/cn/what-is/unstructured-data
9.什么是结构化数据和非结构化数据?零代码知识中心二、什么是非结构化数据? 顾名思义,其他所有不能按照行列格式整齐排列的数据都是结构化数据,如录音、视频片段、图像、社交媒体帖子、电子邮件内容、客户服务聊天记录、机器传感器数据等等。据 Gartner 估计,非结构化数据约占企业所有数据的 80%,来自其他机构的估计甚至更高。 https://www.jiandaoyun.com/fe/gdyqhj/
10.什么是非结构化数据?Teradata非结构化数据是指没有固定组织原则的未经过滤的信息。它通常被称为原始数据。了解更多信息。https://prod1.teradata.com/Glossary/What-is-Unstructured-Data
11.什么是非结构化数据?OpenText非结构化数据是指没有按照预定义方式组织的数据集。了解非结构化数据的类型以及如何管理它们至关重要。https://www.opentext.com/zh-cn/what-is/unstructured-data
12.什么是非结构化数据(unstructureddata)?机器之心随着AI和5G时代的到来,我们对信息的渴望被极大的唤起,常规的结构化数据交互已经不能满足人们的需求,而伴随着数字化的快速发展,非结构化数据扮演起越来越重要的角色,图片、视频、语音蕴含的丰富信息将被广泛利用。然而真正能够使用并且管理非结构化数据是现在人工智能领域的一大问题。 https://www.jiqizhixin.com/articles/2020-05-20-10
13.请简述什么是结构化数据和非结构化数据。上述错账分别采用什么错账更正方法,并说明更正方式。8分钟前 u*** 购买了资源 云南开放大学电工电子技术第二次作业17分钟前 a*** 下载了资源 江苏开放大学纳税实务第三次形考作业25分钟前 a*** 购买了资源 江苏开放大学纳税实务第三次形考作业25分钟前 a*** 下载了资源 2024春江苏开放大学外国留学生汉语偏误https://www.ddwk123.cn/archives/652785
14.爱数非结构化数据中台解决方案针对文档、图片、视频等非结构化数据,打造统一数据管理、统一分析洞察、统一安全体系、统一内容服务的融合式中台。 非结构化数据中台围绕非结构化数据以DIKW模型为指引,消除数据孤岛,深度融合人工智能技术,实现汇集、治理、分析洞察和知识服务,全方位赋能业务与人。 https://www.aishu.cn/cn/unstructured-data-solution
15.为什么我们称文本为“非结构化”?文本背后确实存在结构,但是这不允许在计算机的角度将文本视为结构化的,这种结构是如此巨大,如此复杂,如此神秘以至于计算机无法理解,计算机仅能理解简单的结构,而语言简直就是苍白无力,因此在计算机看来,文本是非结构化的,更复杂的是,非结构化数据(从计算机的角度来看)包含的内容远远超过文本,非结构化数据包括各种其他数据https://www.chinacpda.com/data/detail/?id=1951
16.浅谈非结构化数据的特点都有哪些之前小编有谈论过什么是结构化数据,有结构化数据,也有非结构化数据。本文,就简单谈论一下什么是非结构化数据,以及非结构化数据的特点都有哪些。 非结构化数据是数据结构不规则或不完整,不方便用数据库二维逻辑表来表现的数据,没有预定义的数据模型,包括所有格式的办公文档、HTML、文本、图片、XML,各类报表、图像和https://www.yun88.com/news/1165.html
17.数据架构:大数据数据仓库以及DataVault值得注意的是,企业中的大数据包括重复型非结构化数据和非重复型非结构化数据,如图1.1.6所示。 1.1.5 分界线 一开始,对于非结构化数据的两种类型(重复型非结构化数据和非重复型非结构化数据),我们可能认为它们之间的差别是难以预料、微不足道的。实际上,这两种非结构化数据类型之间的差异并非微不足道。因为这两种https://www.ituring.com.cn/book/tupubarticle/11854
18.下列数据不属于非结构化数据的是()。下列数据不属于非结构化数据的是()。 A.文本文档 B.视频 C.事务性数据 D.图片 点击查看答案进入题库练习 查答案就用赞题库小程序 还有拍照搜题 语音搜题 快来试试吧 无需下载 立即使用 你可能喜欢 单项选择题 软件需求类型有功能需求()。 A.非功能需求 B.质量属性 C.约束 D.用户需求 点击查看答案进https://m.ppkao.com/mip/tiku/shiti/5149439.html
19.结构化与非结构化的区别多源异构数据源半结构化数据①结构化数据:指关系模型数据,即以关系数据库表形式管理的数据,结合到典型场景中更容易理解,比如企业ERP、OA、HR里的数据。 ②非结构化数据:指数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。如word、pdf、ppt及各种格式的图片、视频等。 https://www.fanruan.com/bw/doc/154297
20.非结构化的数据库51CTO博客已为您找到关于非结构化的数据库的相关内容,包含IT学习相关文档代码介绍、相关教程视频课程,以及非结构化的数据库问答内容。更多非结构化的数据库相关解答可以来51CTO博客参与分享和学习,帮助广大IT技术人实现成长和进步。https://blog.51cto.com/topic/feijiegouhuadeshujuku.html