「海外独角兽」的这篇赛道全景图的分析,从投资角度详细梳理了目前AICoding赛道的代表性产品、竞争壁垒、以及之后发展的方向等,值得细读。
LLM作为推理引擎,coding是最好的应用场景:代码的逻辑比自然语言更清晰,执行的结果能由AI自动化验证。因此我们看到从Sonnet3.5到o1pro,每一次模型能力的提升都会反映在coding能力的提升上,这一领域的应用进步就尤其显著。
能力的持续进步让我们期待软件生产过程中有专业开发者之外的更多用户参与进来。本次研究对AIcoding领域的方向和公司进行全览,研究框架中除了面向professional(专业,包括企业和独立)开发者的产品,还有citizen(小白,泛知识工作者)开发者方向的公司,他们的产品重心有所差异。
面向professionaldeveloper(专业开发者),我们期待的是coding能比其他垂直方向更快地从copilot进化到agent,并且两者共存。现阶段Cursor、Windsurf等产品体验非常优秀的copilot对独立开发者的工作体验和生产力已经带来了巨大提升。而企业中有庞大的codebase、复杂的engineeringcontext,以及严格的安全合规要求,这些短期之内很难快速解决。因此agent会在testing、review、migration等具体usecase上落地,同时通用的copilotIDE仍能发挥价值成为codingagent的工作环境。
对于citizendeveloper(小白开发者),我们期待软件生产方式有颠覆性的变革,出现新一代产品形态taskengine。AIcoding能使更多知识工作者的长尾需求被实现,生成出disposableapp:随用随抛的下一代软件,每一个app不需要满足大量DAU,而是针对不同用户有自己个性化的体验,其中的内容甚至可以实时生成。UI/UX交互层面的创新是必要的,交互门槛更低的产品能允许更多用户表达个性化需求,形成codingagent层面的新一代OS。
类比PC历史,现在的产品还在命令行时代,我们期待AIcoding方向的“GUI时刻“。
Coding领域的投资主要面临着两个大变化,底层推理引擎的持续进步和市场空间的变化:
1)Coding能力是LLM+RL范式下能力进化最快的方向,会是从copilot渐进到agent的第一个领域。
RL范式下,自动化验证的环境、明确的rewardmodel是推理能力提升的重要前提。coding就是最适合符合这个要求的场景,很可能是LLM从copilot走向agent的第一个场景。o1pro的发布再次验证了这一结论。
2)Taskengine会把市场从5000万开发者拓展到5亿知识工作者,从professional到citizendevelopers。
专业开发者只有5000万,世界上有99%的人不会写代码。但其实有很多人有个性化的任务需求,适合由软件来进行规范化。之前软件行业的试错成本太高,而AI生成式的taskengine能带来这样的很多软件。
以上是我们看好AIcoding领域投资机会的根本原因。
3)Copilotforpro&Agentforcitizen是现在模型能力与产品需求相匹配的领域。
接下来介绍对AIcodinglandscape中兴起几类产品的分类坐标系:
左下象限,Copilotforprodev:
最近口碑优秀的产品Cursor、CodeiumWindsurf等基本都在这个象限。他们能在earlyadopter开发者圈子获得了优秀的口碑,对用户需求的深入理解和ClaudeSonnet3.5出色的意图理解能力在这里缺一不可。
他们要保持的增长的关键问题是,优秀的产品体验能得到indiedeveloper的欣赏,但这对于enterpriseGTM只是必要条件,而不是充分条件。从产品到企业信任,还有privacy/compliance等很多复杂需求。同时最近觉醒开始加速迭代的GithubCopilot对他们的市场空间也会压缩。
这一个领域已经有比较成熟的解决方案,因此后文的公司mapping中不会出现这一象限。之前几代low-code/RPA有不少成功的产品,也有UIPath等上市公司和Retool等独角兽公司。但他们都停留在copilot阶段,其抽象方式只能辅助一部分用户固定的工作流。
要实现这一愿景,现在的模型能力还要继续提升。欧美有>5家融资规模上亿美金的公司在这个领域攻坚,因为codetoken的消耗量级很大,要解决的工程问题也很多。其中最关键的问题是企业codebasecontext的问题:
右上象限,Agentforcitizendev:
给普通人的codingagent产品形态还没有固定:几个coding领域的前端deployment和webIDE独角兽推出了自己的产品,VercelV0,bolt.new能智能地生成前端webapp,Replitagent可以跟用户多轮交互生成基础的软件;而早期的创业公司则有更创新的产品形态,websim在模拟实时生成的chrome,wordware用类似notion的交互使用户在其产品中创作软件。
但这个象限的机会可能才刚刚开始,因为目前的产品还拘泥于之前的思路。可以类比施乐实验室创新GUI之前的命令行时代,对大众用户的使用门槛很高,停留在earlyadopter圈子。
根据以上分析,我们对整个AI编程图景下的创业公司进行了mapping:
Copilotforpro:根据开发工作流可以分为Coding、Testing、Codereview和Codesearch。其中核心价值还是集中在入口级的coding部分。
Agentforpro:这个领域有两类公司,Codingagent和codingmodel公司。他们之间最大的差异是是否从头开发模型。前者是基于顶尖LLM之上去建立工作流和agent,而codingmodel类公司则自己从头开始训练coding-specific模型。其中并不看好后一类,因为在LLM公司的主航道上。
Agentforcitizen:这个领域的公司目前还没有明显的收敛,我们可以分为三类。第一类是taskengine,为用户完成任务实现Prototype的Taskengine类公司;第二类是前端网页生成;第三类是low-code类使用“乐高”式组件搭建应用的产品。最终大家的目标可能都是taskengine,只是现在大家选择了不同的路线beton。
2.1Copilotforpro
2.1.1Coding代表公司:Anysphere(Cursor),Codeium,Augment
Product
专注在编程体验的产品可以分为两类:IDE和VSCodeextension。两者有各自的优势:自己做IDE能有完整的产品自由度和用户数据积累,做VSCodeExtension则更加敏捷、用户迁移成本比较低。
Cursor团队在这里的选择很聪明,通过forkVSCode获得了两个选择各自的优势。Codeium也在通过Windsurf也都在往IDE的方向切入,因为IDE还是更好的入口级产品,能自己积累数据、有更多feature修改的空间,这对于产品构建自己的壁垒至关重要。
Cursor在用户体验上花了很多精力,做到“快”和nextactionprediction。这样用户的开发过程就是不断按Tab,进入很快得到反馈的正循环中(快=fun,进入心流)。上个月他们收购Supermaven,就是把产品体验中的“快”做到极致;这意味着短期内的重点还在人与AI的同步协作,o1这样的异步交互暂时还不在产品主线上。
而Codeium团队从VSCodeextension开始到IDE,体现出了和cursor团队思路的区别。Cursor更强调编程体验和对用户下一步意图的识别,Codeium的新产品Windsurf更强调高自动化。他们的Chat功能比Cursor做得更加完善,很多用户不用hands-oncode也能完成基础的开发。
同时,他们的产品还体现出了更强的对企业级需求更强的理解,支持on-prem专有模型和各种compliance协议。这里就要提到他们在GTM策略上的巨大差异。
Market
根据Sacra最新报告Cursor产品ARR已经达到$65M,也就是大约30万付费用户。由于Cursor的产品没有对企业级codebase的重视,他们的核心用户还是硅谷indiehacker。那他们未来的关键bet是indiehacker是否能在所有开发者比例中变高:如果AI产品的开发范式下独立开发者数量达到500万,也就等于今天所有开发者的10%,cursor的市场空间才能达到十亿美金。
而企业侧BD和开发者市场的增长方式不一样,Codeium在企业GTM签订单上的能力很强。因为企业数据compliance需求不是最顺畅的产品体验,而是在安全、合规等企业在意的方向有。在LatentSpace的一篇专访中Anshul提出了enterpriseinfranative的概念,强调了要做财富500强用户,需要突破硅谷开发者圈子的mindset:
企业侧的机会可能是更明确的低垂果实,只是他们面对的竞争是GithubCopilot极强的分发渠道。面对竞争时,用research去解决Github可能做不好的地方是至关重要的。
Research
这些coding公司不能只看成应用层产品公司,而是research和产品一体的公司。Cursor官网称自己为appliedresarchlab,Codeium官网博客中写了大量对微调/RAG技术方案的思考,Augment也在Retrieval、RL等方向上做了大量探索。
Augment和Codeium更在乎的是企业级技术方案,尤其是GithubCopilot目前解决不好的问题。例如Augment在解决的事在数万个企业codebase中怎么精准地做好retrieval和交互理解。和企业文档RAG遇到的难题类似,codebaseretrieval需要重新训练专用的embeddingmodel,对话、补全、跨文件生成需要的embedding都不一样。Codeium还思考很多在企业on-prem/VPC上部署专用coding模型的问题,来达到安全性和智能程度的平衡。
而对于Cursor,强reasoning能力下的异步协同是研究的核心方向,对应到内部项目shadowworkspace。shadowworkspace是Cursor为后台codingagent设计的开发空间,这个空间需要能看到agent修改引发的lint提示信息,并且和IDE背后的LSP协议进行充分交互,但不去修改用户原本的文件。AI和用户会一起根据shadowworkspace下的Lint反馈来决定是否进行下一步的迭代。这个过程和o1inferencetimecompute类似。
2.1.2Testing代表公司:QAWolf,Momentic,GruAI
Codingtesting是所有开发者必经的工作流,来保证代码的准确性。其中有两个常见常见:其一是unittest,在错综复杂的系统中,代码被更新之后需要unittest来验证其可用性,减少其引发意外崩溃的概率;其二是前端或应用开发中,需要对UI每一个功能进行交互测试。
测试任务和codegen的适配度也很高,因为:其写的过程是高重复性高,且有规律可循的;而且这是人类工程师不太愿意工作的任务,大部分团队的unittest的覆盖率比较低,能侧面说明这一点。
同时Cursor团队在访谈中提到过debug对LLM底座颇有难度,LLM的训练方式不是去发现错误,要让LLM理解一个看起来不大错误的后续重大影响是比较难的。因此这里能有独立创业公司的机会。
这个领域的代表公司中:QAWolf是LLM出现之前就有的公司,以Rule-based的方法就能实现很多testcase;Momentic是最近YC和AIGrant中涌现的项目,更偏向人和AI协作对视觉产品UI进行测试;GruAI则是为UnitTest场景设计专用的agent来端到端企业中的测试需求。
2.1.3CodeReview&Refactor代表公司:CodeRabbit
同时还有更大型的CI/CD任务可以被归类为coderefactoring,对代码项目进行优化和重构,来解决组织中之前遗留的技术债,甚至可能对技术架构需要进行重构和迁移,那就是CodeMigration。这样的需求也是非常繁重、人类工程师不太愿意完成的。因此,这成了我们接下来介绍的Codingagent公司最早得到PMF的场景。
2.2Agentforpro
2.2.1Codingagent代表公司:Cognition(Devin),Factory
Codingagent公司的平均融资规模是最大的,因为这些公司的目标是实现end-to-end替代人类开发者,实现这个过程的工程量大、消耗codetokens数量大。这个领域的现状可能有两个要解决的问题:
1)技术上模型底层推理能力不够。在企业大codebase中去完整的处理问题需要很强的推理能力,去理解用户和codebase两端的context,然后将任务拆解为多个解决步骤。这样的long-context+long-horizonreasoning能力才能真正解决企业侧复杂的工程问题。
2)产品上,UI/UX层需要与人类协作方式的创新。既然模型的能力还没达到完全可用,如何去involvehumanintheloop到协作中就是一个比较难的问题:模型遇到难的问题时是选择inference-timecompute做搜索还是交给用户去介入给更多的指导和context?如果这个问题解决得不好,呈现出的效果可能是,AI自己工作了12个小时之后发现束手无策,交给用户也很难在AI的基础上进行修正。
由于以上问题,我们推测现在实际能有PMF的场景会是codemigration,coderefactoring和PRcommit等任务。这些任务对于开发者来说往往是toil也就是不愿意做的事情,开发者专注在这些任务上以后可以把精力集中在别的更有创造力的领域。因此目前codingagent现阶段做得更多是从1到100的事情,还没有到从0到1的任务上。我们看好codingagent在未来2年内会逐渐承担更多的责任,不过那需要底层模型的能力和上层agent框架的共同进步。
定价问题也很值得思考:传统devtool的定价一般是按使用者数量seat-based付费,对于codingagent而言consumption-based付费可能是更合理的定价,优秀的、完成大量任务的codingagent价格可能值得和juniordeveloper在同一个数量级。
2.2.2CodingModel代表公司:Poolside、Magic
Coding领域对模型能力的要求是不完全一致的,比如codetokenizer对代码中的变量、符号、函数名都要做专门的切分,以及主流LLM的训练是以文本生成为主要目标函数,代码能力看起来是其智能的副产品。因此Codingmodel领域开始出现一些独立公司:
Magic强调特别长的contextwindow,能把企业中复杂的codebase完整读进来解决问题,尽量避免retrieval;
Poolside强调RLfrommachinefeedback,能把Githistory中复杂的工程链条完整解决。
不过这一领域的公司在OpenAI、Anthropic的主航道上,考虑到Coding能力是模型推理能力最好的proxy,这两家公司的模型一定会在LLM+RL的范式下在coding能力上持续进步。
2.3Autopilotforcitizen
2.3.1Taskengine代表产品:Replit、Websim、Wordware
Taskengine对应的是searchengine,用户得到的不再是基于搜索关键词的网页,而是基于用户需求生成的软件。我们定义为taskengine是希望弱化软件和code这些词带来的高门槛意味,coding能力带来的killerapp应该是大众用户都有意愿和能力去使用的。
AnthropicArtifact和OpenAICanvas在一定层面上也是希望能实现这个目标,但其产品形态并不是很易用,加上用户对主产品的预期还是chatbot。因此现在的taskengine还在命令行时代,需要一个GUI级别的产品创新来让更多用户能理解使用。
目前这类产品的形态其实还有很大分歧:
Replitagent:cloudIDEforcodingagent。产品使用chat多轮对话交互,每一次执行action都是渐进式的,遇到问题会向用户提问来补足context、厘清需求,对话过程类似开发者和产品经理对需求的过程。这种产品设计思路用alignment解决了模型多步执行时的可靠性问题,但也要求用户对自己的需求想得比较清楚。
Wordware:NotionforLLMapp。产品完成度高,使用体验比较像创作内容,通过Twitter嘲讽bot找到了很好的viral增长第一枪。用Twitter作为增长起点的方式让人想起了去年的Perplexity。成为增长最快的ProductHunt产品之后,流量开始快速下降,高度依赖头部流量产品是Wordware现在的挑战。
Websim:用类似GoogleChrome的简陋UI,打造了一个用户能同时创作和消费webapp的产品。这个产品的想象空间很大,用户可以在上面基于用户的template继续生成和修改,有点像Canva的模板化思路。而且用户在Websim上打造的网站每一个超链接可以继续点击并深入生成新的网站。不过他们的产品设计细节还欠打磨,有点类似C.ai有一个很好的框架但在产品上不够极致。
2.3.2前端生成代表公司:Vercel(V0)、Stackblitz(Bolt.new)
前端是开发中相对好上手的领域,因此之前每一代Low-code/No-code都会讲前端民主化的故事,诞生了Wordpress、Wix、Spacesquare甚至Shopify这样的公司。整个市场很大,但需求比较零碎,市场头部集中度不高。AI前端生成现在看起来很有前景,但他们是否能抓住大量增量需求,甚至代替过去的存量需求呢?这直接决定了其市场规模的上限。
1)Coding能力的民主化?不,是软件工程的民主化。
技术会带来一个领域的民主化,这是很多领域都发生过的故事,例如Canva成为了设计师民主化的一站式模版和设计平台。而开发领域是否会有这样的民主化故事呢?
我们认为Coding能力不会发生民主化,但软件工程会。这意味着软件的制造成本会随着AIcoding带来大幅下降,但用户不一定需要理解code编程是如何操作并执行的,只需要明白highlevel的运行逻辑即刻。也就是说,用户们不需要是开发者,但需要是自己需求的产品经理。
2)UI/UX:同步与异步,GUI时刻的到来。
未来的开发体验可能由同步和异步组成:同步的部分,开发者一边写代码,AI一边在后台同步做codetesting/review/optimization;异步的部分,o1范式下的inference-timecompute能把coding任务拆解为多个子任务,推理出最合适的解决方案并自己验证。
而未来更广义的AIcoding也是如此,很多软件都是实时根据context来实时生成,而真正复杂的任务则不需要交互,AI能异步的完成并通过邮件等方式向用户同步。
现在的产品交互使用门槛还偏高,类似GUI到来前的命令行时刻。等待新交互到来时,AI应用的空间会被打开,coding领域可能是最先验证和感知到的。