3月1日,星尘数据创始人、CEO章磊宣布Rosetta3.0平台正式上线。
公开资料显示,星尘数据成立于2017年,并于2022年底公布A轮融资5000万人民币。星尘横向服务全场景AI数据标注能力,纵向深耕自动驾驶行业,目前覆盖90%头部自动驾驶客户,此外还服务智能家居、智慧城市、智能机器人、智慧医疗、智慧教育、智能零售、智能遥感、智慧金融等众多数据场景。
星尘数据从创立之初就确立了三个目标:首先,通过自动化标注提高标注效率;其次,通过提供数据策略专家服务,为客户创造更多的价值;最后,通过数据闭环让客模型训练效果更好,数据标注量更少,提高标注性价比。
基于战略目标和企业定位,星尘数据推出国内首个自动化标注平台Rosetta平台,平台提供数百个标注功能,可支持图像、点云、文本、语音、采集等在内的100+种主流标注场景。
与此同时,星尘数据开发了上百种辅助标注算法,为预标注、标注、质检环节提供多样化的算法辅助。以激光雷达点云标注为例,平台在渲染、自动贴合、自动映射、连续补间等功能上具备行业领先的性能,具备无延时切帧特点。
算法的加入让平台自动化水平逐年提升,目前平台自动化率达到60%。高自动化率让标注效率和标注产能显著提升,相比其他平台,标注员在Rosetta平台能标得更快,获得更多收入。
除Rosetta数据标注平台外,星尘数据还为客户提供Rosetta标注软件基础版、Rosetta标注软件高级版、Rosetta标注软件旗舰版、RosettaApp、Rosetta独立标注工具、开放平台OpenAPI等众多产品形态,支持私有化部署和定制化软件,满足客户多样性需求。
传统的数据标注流程中,算法人员制定数据标注规则,标注公司消化后再提供给标注团队。然而,执行过程中,算法的思路并不能一次性达到最优化;其次,数据标注人员仅仅是一个“干活儿的”角色,并不能帮助更好地迭代算法效果。因此,算法侧时常会有一些不合理的规则导致成本飙升或难度大增导致难以执行。有些企业提出了不合理的标注规则,例如要求1/20的遮挡比例或在没有基础模型的前提下提出“一个点起标”。
数据管理也是企业头痛的问题。例如,数据通过硬盘传输,效率低且无法管理。此外,还存在数据批次多、脏数据多、清洗后有效数据少、同类型数据重复标注的问题。同一批数据,虽然L2和L4模型训练都用得上,但企业缺乏数据策略意识,数据复用性低,无形中增加了成本。
在服务90%头部自动驾驶客户、经历上千个项目打磨后,星尘不仅沉淀出了行业领先的标注平台和工具,还培养出了经验丰富的数据策略专家。星尘一些资深员工在谈到自家工具时十分自信,更让他们自豪的是,他们能够基于丰富的项目经验为客户提供更好的建议。
据章磊介绍,星尘数据的数据闭环解决方案也是Rosetta3.0平台的一大亮点。他表示,全流程闭环式AI数据系统将成为主流,星尘数据为此提早进行研发布局。
在一个完整的数据闭环训练中,客户可使用星尘提供的离线数据包进行基础版模型训练,星尘标注系统通过API与客户算法系统进行交互,动态感知客户模型效果,基于模型各版本迭代的效果,动态检索不确定性最大、信息量最大、损失最大、稀疏场景等有效数据。几次迭代后,不仅沉淀了有效数据,还节省了数据成本。同时,星尘还可以在海量数据中找到真正有价值的数据帮助客户训练模型,并利用自有数据集评测模型效果。模型上线后,行车数据可用于模型迭代,形成数据闭环。
以ChatGPT语言模型为例,通过星尘的Rosetta3.0数据标注系统,客户可以将模型快速接入系统,通过API实时将结果显示在标注平台上,星尘专属基地的NLP标注员可以快速给出反馈。同时,奖励强化模型实时接收到反馈并进行训练,可以实现模型的高效训练并及时发现难例和缺陷。该解决方案目前已进入与某深度客户的POC测试环节。
章磊表示,未来星尘数据将专注AI数据服务,通过Autolabeling技术、数据策略专家服务和数据闭环系统服务,为全球人工智能企业特别是自动驾驶行业提供“燃料”,最终实现AI的平民化。