一种基于数据挖掘和众包的数据标注方法及系统与流程

本发明涉及数据标注技术领域,尤其涉及一种基于数据挖掘和众包的数据标注方法及系统。

背景技术:

众包平台的优点是处理精细,且规模足够大时可以得到全面、深入的数据处理结果。缺点是投入大、效率低、数据处理量小。而且标注者均为来自互联网的普通用户,与传统的专家标注相比,其标注质量的不到保证。

因此,如何降低标注数据的标注成本,提高标注的效率和质量,是本技术领域亟需解决的技术问题。

技术实现要素:

本发明的目的是提供一种基于数据挖掘和众包的数据标注方法及系统,以降低标注数据的标注成本,提高标注的效率和质量。

本发明的目的是通过以下技术方案来实现的:

一种基于数据挖掘和众包的数据标注方法,包括:

获取待标注的原始数据;

使用整合的算法,对所述原始数据进行分类与众包分发;

获取众包标注结果,使用整合的算法,对众包标注结果进行自动化审核,筛选出问题标注结果,并对问题标注结果进行标记;

输出经过自动化审核的众包标注结果,所述众包标注结果中包括问题标注结果。

优选地,所述问题标注结果包括低质量标注结果,所述使用整合的算法,对众包标注结果进行自动化审核,筛选出问题标注结果,并对问题标注结果进行标记的步骤具体包括:

根据历史标注数据库和对比规则,对众包标注结果进行分析,获取低质量标注结果并标记,其中所述对比规则包括相似度对比、聚类分析和有效性检验中的至少一种。

优选地,所述根据历史标注数据库和对比规则,所述根根据历史标注数据库和对比规则,对众包标注结果进行分析,获取低质量标注结果并标记的步骤具体包括:

根据全局历史标注数据库,对众包标注结果进行相似度对比,若该众包标注结果与在历史标注数据库中的标注结果的相似度达到阈值,则将其余与该众包标注结果相冲突的标注结果标记为低质量标注结果。

优选地,所述根据历史标注数据库和对比规则,对众包标注结果进行分析,获取低质量标注结果并标记的步骤具体包括:

根据标注者的历史标注数据库,对众包标注结果进行聚类分析,若该众包标注结果属于该聚类类别中,则将其余与该众包标注结果的偏离度超过阈值的标注结果标记为低质量标注结果。

优选地,所述问题标注结果包括错误标注结果,所述对众包标注结果进行自动化审核,获取问题标注结果,并对问题标注结果进行标记的步骤具体包括:

根据意图识别规则对数据意图与众包标注结果进行比对,筛选机器分类与众包标注结果冲突的为错误标注结果并标记。

优选地,所述根据意图识别规则对数据意图与众包标注结果进行比对,筛选机器分类与众包标注结果冲突的为错误标注结果并标记的步骤具体包括:

判断该众包标注结果是否符合其人工标注意图所对应的意图句式匹配模板,若不匹配,则标记为错误标注结果。

判断该众包标注结果是否包含其人工标注意图所对应的意图词袋内的任意词汇,若不包含,则标记为错误标注结果。

优选地,所述整合的算法至少包括聚类算法和标注规则模板,所述使用整合的算法,对所述原始数据进行分类与众包分发的步骤具体包括:根据聚类算法和标注规则模板将所述原始数据进行分类和分发。

优选地,所述输出经过自动化审核的众包标注结果的步骤具体包括:

输出每个标注者标注任务完成情况的统计结果和每个标注者标注任务中的问题标注结果。

一种基于数据挖掘和众包的数据标注系统,包括:

抓取模块,用于获取待标注的原始数据;

分发模块,用于使用整合的算法,对所述原始数据进行分类与众包分发;

处理模块,用于获取众包标注结果,使用整合的算法,对众包标注结果进行自动化审核,筛选出问题标注结果,并对问题标注结果进行标记;

输出模块,用于输出经过自动化审核的众包标注结果,所述众包标注结果中包括问题标注结果。

相比现有技术,本发明具有以下优点:现有的众包技术中,标注者为来自互联网的普通用户,其标注质量的不到保证,而本发明中采取的标注方法包括:获取标注所需的原始数据;根据预设规则将所述原始数据进行分发;获取众包标注结果,并对众包标注结果进行自动化审核,获取问题标注结果,并对问题标注结果进行标记;输出众包标注结果和问题标注结果。这样就可以对众包标注结果进行审核,这样就从所有的众包标注结果中找出可能存在问题的问题标注结果,并且将这些问题标注结果标记起来,这样就可以方便对问题标注结果进行审核和修改,极大的方便了找出有问题的标注结果,提高了输出的结果的标注质量。本发明将数据挖掘技术与众包平台进行有机结合,使拥有海量精确标注数据的同时,有效的降低标注成本。

附图说明

图1是本发明实施例一的基于数据挖掘和众包的数据标注方法的流程图;

图2是本发明实施例二的基于数据挖掘和众包的数据标注系统的示意图。

具体实施方式

虽然流程图将各项操作描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。各项操作的顺序可以被重新安排。当其操作完成时处理可以被终止,但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。

计算机设备包括用户设备与网络设备。其中,用户设备或客户端包括但不限于电脑、智能手机、PDA等;网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算的由大量计算机或网络服务器构成的云。计算机设备可单独运行来实现本发明,也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本发明。计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。

这里所使用的术语仅仅是为了描述具体实施例而不意图限制示例性实施例。除非上下文明确地另有所指,否则这里所使用的单数形式“一个”、“一项”还意图包括复数。还应当理解的是,这里所使用的术语“包括”和/或“包含”规定所陈述的特征、整数、步骤、操作、单元和/或组件的存在,而不排除存在或添加一个或更多其他特征、整数、步骤、操作、单元、组件和/或其组合。

下面结合附图和较佳的实施例对本发明作进一步说明。

实施例一

如图1所示,本实施例中公开一种基于数据挖掘和众包的数据标注方法,包括:

S101、获取待标注的原始数据;

S102、使用整合的算法,对所述原始数据进行分类与众包分发;

S103、获取众包标注结果,使用整合的算法,对众包标注结果进行自动化审核,筛选出问题标注结果,并对问题标注结果进行标记;

S104、输出经过自动化审核的众包标注结果,所述众包标注结果中包括问题标注结果。

其中,标注的数据范围包括但不限于文字,图像,音频,统计数据以及其他的数据。

现有的众包技术中,标注者为来自互联网的普通用户,其标注质量的不到保证,而本发明中采取的标注方法包括:S101、获取待标注的原始数据;S102、使用整合的算法,对所述原始数据进行分类与众包分发;S103、获取众包标注结果,使用整合的算法,对众包标注结果进行自动化审核,筛选出问题标注结果,并对问题标注结果进行标记;S104、输出经过自动化审核的众包标注结果,所述众包标注结果中包括问题标注结果。这样就可以对众包标注结果进行审核,这样就从所有的众包标注结果中找出可能存在问题的问题标注结果,并且将这些问题标注结果标记起来,这样就可以方便对问题标注结果进行审核和修改,极大的方便了找出有问题的标注结果,提高了输出的结果的标注质量。本发明将数据挖掘技术与众包平台进行有机结合,使拥有海量精确标注数据的同时,有效的降低标注成本。本发明可以适用于机器人交互的技术领域,方便机器人采集经过标注的数据,这样可以方便机器人收集到需要的高质量数据,更好的与人交互。

根据其中一个示例,所述问题标注结果包括低质量标注结果,所述对众包标注结果进行自动化审核,获取问题标注结果,并对问题标注结果进行标记的步骤具体包括:

根据历史标注数据库和对比规则,对众包标注结果进行分析,获取低质量标注结果并标记,其中所述对比规则包括相似度对比、聚类分析和有效性检验中的至少一种。低质量标注结果具体为可能的低质量标注,具体的讲是疑似低质量的标注结果,作为怀疑对象,需要进一步具体的检查。

根据其中另一个示例,所述根据历史标注数据库和对比规则,所述根根据历史标注数据库和对比规则,对众包标注结果进行分析,获取低质量标注结果并标记的步骤具体包括:

根据全局历史标注数据库,对众包标注结果进行相似度对比,若该众包标注结果与在历史标注数据库中的标注结果的相似度达到阈值,则将其余与该众包标注结果相冲突的标注结果标记为低质量标注结果。这样就可以筛选出低质量标注结果,进行进一步筛查。

根据其中另一个示例,所述根据历史标注数据库和对比规则,对众包标注结果进行分析,获取低质量标注结果并标记的步骤具体包括:

根据标注者的历史标注数据库,对众包标注结果进行聚类分析,若该众包标注结果属于该聚类类别中,则将其余与该众包标注结果的偏离度超过阈值的标注结果标记为低质量标注结果。这样就可以筛选出低质量标注结果,进行进一步筛查。

根据其中另一个示例,所述问题标注结果包括错误标注结果,所述对众包标注结果进行自动化审核,获取问题标注结果,并对问题标注结果进行标记的步骤具体包括:

根据意图识别规则对数据意图与众包标注结果进行比对,筛选机器分类与众包标注结果冲突的为错误标注结果并标记。这样就可以筛选出错误标注结果,进行进一步筛查。

根据其中另一个示例,所述根据意图识别规则对数据意图与众包标注结果进行比对,筛选机器分类与众包标注结果冲突的为错误标注结果并标记的步骤具体包括:

判断该众包标注结果是否符合其人工标注意图所对应的意图句式匹配模板,若不匹配,则标记为错误标注结果。这样就可以筛选出错误标注结果,进行进一步筛查。

判断该众包标注结果是否包含其人工标注意图所对应的意图词袋内的任意词汇,若不包含,则标记为错误标注结果。这样就可以筛选出错误标注结果,进行进一步筛查。

根据其中另一个示例,所述整合的算法至少包括聚类算法和标注规则模板,所述使用整合的算法,对所述原始数据数据进行分类与众包分发的步骤具体包括:根据聚类算法和标注规则模板将所述原始数据进行分类和分发。

根据其中另一个示例,所述输出经过自动化审核的众包标注结果的步骤具体包括:

输出每个标注者标注任务完成情况的统计结果和每个标注者标注任务中的问题标注结果。这样就可以完成标注的统计结果和存在问题的问题标注结果,不仅可以了解到标注的具体情况,而且还可以据此了解标注者的标注准确率等数据,以便筛选出更好的标注者。

在更近贴近实际应用的案例中,例如,当标注的数据为语料时,S103对众包标注结果进行自动化审核的具体过程中具体包括:

在自动化审核之前,需要将众包标注结果汇总(即输入);

然后统计标注数量,获得该标注人本次任务的实际完成情况;

通过相似度对比、聚类、有效性检验等,引用历史标注数据库,分析是否有“低质量标注”,作为与上述的低质量标注结果相对应的示例,可以自动标注为“可能低质量”。如,不同类型语料拥有同样的标注;或,明显相似的语料拥有不同标注。例如,对于影响相似的语料,如“我要去吃饭”,“我准备去吃饭”这种,大部分都标注的是“去吃饭”,其中有一个将“我要去吃饭”标注的是“去唱歌”,这就需要将这个标注结果标记为低质量标注结果,例如上述的“可能低质量”;

使用意图识别规则,与人工标注的结果进行比对,筛选出及机器分类与人工标注冲突的标注条目,如上述的错误标注结果,可以自动标注为“可能错误”;

这样经过这一轮自动标注的数据,为接下来的人工抽查标明审查重点,极大降低工作量。

审核中,还需要统计标注数量,具体的,对于总标注条目数进行统计,以及对必须标注的标注项进行统计。

对于标注为“可能低质量”的标注结果,具体的,

引用全局历史标注数据库,进行相似度对比。若两条标注语料本身相似度到达特定阈值,则对比其“众包标注结果”。若“众包标注结果”有冲突,则标记为“可能低质量”;

作为另一种示例方式,引用该作者历史标注数据库,进行聚类。若本条标注语料位于某一聚类类别内(即自然语言内容类似),则对比其“众包标注结果”。若历史“众包标注结果”偏离较小,而当前标注结果明显偏离历史标注集范围,则标记为“可能低质量”。

对于标注为“可能错误”的标注结果,具体的,

判定该标注语料是否符合其人工标注意图所对应的意图句式匹配模板,若不匹配,则标注为“可能错误”;

作为另一种示例方式,判断该标注语料是否包含其人工标注意图所对应的意图词袋内的任意词汇,若不包含,则标注为“可能错误”。

审核中,运用统计类工具,对众包标注结果进行统计,包括,运用自然语言处理工具,对众包标注结果进行“初审”,对“有很大概率错误的标注”进行自动标记,并归类。

输出结果中,包括输出每个标注者标注任务完成情况的统计结果,以及每个标注者标注任务中可能有问题的标注条目。

实施例二

如图2所示,本实施例中公开一种基于数据挖掘和众包的数据标注系统,包括:

抓取模块201,用于获取待标注的原始数据;

分发模块202,用于使用整合的算法,对所述原始数据进行分类与众包分发;

处理模块203,用于获取众包标注结果,使用整合的算法,对众包标注结果进行自动化审核,筛选出问题标注结果,并对问题标注结果进行标记;

输出模块204,用于输出经过自动化审核的众包标注结果,所述众包标注结果中包括问题标注结果。

本实施例公开的数据标注系统由于包括:抓取模块201,用于获取待标注的原始数据;分发模块202,用于使用整合的算法,对所述原始数据进行分类与众包分发;处理模块203,用于获取众包标注结果,使用整合的算法,对众包标注结果进行自动化审核,筛选出问题标注结果,并对问题标注结果进行标记;输出模块204,用于输出经过自动化审核的众包标注结果,所述众包标注结果中包括问题标注结果。这样就可以对众包标注结果进行审核,这样就从所有的众包标注结果中找出可能存在问题的问题标注结果,并且将这些问题标注结果标记起来,这样就可以方便对问题标注结果进行审核和修改,极大的方便了找出有问题的标注结果,提高了输出的结果的标注质量。本发明将数据挖掘技术与众包平台进行有机结合,使拥有海量精确标注数据的同时,有效的降低标注成本。

根据其中一个示例,所述问题标注结果包括低质量标注结果,所述处理模块具体用于:根据历史标注数据库和对比规则,对众包标注结果进行分析,获取低质量标注结果并标记,其中所述对比规则包括相似度对比、聚类分析和有效性检验中的至少一种。

根据其中另一个示例,所述处理模块具体用于:根据全局历史标注数据库,对众包标注结果进行相似度对比,若该众包标注结果与在历史标注数据库中的标注结果的相似度达到阈值,则将其余与该众包标注结果相冲突的标注结果标记为低质量标注结果。

根据其中另一个示例,根据标注者的历史标注数据库,对众包标注结果进行聚类分析,若该众包标注结果属于该聚类类别中,则将其余与该众包标注结果的偏离度超过阈值的标注结果标记为低质量标注结果。

根据其中另一个示例,所述问题标注结果包括错误标注结果,所述处理模块具体用于:

根据其中另一个示例,所述处理模块具体用于:判断该众包标注结果是否符合其人工标注意图所对应的意图句式匹配模板,若不匹配,则标记为错误标注结果。

根据其中另一个示例,所述处理模块具体用于:判断该众包标注结果是否包含其人工标注意图所对应的意图词袋内的任意词汇,若不包含,则标记为错误标注结果。

根据其中另一个示例,所述整合的算法至少包括聚类算法和标注规则模板,所述分发模块具体用于:根据聚类算法和标注规则模板将所述原始数据进行分类和分发。

根据其中另一个示例,所述输出模块具体用于:输出每个标注者标注任务完成情况的统计结果和每个标注者标注任务中的问题标注结果。

THE END
1.众包公司数据标注专员工资待遇(就业前景,招聘待遇)说明:众包公司数据标注专员近年就业工资怎么样? 2019年众包公司数据标注专员工资¥6.1K,与2018年持平……数据统计依赖于各大平台发布的公开数据,系统稳定性会影响客观性,仅供参考。 就业前景(历年职位需求变化) -19% 2024年较2023年 0.039% 占众包公司 https://www.jobui.com/salary/quanguo-shujubiaozhuzhuanyuan/ind-zhongbao/
2.京东数科旗下AI数据标注和数据采集平台:京东众智数据安全维护事实上,正是由于数据标注的重要性,在AI产业的上游已经形成了一条数据标注产业链。 京东数科在2017年8月推出了专注于人工智能数据标注和数据采集的科技平台——京东众智。 在数据标注服务方面,京东众智提供全流程数据标注、数据隔离方案、私有化部署和Wise开放标注平台等多种解决方案,其数据标注合格率可以高达99.9%。 1https://aiqicha.baidu.com/qifuknowledge/detail?id=10170114370
3.数据标注招聘网2025年数据标注招聘信息猎聘2025年数据标注招聘信息,海量高薪猎头职位等你来选,了解数据标注岗位要求、薪资待遇等真实招聘信息,找高薪职位,上猎聘!https://m.liepin.com/zpsjbz/
4.国内哪几家数据标注平台数据标注业界新闻国内知名的数据标注平台包括百度数据众包、阿里云天池、腾讯AILab等。这些平台提供了图像、文本、语音等多种数据的标注服务,支持AI模型的训练和优化。 数据标注行业随着人工智能的迅猛发展而蓬勃兴起,众多数据标注平台依托互联网技术,提供从数据采集、处理到标注的全流程服务,接下来我们将探讨几个较为知名的数据标注平台。https://www.jindouyun.cn/document/industry/details/186943
5.数据标注众包平台3、数据分析和挖掘: 公司利用先进的数据分析技术,从标注数据中提取医学领域的有价值信息和见解。我们帮助客户发现数据中隐藏的模式和趋势,为医疗研究和实践的决策提供支持和指导。 4、学习平台和咨询服务: 公司为客户提供专业的学习平台和咨询服务,帮助他们了解数据标注的最佳实践和技巧。公司的专家团队将根据客户的需求https://www.hyidao.com/
6.数据标注众包平台系统的设计与实现数据一直以来都是互联网时代的核心,然而很多未经加工的数据不能体现其价值,因此人工数据标注也就成为了一项重要的工作。目前,国内外都有较为成熟的数据标注众包平台。相较于国内的平台,国外的数据标注平台发展的更为成熟。由于网络连接、语言障碍、国内用户较少等问题,国外的平台无法支持频繁的数据标注任务;而国内的https://wap.cnki.net/lunwen-1020443057.nh.html
7.数据标注众包平台,阿里云客服兼职平台数据标注众包平台通常具有以下几个功能特点。首先,它可以提供多种类型的数据标注任务,包括图像标注、文本标注、语音标注等。其次,它可以通过人工智能技术对工作者进行筛选和评估,以保证任务的质量。此外,数据标注众包平台还可以提供良好的协作和交流机制,使工作者之间可以互相交流和合作。 https://www.jianshu.com/p/9921e93e88cf
8.上新!“标标达”预计2025年1月上线平台每日更新超过40万个招中标项目信息,覆盖全国多个行业,利用AI大数据算法技术预测商机,帮助企业实时掌握市场动态,挖掘潜在客户,提升中标率。“标标达”的特色在于其全面的信息覆盖、智能化的数据分析功能,以及为企业提供的个性化服务,助力企业高效拓展业务。https://mp.weixin.qq.com/s?__biz=MzA4NjgzMzIzOA==&mid=2651442543&idx=2&sn=66393b2e0d3a7f8f48f3a009e6ddebf3&chksm=859b6c82bdfc01bec2616a8ccdc30a4bd94885500924d8b53afd98d9e7d96072dc381be5de1e&scene=27
9.百度众包数据标注平台是干什么的近日,百度智能云数据众包在“DQMIS2020第二届中国数据质量管理奖项”(以下简称“奖项”)评选活动中,以高水准的数据质量管理水平,斩获“2020数据质量卓越实践奖”及“2020数据质量优秀产品奖”。 百度数据众包平台,提供专业的数据标注、制作、采集服务,全方位支持文本、语音、图像、视频等各类型数据的处理,速度快、成本低https://www.xianmai88.com/wap/article/1446
10.爱标注众包平台,创新便捷高效的数据标注解决方案众包是一种借助互联网实现大规模任务分发的方式,它已经被广泛应用于各个领域。在数据标注领域,爱标注众包平台(AI Annotation)成为了一个创新、便捷且高效的解决方案。通过引入大量的众包工人,该平台为企业提供了准确、高质量的数据标注服务。 爱标注众包平台以众包的方式,通过互联网将广大众包工人连接起来,为企业提供专https://www.xinfushe.com/article/HHVqF6WK.html
11.百度智能云数据众包率先推出自动驾驶行业的AI数据整体解决方案上海国际汽车城在找到百度智能云数据众包之后,双方一拍即合,很快就确立了合作方向:从深度学习数据标注平台入手搭建软件能力,并通过平台和百度标注基地实现数据安全高质标注。“在众多服务商中,选择与百度智能云数据众包合作主要看重百度智能云在这方面的数据经验和产品技术能力,以及其提供的数据标注安全方案能够很好的满足https://www.techweb.com.cn/internet/2020-05-26/2791556.shtml
12.人工智能众包可支持多种分类的人脸标注,如5点标注、11点标注 人工智能算法数据服务 “天猫精灵”语音采集 旷视科技 商汤科技 “天猫精灵”语音采集 为天猫精灵采集唤醒词和语音指令 天猫精灵智能音箱需要识别各个年龄段、全国各地方言等不同的语音指令,通过智能众包大量精准的用户采集唤醒词,控制各种应用场景如“放首歌听听”,“提https://www.cnet99.com/scheme/aicrowd.htm
13.阿里云数据采集清洗标注的AI数据服务的智能众包平台阿里云为您提供阿里云数据采集清洗标注的AI数据服务的智能众包平台相关的64376条产品文档内容及常见问题解答内容,还有等云计算产品文档及常见问题解答。如果您想了解更多云计算产品,就来阿里云帮助文档查看吧,阿里云帮助文档地址https://help.aliyun.com/。https://help.aliyun.com/wordpower/7636056-1.html
14.数据标注有哪些平台比较靠谱,数据标注有哪些平台可以学习.docx中国数据标注行业参与企业类型按参与模式主要分为众包平台和自建工厂(专业数据标注公司)两种模式。2020年数据标注公司排行榜中,Testin云测、数据堂、龙猫数据位居前三;数据标注众包平台排行榜中,京东众智、百度众测、数据堂位居前三。 从数据标注代表企业业务布局来看,大部分数据标注服务商提供文本、语音、图像、视频等各https://max.book118.com/html/2024/0403/8131064067006053.shtm
15.数加加数据堂旗下众包平台:海量的数据采集和标注任务全站链接内容审核中,审核后会逐步放开 这段时间,我们会在公众号继续更新网站推荐,请关注公众号 相似资源 小虎队软件 Midjourney AI作图 全球最大的视频搜索和分享平台 收藏 直播吧 知名体育平台!主要为足球迷,篮球迷等提供直播,新闻资讯,数据,论坛社区,原创报道,视频集锦等服务 https://www.bidianer.com/site/319790
16.数加加数加加标注客户端 数加加APP 数加加是由专注于人工智能数据服务的数据堂公司斥巨资打造的一款众包任务平台。个人或团队可以通过平台领取任务,完成任务后在线即可获取报酬。数加加APP大部分为采集任务,主要包括:文本采集(报纸、杂志、广告、教材)、图像采集(人脸、手势、表情、植物、车辆、道路)、音频采集(方言、声音https://shujiajia.com/platform/download/
17.蚂蚁众包蚂蚁众包是提供AI数据的一站式生产平台,通过众包模式提供数据采集、数据标注、数据提取、数据校验、数据清洗等服务,为人工智能领域提供更准确、更高效的数据集。服务热线:400-855-2771https://www.antzb.com/
18.百度数据标注接单平台,百度能收录的发外链平台有哪些呀百度众包平台,提供专业的数据标注、制作、采集服务,全方位支持文本、语音、图像、视频等各类型数据的处理,速度快、成本低、质量高。 百度外卖没有众包。只有饿了么和美团有 3,百度糯米推广在哪里接单 1、百度糯米推广一般接单是直接在百度糯米上面接单的,百度糯米是一个大平台,所以不存在说接单在什么地方接单。2http://www.jiebohui.com/znjd/jdjy/184009.html
19.全民任务国内最前沿的AI数据任务平台,汇聚全网高质量的数据任务,任务客通过领取并完成图片、音频、文本的采集或标注任务获取现金报酬。任务形式简单轻松,不管是团队、个人都可以合适的任务可领取,随时随地,利用闲暇时间,赚取报酬。 语音采集:对着手机说话,普通话、各地方言、外语 快来领取任务,玩转全民任务Whathttps://apps.apple.com/gb/app/%E5%85%A8%E6%B0%91%E4%BB%BB%E5%8A%A1-%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD%E6%95%B0%E6%8D%AE%E4%BC%97%E5%8C%85%E5%B9%B3%E5%8F%B0/id1435562375
20.视频数据标注工具与平台(数据标注公司)腾讯云开发者社区视频数据标注平台(标注外包公司) 数据标注公司的工作比较多样,但视频标注对工具要求稍高一些,能在线上做的平台不是特别多,主要还是语音、图片标注。目前这个行业良莠不齐,有的平台技术实力强,有品牌背景,比如京东众智、百度众包,数据保密做得好。有的平台是专门做代理的,你的数据需求交给他,他转手就分包给下一层。https://cloud.tencent.com/developer/article/2028295
21.京东众智专业的人工智能数据标注和数据采集平台–京东数字全流程数据采集/标注 配备专项客户经理,提供图片、语音、文本、视频数据采集标注全流程服务 专属客户经理 全程跟踪服务 人员灵活调用 快速响应需求 定制工具开发 满足多样需求 专业质量把控 准确率高达98%以上 了解更多 Easylabel私有化标注平台 私有化部署一套功能全面的标注平台,高可用低耦合,扩展性强 https://biao.jd.com/