人工智能主动学习(ActiveLearning)概述策略和不确定性度量deephub

主动学习不是一次为所有的数据收集所有的标签,而是对模型理解最困难的数据进行优先级排序,并仅对那些数据要求标注标签。然后模型对少量已标记的数据进行训练,训练完成后再次要求对最不确定数据进行更多的标记。

有很多论文介绍了多种如何确定数据点以及如何在方法上进行迭代的方法。本文中将介绍最常见和最直接的方法,因为这是最简单也最容易理解的。

在未标记的数据集上使用主动学习的步骤是:

通过这种方式,随着模型变得越来越好,我们可以不断优化标签策略。

基于数据流的主动学习方法

在基于流的主动学习中,所有训练样本的集合以流的形式呈现给算法。每个样本都被单独发送给算法。算法必须立即决定是否标记这个示例。从这个池中选择的训练样本由oracle(人工的行业专家)标记,在显示下一个样本之前,该标记立即由算法接收。

基于数据池的主动学习方法

在基于池的抽样中,训练样本从一个大的未标记数据池中选择。从这个池中选择的训练样本由oracle标记。

基于查询的主动学习方法

这种基于委员会查询的方法使用多个模型而不是一个模型。

委员会查询(QuerybyCommittee),它维护一个模型集合(集合被称为委员会),通过查询(投票)选择最“有争议”的数据点作为下一个需要标记的数据点。通过这种委员会可的模式以克服一个单一模型所能表达的限制性假设(并且在任务开始时我们也不知道应该使用什么假设)。

不确定性抽样是一组技术,可以用于识别当前机器学习模型中的决策边界附近的未标记样本。这里信息最丰富的例子是分类器最不确定的例子。模型最不确定性的样本可能是在分类边界附近的数据。而我们模型学习的算法将通过观察这些分类最困难的样本来获得有关类边界的更多的信息。

让我们以一个具体的例子,假设正在尝试建立一个多类分类,以区分3类猫,狗,马。该模型可能会给我们以下预测:

{"Prediction":{"Label":"Cat","Prob":{"Cat":0.9352784428596497,"Horse":0.05409964170306921,"Dog":0.038225741147994995,}}}这个输出很可能来自softmax,它使用指数将对数转换为0-1范围的分数。

最小置信度:(Leastconfidence)

最小置信度=1(100%置信度)和每个项目的最自信的标签之间的差异。

虽然可以单独按置信度的顺序进行排名,但将不确定性得分转换为0-1范围,其中1是最不确定的分数可能很有用。因为在这种情况下,我们必须将分数标准化。我们从1中减去该值,将结果乘以N/(1-N),n为标签数。这时因为最低置信度永远不会小于标签数量(所有标签都具有相同的预测置信度的时候)。

让我们将其应用到上面的示例中,不确定性分数将是:(1-0.9352)*(3/2)=0.0972。

最小置信度是最简单,最常用的方法,它提供预测顺序的排名,这样可以以最低的置信度对其预测标签进行采样。

置信度抽样间距(marginofconfidencesampling)

不确定性抽样的最直观形式是两个置信度做高的预测之间的差值。也就是说,对于该模型预测的标签对比第二高的标签的差异有多大?这被定义为:

同样我们可以将其转换为0-1范围,必须再次使用1减去该值,但是最大可能的分数已经为1了,所以不需要再进行其他操作。

让我们将置信度抽样间距应用于上面的示例数据。“猫”和“马”是前两个。使用我们的示例,这种不确定性得分将为1.0-(0.9352–0.0540)=0.1188。

抽样比率(Ratiosampling)

置信度比是置信度边缘的变化,是两个分数之间的差异比率而不是间距的差异的绝对值。

熵抽样(EntropySampling)

应用于概率分布的熵包括将每个概率乘以其自身的对数,然后求和取负数:

让我们在示例数据上计算熵:

得到0-sum(–0.0705,–0.0903,–0.2273)=0.3881

除以标签数的log得到0.3881/log2(3)=0.6151

机器学习社区的大部分重点是创建更好的算法来从数据中学习。获得有用是标注数据在训练时是非常重要的,但是标注数据可能很非常的费事费力,并且如果标注的质量不佳也会对训练产生很大的影响。主动学习是解决这个问题的一个方向,并且是一个非常好的方向。

THE END
1.proccesson数据流向图mob64ca14137e4f的技术博客依据新版大纲,近期几年的软件设计师水平考试来看,数据流图的设计已成为下午题中必考的知识点。常出题型为:补充数据流图,解释设计原则,偶尔也会考数据字典的内容,可是都非常easy。 考点分析 依据近期几年的出题趋势看,本题分值为15分,共分为4小题。前3小题的题型都是比較固定的,比較简单,而第4小题考的则比較https://blog.51cto.com/u_16213697/12803414
2.海量数据处理中的高效数据流管理策略探究我爱制作网AI积聚下的深厚图片,仅为参考 本站观点,海量数据处理中的数据流管理在实时处理、高并发处理、容错性和可扩展性等方面具有显著优势。随着大数据技术的不断发展,数据流管理将在海量数据处理中发挥越来越重要的作用,为企业和组织提供更好的数据处理和分析能力。https://www.024zz.cn/html/shuju/2024-12-17/391855.html
3.数据流图学习数据流图学习 技术标签: UML 数据流图 数据流程图数据流图或数据流程图(Data Flow Diagram),缩写为DFD 是什么: 数据流图是结构化分析方法中使用的工具,它以图形的方式描绘数据在系统中流动和处理的过程,由于它只反映系统必须完成的逻辑功能,所以它是一种功能模型,标志了一个系统的逻辑输入和逻辑输出,以及把逻辑https://www.pianshen.com/article/42091514364/
4.数据流图学习学习系统的数据流图数据流图学习 数据流图或数据流程图(Data Flow Diagram),缩写为DFD 是什么: 数据流图是结构化分析方法中使用的工具,它以图形的方式描绘数据在系统中流动和处理的过程,由于它只反映系统必须完成的逻辑功能,所以它是一种功能模型,标志了一个系统的逻辑输入和逻辑输出,以及把逻辑输入转换逻辑输出所需的加工处理。https://blog.csdn.net/bird_tp/article/details/103559953
5.数据流机器学习:MOA实例《数据流机器学习:MOA实例》,作者:数据流机器学习:MOA实例阿尔伯特·比费特,理查德·戈华达,杰弗里·福尔摩斯,伯恩哈德·普法林格 著,出版社:机械工业出版社,ISBN:9787111641391。1)介绍大数据挖掘和实时分析中使用的算法和技术,并用热门的免费开源软件框架MOAhttp://product.m.dangdang.com/product.php?pid=28493303
6.在线深度学习:在数据流中实时学习深度神经网络机器之心在线深度学习的主要困难是模型的容量、复杂度等设置很不灵活,即模型是静态的,而数据流是动态的。本论文提出了一种适应性的网络框架,结合 HBP 算法,使网络结构能随着数据的流入而逐渐扩展、复杂化。这使得模型同时拥有在线学习和深度学习的优点,并在多种在线学习模型和数据集的对比实验中都取得了当前最佳结果。 https://www.jiqizhixin.com/articles/2017-12-30
7.概念漂移数据流增量学习算法及其应用研究尽管已经有研究工作致力于概念漂移数据流的学习,但仍存在一些亟待解决的问题:第一,相关研究工作通常致力于特定演变类型的概念漂移,对于多种演变方式混合出现的概念漂移数据流适应不足;第二,数据流往往会存在特征空间变化型概念漂移,动态变化的特征空间导致决策边界形式不断变化,而现有方法在计算效率以及对动态决策边界形式https://cdmd.cnki.com.cn/Article/CDMD-10004-1020442513.htm
8.主动学习(ActiveLearning)简介综述汇总以及主流技术方案2.1.1基于数据流的主动学习方法 基于流(stream-based)的主动学习中,未标记的样例按先后顺序逐个提交给选择引擎,由选择引擎决定是否标注当前提交的样例,如果不标注,则将其丢弃。 在基于流的主动学习中,所有训练样本的集合以流的形式呈现给算法。每个样本都被单独发送给算法。算法必须立即决定是否标记这个示例。从这个池https://cloud.tencent.com/developer/article/2197125
9.定义数据流用例Power BI 数据流使你能够使用 Power Query Online 在工作区中生成可重用的数据表,并与其他用户共享,以便在其他报表中使用和在其他工作区中重用。 数据流是工作区中与数据集、仪表板、报表和工作簿并列的对象。 刷新 Power BI 数据流时,它会在后台将其数据加载到位于数据湖的文件中,即 Azure Data Lake Storage https://docs.microsoft.com/zh-cn/learn/modules/create-manage-scalable-power-bi-dataflows/2-define-use-cases-for-dataflows/
10.Flink源码分析——Task数据交互之数据读在《Flink源码分析——Task数据交互之数据写》中我们分析了上游任务/Map端的数据写过程,也知道了数据写主要采用的是ResultPartition模型。ResultPartition中有多个ResultSubPartition,数据以buffer的形式存放在ResultSubPartition中的buffer队列里,等待被发送到下游,或者说reduce端 https://zhuanlan.zhihu.com/p/424093505
11.《学生成绩管理系统数据流图》.doc顶层数据流图 0层数据流图 1层数据流图继续组织两周一次的专题学习沙龙和互动式评课沙龙,结合教研活动的主题组织好教师学习、交流。听展示课的教师对听课内容进行精心、系统的评点,写成评课稿,在两周一次的互动式教学研讨沙龙中进行交流、探讨。与往年不同的是,在保证互动评课活动开展同时,不影响正常教学,本学期安排https://max.book118.com/html/2020/0117/7200054111002113.shtm
12.Zabbix监控深度学习平台中的实时数据流处理问答在监控深度学习平台中的实时数据流处理方面,Zabbix可以发挥重要作用。 首先,Zabbix可以监控深度学习平台中的各种关键指标,如CPU使用率、内存使用率、磁盘IO等。通过监控这些指标,可以及时发现系统性能问题并进行调整优化,确保系统正常运行。 其次,Zabbix可以监控深度学习平台中的实时数据流处理任务的运行状态。可以监控任务的https://www.yisu.com/ask/602175.html
13.课程国家高等教育智慧教育平台是由教育部委托、高等教育出版社有限公司建设和运行维护、北京理工大学提供技术支持的全国性、综合性在线开放课程平台。本网站致力于汇聚优质高等教育在线课程等资源,并推进广泛传播与共享,面向高校师生和社会学习者提供全面、优质、便利的课程搜https://higher.smartedu.cn/course/62354c969906eace048cc724
14.SSIS学习(3):数据流任务(下).docx1、In tegrati on Services学习3:数据流任务下前一篇文章SSIS学习2:数据流任务上,介绍了如何创建一个简单的 ETL包,如何 通过一个简单的数据流任务, 将一个文本文件的数据导入到数据库中去。这些数据都保持了它原有的本色,一个字符不多,一个字符地少导入,但是在实际应用过程中,可能很少有这种情况,就拿lisLoghttps://www.renrendoc.com/paper/219226116.html
15.TensorFlow之数据流图概念学习这一篇,我们主要讨论学习TensorFlow中的数据流图,数据流图(Data Flow Graph),我们简称dfg,dfg中包含3个术语:节点、边和节点依赖关系,简单理解如下:数据流图的作用,主要是描述数据的计算方式和计算顺序https://www.jianshu.com/p/a2c474c4765d
16.软测教程知识点精讲之指令流数据流和计算机的分类软件评测师我们先学习两个定义。 (1)指令流:机器执行的指令序列。 (2)数据流:由指令流调用的数据序列,包括输入数据和中间结果。 1.根据多倍性的分类 按照计算机同时处于一个执行阶段的指令或数据的最大可能个数,人们把计算机分成4种,如表1-4所示。 表1-4指令流的分类 https://www.educity.cn/rk/1778752.html
17.第四范式先知平台的整体架构和实现细节架构胡时伟对于研究并实现机器学习算法的专家而言,算法的核心就是数据的各种变换和计算。GDBT 框架为了让机器学习专家更容易、更快速地开发出不同的机器学习算法提供了数据流的抽象,使得机器学习专家通过描述数据流 DAG 图的方式编写机器学习算法。机器学习专家只需要关注数据的核心变换和计算逻辑,GDBT 计算框架将机器学习专家描述的https://www.infoq.cn/article/the-fourth-paradigm-prophet-platform
18.Python机器学习(原书第3版)(豆瓣)第1章 赋予计算机从数据中学习的能力1 1.1 构建能把数据转换为知识的智能机器1 ··· (更多) 丛书信息· ··· 智能科学与技术丛书(共77册), 这套丛书还有 《现代决策树模型及其编程实践》《卷积神经网络与视觉计算》《基于深度学习的自然语言处理》《数据流机器学习》《神经网络与深度学习》 等。 我要写书https://book.douban.com/subject/35485398/
19.轻量级持续学习:0.6%额外参数把旧模型重编程到新任务在持续学习中,对于每一个新任务都可以训练得到一个轻量级模型;这种轻量级的模型需要训练的参数很少,即使任务很多,总共需要训练的参数相对于大模型来说也很小,并且每一个轻量级模型都可以达到很好的效果。 研究动机 持续学习关注于从数据流中学习的问题,即通过特定的顺序学习新任务,不断扩展其已获得的知识,同时避免遗忘https://www.thepaper.cn/newsDetail_forward_24920870