科学网—Bandit:一种简单而强大的在线学习算法

有了前两个垫背,可以开始让Bandit登场了。ε-Greedy就是一种很机智的Bandit算法:它让每次机会以ε的概率去“探索”,1-ε的概率来“开发”。也即,如果一次机会落入ε中,则随机选择一个硬币来投掷,否则就选择先前探索到正面概率最大的硬币。这个策略有两个好处:

UCB

在统计学中,对于一个未知量的估计,总能找到一种量化其置信度的方法。最普遍的分布正态分布(或曰高斯分布)$N(\mu,\delta)$,其中的$\mu$就是估计量的期望,而$\delta$则表示其不确定性($\delta$越大则表示越不可信)。比如你掷一个标准的6面色子,它的平均值是3.5,而如果你只掷一次,比如说到2,那你对平均值的估计只能是2,但是这个置信度应该很低,我们可以知道,这个色子的预估平均值是2,而以95%的置信区间在[1.4,5.2]。

UCB(UpperConfidenceBound-置信上限)就是以均值的置信上限为来代表它的预估值:

$$\widehat{\mu_i}=\widehat{\mu_i}+2\sqrt{\frac{1}{n_i}}$$

上面是一个例子,其中$\mu_i$是对期望的预估,$n_i$是尝试次数,可以看到对$i$的尝试越多,其预估值与置信上限的差值就越小。也就是越有置信度。

这个策略的好处是,能让没有机会尝试的硬币得到更多尝试的机会,是骡子是马拉出来溜溜!将整个探索+开发的过程融合到一个公式里面,很完美!

模拟结果

将这几个策略做一下模拟,取K=5个硬币,每次10000轮投掷机会,跑100次取平均。得到结果如下:

上图以累积后悔(CumulativeExpectedRegret)来作为评估指标,横坐标是投掷次序,纵坐标是累积后悔(取对数)。后悔最小的算法最好。Regret定义如下:

$$R_T=\sum_{i=1}^{T}(w_{opt}-w_{B(i)})$$

可以看出,随机的效果最烂,Naive算法在前K*100轮跟随机效果一样烂(因为在收集数据,没有开始利用)。ε-Greedy的收敛效果好,但因为有那ε的浪费,到最后还是跟Naive一样浪费了很多机会。UCB的表现最好,收敛快、花费小!

这里只是模拟了固定概率下这些算法的表现,如果预估量(正面概率)是一个会变的量,这些算法的表现会重新洗牌吗?后续可以探索下!

Banditapplication

说了这么多掷硬币,这个算法在真实世界有什么大展身手的地方呢?小列一些:

THE END
1.机器学习:算法分类自然语言处理属于机器学习的哪类算法机器学习算法可以根据不同的标准进行分类,主要包括按学习方式、任务类型和应用领域等。以下是一些常见的分类方式: 1. 按学习方式分类 1.1 监督学习 (Supervised Learning) 定义:使用已标记的数据进行训练,每个输入数据都有对应的输出标签。模型学习输入与输出之间的映射关系。 https://blog.csdn.net/Wei_sx/article/details/144310042
2.网络安全云课堂警惕算法偏见和数据遮蔽澎湃号·政务人工智能的应用和算法软件的普及,宣告了法国哲学家保罗·维利里奥所说的“感知的自动化”已然来临。这种自动化意味着将某些工作和决策权让渡给算法和机器,与此同时,人类可以将更多时间用于娱乐和休闲,文艺创作将会更加便捷,诸如“人机协同”“人机共创”“技术赋能”等说法层出不穷,但算法和机器又会带来什么样的风险https://www.thepaper.cn/newsDetail_forward_29590487
3.AI系统并行训练基本介绍腾讯云开发者社区分布式训练是一种模型训练模式,它将训练工作量分散到多个工作节点上,从而大大提高了训练速度和模型准确性。虽然分布式训练可用于任何类型的 AI 模型训练,但将其用于大模型和计算要求较高的任务最为有利。 本篇幅将围绕在 PyTorch2.0 中提供的多种分布式训练方式展开,包括并行训练,如:数据并行(Data Parallelism, DP)https://cloud.tencent.com/developer/article/2474684
4.在机器学习中如何计算算法复杂性在机器学习中,算法复杂性是一个至关重要的概念。它用于描述算法在训练和预测阶段所需的计算资源。例如,时间复杂性表示算法执行所需的时间,而空间复杂性则表示算法执行所需的内存。 本文将详细探讨如何计算机器学习算法的复杂性,并提供代码示例以帮助理解。同时,我们还将通过可视化工具来展示复杂性的数据分布。 https://blog.51cto.com/u_16213342/12798197
5.正义的算法在线观看正义的算法在线播放正义的算法什么时候开播正义的算法在线观看正义的算法在线播放 正义的算法什么时候开播,由哔哩哔哩与迪士尼联合出品,金钟奖导演许富翔执导,陈柏霖、郭雪芙领衔主演,林格宇、侯彦西、阿喜·林育品、陈雪甄等主演的律政轻喜剧《正义的算法》将于6月15日在B站上线。 《正义的算法》是由哔哩哔哩与迪士尼联合出品,许富翔执导的轻喜剧,https://www.duote.com/tech/202206/245217.html
6.www.jxmzxx.com{$woaini}>www.jxmzxx.com{$woaini}她选择了一位比自己大18岁的富商万山。 这位老板不仅事业有成,更重要的是他对韩雪和她的女儿都特别好。 看来韩雪在感情这条路上,也是个十足的明白人。 她追求的不是简单的门当户对,而是一份能让双方都舒服的真挚感情。 这哪是什么"要求高"啊,分明是用智慧为自己的幸福把关呢! http://www.jxmzxx.com/appnews/668449.html
7.大白大白算法在线测试(综合)登录入口APP下载IOS/安卓通用版/打开“大白大白算法在线测试”手机浏览器(例如百度浏览器)。在搜索框中输入您想要下载的应用的全名,点击下载链接【https://www.shiwaiyun.com/article/post/182193.html】网址,下载完成后点击“允许安装”。 2: 使用自带的软件商店 打开“大白大白算法在线测试”的手机自带的“软件商店”(也叫应用商店)。在推荐https://www.shiwaiyun.com/article/post/182193.html
8.高二数学教案2.怎样用流程图表示算法。 (五)练习P99 2 (六)作业P99 1 高二数学教案7 (1)平面向量基本定理的内容是什么? (2)如何定义平面向量基底? (3)两向量夹角的定义是什么?如何定义向量的垂直? [新知初探] 1、平面向量基本定理 条件e1,e2是同一平面内的两个不共线向量 https://www.fwsir.com/jiaoan/html/jiaoan_20221204150736_2117816.html
9.我想问一下不足月如何算月利息呢,具体的算法是什么?结论:如果贷款本身就是按日计息的,那计算月息的时候,不满一个月就是按实际借款天数来算 解析:比如某https://www.64365.com/ask/1926218.aspx
10.算法基础与在线实践(豆瓣)1.1 什么是算法 1.2 算法的时间复杂度 1.3 算法时间复杂度分析示例 1.4 PKU 0penJudge在线评测系统 1.5 本章小结 ··· (更多) 丛书信息· ··· 北京大学“程序设计与算法”专项课程系列教材(共2册), 这套丛书还有 《新标准C++程序设计》 。 我要写书评 https://book.douban.com/subject/27023415/
11.C#刷遍Leetcode面试题系列连载(1)入门与工具简介中学有NOI信息竞赛,大学有ACM算法竞赛,按理说应该都有各自的 OJ,这两类 OJ 不是业内公司的真实面试题。NOI了解的不是特别多,据说以前用 Pascal 语言解题。相应地,我知道有个中学生比较多的 OJ 叫洛谷(https://www.luogu.org/)。而ACM有不少免费 OJ,国内就有一些ACM OJ,比如POJ(北大的)、HDU OJ(杭电的https://www.shangyexinzhi.com/article/258758.html
12.算法基础与在线实践带目录完整pdf[31MB]电子书下载《算法基础与在线实践/北京大学“程序设计与算法”专项课程系列教材》可作为高等学校计算机等相关专业算法设计类课程的教材,也可供对算法设计、程序设计竞赛感兴趣的读者自学使用。 目录 第1章 绪论 1.1 什么是算法 1.2 算法的时间复杂度 1.3 算法时间复杂度分析示例 https://www.jb51.net/books/679145.html
13.乔念叶妄川的小说叫什么名字免费阅读黑粉都在嘲:卖人设有什么用,还不是天天倒贴我哥哥。乔念:不好意思,我有对象了。顶流哥哥:@乔念,给大家介绍一下,这个是我妹妹。豪门爷爷:囡囡,那么努力干什么,要啥自行车,爷爷给你买!……京市权贵都在传妄爷有个藏在金屋里的老婆,不管别人怎么起哄,从来不肯带出来见人。别问,问就是那句:“我老婆是农村http://www.yasuge.cc/42_42713/
14.重建生态:价值与系统的力量——第七届中国教育创新年会11月启幕算法学习的课堂提问艺术 冯书伟(北京亦庄实验小学信息技术中心主任) 合作学习的管理策略 叶丹(武汉经济技术开发区洪山小学校长) 新冠疫情下的混合式学习经验 马鸣燕(美国普利西学校中学部创校老师) 个体学习的崛起对学校传统群体学习的冲击与改造 唐雅月(巴川中学精英班海外首席升学指导) 学生们如何在场馆式https://sghexport.shobserver.com/html/toutiao/2020/08/26/250533.html
15.古珀科技张强:未来一个医生就是一座移动的医院解码数字新浙商数据同构处理是关键,让数据少跑路,算法多跑路 章丰:医疗数据共享是个大难题,杭州市民平时去看病,可能会遇到浙一、浙二的数据不相通的情况。你认为医疗数据治理、共享的主要难点在哪? 张强:在处理医疗数据的过程中,数据共享确实是最大的痛点。美国从小布什总统开始,几任总统都很重视数据共享。2016年,拜登任美国副总统https://36kr.com/p/1241007330797187
16.在线匹配问题研究进展:如何应对一般图以及顶点全在线的挑战?在STOC90会议中,Karp, Vazirani和Vazirani三位学者首次提出了在线二分图匹配模型:假设存在一个潜在的二分图 其中一侧顶点为离线顶点(直接给定),而另一侧顶点为在线顶点(逐步到达)。我们要求算法在任何一个在线顶点输入的时间点(此时与中顶点的边同时给出),即时地决定是否将与中某一相邻顶点匹配,并且决策不能反悔。https://www.orsc.org.cn/wechat/article/detail?id=760