SchölkopfBengio等新作解读:因果表征学习——连接因果和机器学习的桥梁

开通VIP,畅享免费电子书等14项超值服

首页

好书

留言交流

下载APP

联系客服

2021.03.03

作者:蔡心宇审校:龚鹤扬陆超超

为了回答这些问题,让我们从表征学习说起。表征学习RepresentationLearning是机器学习中的重要问题,良好的表征是机器学习算法成功的重要条件;正因如此,近十年来深度学习借助神经网络强大的表达能力、海量的数据以及强大的算力,自动地从数据中学习表征,取代了传统的人工制作的特征,取得了瞩目的成就。由深度学习三巨头之二的YoshuaBengio和YannLeCun牵头创办的深度学习顶会,即命名为国际学习表征会议InternationalConferenceonLearningRepresentations,足见表征学习的重要性。

尽管深度学习在近十年极大地推动了机器学习的发展,但是仍有许多问题亟待解决,例如将知识迁移到新问题上的能力。许多关键问题都可以归结为OOD(out-of-distribution)问题。因为统计学习模型需要独立同分布(i.i.d.)假设,若测试数据与训练数据来自不同的分布,统计学习模型往往会出错。然而在很多情况下,i.i.d.的假设是不成立的,而因果推断所研究的正是这样的情形:如何学习一个可以在不同分布下工作、蕴含因果机制的因果模型(CausalModel),并使用因果模型进行干预或反事实推断。

如果说微分方程是对物理系统全面详尽的表述,那么统计模型(StatisticalModel)可被看作表面的粗糙的描述。它无法预测干预的效果,但是的优点在于通常可以从观察数据中学习,而前者通常需要专家来提出。因果建模则存在于这两个极端之间,它期望能够像物理模型一样预测干预的效果,但同时可以在一些假设下,通过数据驱动的方法找到这样的模型,来取代专家知识。

因果科学与CausalAI读书会

1.Pearl,Judea,MadelynGlymour,andNicholasP.Jewell.Causalinferenceinstatistics:Aprimer.JohnWiley&Sons,2016.(本书中译版《统计因果推理入门(翻译版)》已由高等教育出版社出版)

2.Peters,Jonas,DominikJanzing,andBernhardSchlkopf.Elementsofcausalinference:foundationsandlearningalgorithms.TheMITPress,2017.

THE END
1.学习笔记在线强化学习与离线强化学习的异同(3)这篇博文很多部分仅代表个人学习观点,欢迎大家与我一起讨论 强化学习与离线强化学习的区别 强化学习和离线强化学习都是机器学习的分支,主要用于训练智能体以在不断尝试和错误的过程中学习如何最大化累积奖励。它们之间的主要区别在于数据的获取方式和训练环境的不同。 https://blog.csdn.net/hzlalb/article/details/136797191
2.强化学习离线模型离线模型和在线模型强化学习离线模型 离线模型和在线模型 在推荐算法领域,时常会出现模型离线评测效果好,比如AUC、准召等指标大涨,但上线后业务指标效果不佳,甚至下降的情况,比如线上CTR或CVR下跌。 本文尝试列举一些常见的原因,为大家排查问题提供一点思路。 1. 离线、在线特征不一致https://blog.51cto.com/u_14499/11815202
3.强化学习的基本概念在线学习和离线学习针对的是在强化学习模型在训练过程中交互数据的使用方式。在线学习的强化学习模型,会在一个交互之后,立即用本次交互得到的经验进行训练。而离线学习的强化学习模型,往往是先将多个交互的经验存储起来,然后在学习的时候,从存储的经验中取出一批交互经验来学习。 https://www.jianshu.com/p/28625d3a60e6
4.人工智能团队研究成果在TKDE发表:样本高效的离线转在线强化学习算法近期,吉林大学人工智能学院、未来科学国际合作联合实验室人工智能团队在IEEE Transactions on Knowledge and Data Engineering上发表题为“Sample Efficient Offline-to-Online Reinforcement Learning”的研究工作。该研究提出了一种样本高效的离线转在线强化学习算法,通http://icfs.jlu.edu.cn/info/1007/3101.htm
5.离线强化学习因此,离线强化学习(offline reinforcement learning)的目标是,在智能体不和环境交互的情况下,仅从已经收集好的确定的数据集中,通过强化学习算法得到比较好的策略。离线强化学习和在线策略算法、离线策略算法的区别如图 18-1 所示。图18-1 离线强化学习和在线策略算法、离线策略算法的区别https://hrl.boyuai.com/chapter/3/%E7%A6%BB%E7%BA%BF%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0/
6.科学网—[转载]强化学习在资源优化领域的应用虽然强化学习策略的训练非常耗时,但是这些训练工作可以离线进行,实际中只需要利用训练好的模型进行推理,因而在绝大部分情况下可以做到近似实时决策。其次,使用强化学习的方法并不需要显式地对未来进行预测,模型可以从交互经验、海量数据中发现规律、学习策略,从而帮助做出合适的决策。最后,在强化学习中,模型不需要对业务https://blog.sciencenet.cn/blog-3472670-1312677.html
7.人,才是强化学习在真实世界中面临的真正挑战雷峰网在商业环境中,由于对低延迟的需求,以及希望在部署之前对系统更新进行离线测试,采用在线学习是不现实的。一个自然的解决方案就是利用反事实学习,复用日志交互数据,其中预测结果是由一个与目标系统不同的历史系统得出的。 然而,在线学习和使用日志数据进行的离线学习都会受到一个问题的困扰:在商业系统中,「探索」行为是https://www.leiphone.com/category/academic/B1unQqqw0HOseTrC.html
8.在线学习课程PADI无论何时何地,只要您都可根据自己的安排开始您的数字化潜水培训。 在繁忙的生活中,PADI 在线学习是完成水肺潜水课程的最简单的方式。 您可以使用电脑或移动设备,自行安排在线或离线学习。 准备就绪后,随时开始安排水下训练。 查看在线课程 免费试学 PADI 在线学习 https://www.padi.com/zh-hans/education/elearning-programs
9.清华北大等发布SelfPlay强化学习最新综述澎湃号·湃客麻将同样基于不完全信息做出决策,此外,麻将的牌数更多,获胜牌型也更为复杂,对 AI 更具挑战性。Suphx 通过监督学习和自我博弈强化学习成为首个达到与人类专家水平的算法。NAGA 和腾讯设计的 LuckyJ 同样也在在线平台上达到了人类专家水平。 场景三:电子游戏 https://www.thepaper.cn/newsDetail_forward_28688973
10.线上培训方案(精选14篇)2.公布线上学习的班级课表和作息时间,于2月9日前通过不同方式让学生家长知晓,并回复班主任该家长已知线上学习情况,并争取家长的支持和帮助。 3.建立班级小组点名制度,特别是早读课点名,掌握每一位学生在线学习情况,及时了解学习过程中离线原因,通报学习过程中违纪情况,加强学生管理。 https://www.ruiwen.com/fangan/6607293.html