强化学习的10个现实应用神经网络算法智能体机器翻译

译者:AI研习社(季一帆、Zephyr178)

双语原文链接:10Real-LifeApplicationsofReinforcementLearning

在强化学习中,我们使用奖惩机制来训练agents。Agent做出正确的行为会得到奖励,做出错误的行为就会受到惩罚。这样的话,agent就会试着将自己的错误行为最少化,将自己的正确行为最多化。

本文我们将会聚焦于强化学习在现实生活中的实际应用。

无人驾驶中的应用

很多论文都提到了深度强化学习在自动驾驶领域中的应用。在无人驾驶中,需要考虑的问题是非常多的,如:不同地方的限速不同限速,是否是可行驶区域,如何躲避障碍等问题。

有些自动驾驶的任务可以与强化学习相结合,比如轨迹优化,运动规划,动态路径,最优控制,以及高速路中的情景学习策略。

比如,自动停车策略能够完成自动停车。变道能够使用q-learning来实现,超车能应用超车学习策略来完成超车的同时躲避障碍并且此后保持一个稳定得速度。

AWSDeepRacer是一款设计用来测试强化学习算法在实际轨道中的变现的自动驾驶赛车。它能使用摄像头来可视化赛道,并且可以使用强化学习模型来控制油门和方向。

Wayve.ai已经成功应用了强化学习来训练一辆车如何在白天驾驶。他们使用了深度强化学习算法来处理车道跟随任务的问题。他们的网络结构是一个有4个卷积层和3个全连接层的深层神经网络。例子如图。中间的图像表示驾驶员视角。

强化学习在工业自动化中的应用

在工业自动化中,基于强化学习的机器人被用于执行各种任务。这些机器人不仅效率比人类更高,还可以执行危险任务。

Deepmind使用AI智能体来冷却Google数据中心是一个成功的应用案例。通过这种方式,节省了40%的能源支出。现在,这些数据中心完全由人工智能系统控制,除了很少数据中心的专家,几乎不再需要其他人工干预。该系统的工作方式如下:

当然,具体的措施还是由本地控制系统操作完成。

强化学习在金融贸易中的应用

通过强化学习,金融贸易不再像从前那样由分析师做出每一个决策,真正实现机器的自动决策。例如,IBM构建有一个强大的、面向金融交易的强化学习平台,该平台根据每一笔金融交易的损失或利润来调整奖励函数。

强化学习在自然语言处理NLP中的应用

RL可用于文本摘要、问答和机器翻译等NLP任务。

至于机器翻译,科罗拉多大学和马里兰大学的研究人员提出了一种基于强化学习的机器翻译模型,该模型能够学习预测单词是否可信,并通过RL来决定是否需要输入更多信息来帮助翻译。

斯坦福大学、俄亥俄州立大学和微软研究所的研究人员提出Deep-RL,可用于对话生成任务。Deep-RL使用两个虚拟智能体模拟对话,并学习多轮对话中的未来奖励的建模,同时,应用策略梯度方法使高质量对话获得更高奖励,如连贯性、信息丰富度和简洁性等。

点此链接查看更多RL在NLP中的应用。

强化学习在医疗保健中的应用

医疗保健领域,RL系统为患者只能提供治疗策略。该系统能够利用以往的经验找到最优的策略,而无需生物系统的数学模型等先验信息,这使得基于RL的系统具有更广泛的适用性。

基于RL的医疗保健动态治疗方案(DTRs)包括慢性病或重症监护、自动化医疗诊断及其他一些领域。

在医疗保健中,RL方法还可用于根据治疗的延迟效应改善长期结果。

对于慢性病,RL方法还可用于发现和生成最佳DTRs。

通过本文,您可以深入研究RL在医疗保健中的应用。

强化学习在工程中的应用

在工程领域,Facebook提出了开源强化学习平台——Horizon,该平台利用强化学习来优化大规模生产系统。在Facebook内部,Horizon被用于:

Horizon主要流程包括:

一个典型例子是,强化学习根据视频缓冲区的状态和其他机器学习系统的估计可选择的为用户提供低比特率或高比特率的视频。

Horizon还能够处理以下问题:

强化学习在新闻推荐中的应用

强化学习在游戏中的应用

在市场营销中,选择正确的目标全体才可带来高回报,因此个人精准定位至关重要的。论文以中国最大的电子商务平台淘宝网为研究对象,表明上述多智能体强化学习优于现有的单智能体强化学习方法。

强化学习在机器人控制中的应用

通过深度学习和强化学习方法训练机器人,可以使其能够抓取各种物体,甚至是训练中未出现过的物体。因此,可将其用于装配线上产品的制造。

上述想法是通过结合大规模分布式优化和QT-Opt(一种深度Q-Learning变体)实现的。其中,QT-Opt支持连续动作空间操作,这使其可以很好处理机器人问题。在实践中,先离线训练模型,然后在真实的机器人上进行部署和微调。

实验表明,在700次实验中,QT-Opt方法有96%的概率成功抓取陌生的物体,而之前的方法仅有78%的成功率。

总结

强化学习是一个非常有趣且值得广泛研究的领域,RL技术的进步及其在现实各领域的应用势必将取得更大的成功。

AI研习社是AI学术青年和AI开发者技术交流的在线社区。我们与高校、学术机构和产业界合作,通过提供学习、实战和求职服务,为AI学术青年和开发者的交流互助和职业发展打造一站式平台,致力成为中国最大的科技创新人才聚集地。

THE END
1.人工智能原理实验四:智能算法与机器学习本实验课程是计算机、智能、物联网等专业学生的一门专业课程,通过实验,帮助学生更好地掌握人工智能相关概念、技术、原理、应用等;通过实验提高学生编写实验报告、总结实验结果的能力;使学生对智能程序、智能算法等有比较深入的认识。要掌握的知识点如下: 掌握人工智能中涉及的相关概念、算法; https://blog.csdn.net/m0_64146991/article/details/144395968
2.赛桨PaddleSciencev1.0正式版发布,飞桨科学计算能力全面升级!百度飞桨作为拥有国内最大开源用户群体的深度学习平台,一直致力于将 AI 方法应用于基础科研,通过不断提升飞桨框架对科学问题的求解机制,并建设端到端的科学计算工具组件来加速 AI 与传统科学研究的融合。在过去的一年中,飞桨框架通过全量支持开源科学计算工具 DeepXDE 以及对大量科学领域论文代码的重构,进一步完善了https://baijiahao.baidu.com/s?id=1771997232125044980&wfr=spider&for=pc
3.基于在线字典学习算法的地震数据去噪研究与应用基于在线字典学习算法的地震数据去噪研究与应用 王量 开通知网号 【摘要】: 在地震数据处理领域,地震资料的去噪质量直接影响到后续处理工作的有效性和可靠性,并且随着地震勘探的发展越来越偏向于复杂油气藏,干净的地震资料难以获得,因此对于地震资料的去噪应用是地震数据处理领域中一项重要的持续研究内容。基于地震数据与https://cdmd.cnki.com.cn/Article/CDMD-10616-1019216086.htm
4.等生成模型的深度学习算法综合研究与应用大三及以上组菁英科研项目:人工智能与数据科学专题:基于LSTM等序列模型、GAN等生成模型的深度学习算法综合研究与应用【大三及以上组】https://www.eol.cn/waiyu/news/20230103103205.html
5.图机器学习峰会复杂图的研究与应用探索2022 年 6 月 23 日 图与推荐 背景介绍 6月 25 日,9:00 - 13:30,在 DataFunSummit 2022:图机器学习在线峰会上,由京东 纪厚业博士 出品的 复杂图论坛 ,将邀请来自亚马逊云科技、北京交通大学、UIUC、美团、天津大学、中国科学技术大学的6位专家学者,针对复杂图的发展趋势和应用实践进行深度分享,欢迎大家一https://www.zhuanzhi.ai/document/7219bfaf72699d982df8786ad4fbe2a3
6.人工智能深度学习算法优化与数据增强技术在图像识别领域的协同应用案例 以物体识别为例,通过采用深度学习算法优化和数据增强技术相结合的方法,可以显著提高模型在复杂场景下的识别准确率,例如在交通场景下的车辆识别、人脸识别等方面取得了良好的效果。 结语 通过以上介绍,我们了解了人工智能深度学习算法优化与数据增强技术在图像识别领域的协同应用研究。这种技术的发展将极大地提高图https://www.jianshu.com/p/2de25c9c4d0d
7.TCCT通讯Newsletter2017No.01快速在线模型预测及在三自由度直升机中的应用 系统科学与数学, 2016 Vol. 36 (10): 1618-1629 Abstract | PDF 李旭军,刘业政,荆科,何军 节点的时间异质性对信息传播的影响 系统科学与数学, 2016 Vol. 36 (10): 1630-1642 Abstract | PDF 刘秀丽,邹庆荣 我国用水总量预测研究 系统科学与数学, 2016 Volhttps://tcct.amss.ac.cn/newsletter/2017/201701/journal.html
8.科学网—[转载]强化学习在资源优化领域的应用当业务环境发生变化时,智能体能够及时地利用数据中蕴含的变化信号,从而更加迅速和敏锐地通过与业务环境的交互重新找到合适的优化方案。鉴于这些特点,近年来强化学习算法结合行业大数据的解决方案在资源优化领域得到越来越多的应用,并取得了一系列优秀的成果。 基于这种行业趋势,本文针对强化学习算法在资源优化领域的应用展开https://blog.sciencenet.cn/blog-3472670-1312677.html
9.2022年度陕西省重点研发计划项目申报指南目录2.高性能计算与工业软件 2.1 超大规模复数稠密矩阵方程直接求解算法库 2.2 超大规模复数稀疏矩阵方程直接求解算法库 2.3 工业仿真软件架构关键技术 2.4 三维几何建模技术研究 2.5 面网格生成技术 2.6 体网格生成技术 2.7 高性能三维图形渲染技术 2.8 航空大规模并行 CFD 计算技术及应用示范 http://www.kt180.com/html/sxs/9889.html
10.基于学习投入的混合式教学预警模型研究——以大学物理为例近年来,学习预警是教育数据挖掘研究和应用一个热点领域,国外学习预警的研究与实践始于 20 世纪 90 年代初,通过对国内文献的研究,发现国内最早研究学习预警的是华金秋,其《台湾高校学习预警制度及其借鉴》文献发表于 2007 年。学习预警普遍采用的算法有回归分析、并通过准率、召回率与 F 值等,本文使用了召回率、F 值https://www.thepaper.cn/newsDetail_forward_20481255
11.转:2024年展望:未来十大最吃香最具前景专业分析1.1 深度学习算法研究 神经网络架构优化:开发更高效、更强大的神经网络模型。 迁移学习:研究如何将一个领域的学习成果应用到另一个相关领域。 强化学习:探索AI如何通过与环境互动来学习最优策略。 联邦学习:研究如何在保护数据隐私的同时进行分布式机器学习。 https://maimai.cn/article/detail?fid=1851243312&efid=XSQx0hfK7u4CsISU06jfRw
12.智谱·AI人工智能发展月报(2021年1月)华盛顿大学和加州大学洛杉矶分校的研究人员与深度科技创业公司 Optelligence LLC 共同开发出一种光学卷积神经网络加速器,每秒能够处理拍字节(1 拍字节 = 250 字节)级的大量信息。这项创新利用了光的巨量并行性,预示着用于机器学习的光学信号处理新时代的到来,应用领域包括无人驾驶汽车、5G 网络、数据中心、生物医学诊断https://www.ofweek.com/ai/2021-01/ART-201717-8140-30484174_3.html
13.2022信息科技课程标准全文最新版(二) 信息隐私与安全 (三) 跨学科主题数字设备体验 第二学段(3?4年级) (-)在线学习与生活 (二) 数据与编码 (三) 跨学科主题 数据编码探秘 第三学段(5?6年级) (一)身边的算法 (―)过程与控制 (三)跨学科主题 小型系统模拟 第四学段(7?9年级) (一) 互联网应用与创新 (二) 物联网实践与探https://www.liuxue86.com/a/4254721.html
14.[量化]万字综述,94篇论文分析股市预测的深度学习技术一些实验探索了RNN与其他机器学习的混合应用。[108]提出了一种新颖且稳健的混合预测模型(HPM),它是三种预测模型的组合:RNN、指数平滑(ES)[11]和自回归移动平均模型(ARMA)[7]。遗传算法通过提供显著提高预测精度的最优权重来优化模型。[155]提出了基于RNN的状态频率记忆(StateFrequencyMemory,SFM)算法,该算法能够从http://www.360doc.com/content/23/0519/03/1081259395_1081259395.shtml
15.打破常规!R与机器学习在医学领域中针对测序数据的分析和可视化机器学习模型在生物医学应用中具有巨大的潜力。一个名为GradioHub的新平台为临床医生和生物医学研究人员提供了一种交互式和直观的方式来试用模型,并在真实世界的训练外数据上测试其可靠性。机器学习(ML)研究人员越来越多地成为跨学科合作的一部分,他们与领域专家密切合作,以应对高影响力的临床和生物医学挑战。例如,已经https://www.360doc.cn/mip/1105263022.html