强化学习的10个现实应用神经网络算法智能体机器翻译|在线学习算法研究与应用_在线学习

译者：AI研习社（季一帆、Zephyr178）

双语原文链接：10Real-LifeApplicationsofReinforcementLearning

在强化学习中，我们使用奖惩机制来训练agents。Agent做出正确的行为会得到奖励，做出错误的行为就会受到惩罚。这样的话，agent就会试着将自己的错误行为最少化，将自己的正确行为最多化。

本文我们将会聚焦于强化学习在现实生活中的实际应用。

无人驾驶中的应用

很多论文都提到了深度强化学习在自动驾驶领域中的应用。在无人驾驶中，需要考虑的问题是非常多的，如：不同地方的限速不同限速，是否是可行驶区域，如何躲避障碍等问题。

有些自动驾驶的任务可以与强化学习相结合，比如轨迹优化，运动规划，动态路径，最优控制，以及高速路中的情景学习策略。

比如，自动停车策略能够完成自动停车。变道能够使用q-learning来实现，超车能应用超车学习策略来完成超车的同时躲避障碍并且此后保持一个稳定得速度。

AWSDeepRacer是一款设计用来测试强化学习算法在实际轨道中的变现的自动驾驶赛车。它能使用摄像头来可视化赛道，并且可以使用强化学习模型来控制油门和方向。

Wayve.ai已经成功应用了强化学习来训练一辆车如何在白天驾驶。他们使用了深度强化学习算法来处理车道跟随任务的问题。他们的网络结构是一个有4个卷积层和3个全连接层的深层神经网络。例子如图。中间的图像表示驾驶员视角。

强化学习在工业自动化中的应用

在工业自动化中，基于强化学习的机器人被用于执行各种任务。这些机器人不仅效率比人类更高，还可以执行危险任务。

Deepmind使用AI智能体来冷却Google数据中心是一个成功的应用案例。通过这种方式，节省了40%的能源支出。现在，这些数据中心完全由人工智能系统控制，除了很少数据中心的专家，几乎不再需要其他人工干预。该系统的工作方式如下：

当然，具体的措施还是由本地控制系统操作完成。

强化学习在金融贸易中的应用

通过强化学习，金融贸易不再像从前那样由分析师做出每一个决策，真正实现机器的自动决策。例如，IBM构建有一个强大的、面向金融交易的强化学习平台，该平台根据每一笔金融交易的损失或利润来调整奖励函数。

强化学习在自然语言处理NLP中的应用

RL可用于文本摘要、问答和机器翻译等NLP任务。

至于机器翻译，科罗拉多大学和马里兰大学的研究人员提出了一种基于强化学习的机器翻译模型，该模型能够学习预测单词是否可信，并通过RL来决定是否需要输入更多信息来帮助翻译。

斯坦福大学、俄亥俄州立大学和微软研究所的研究人员提出Deep-RL，可用于对话生成任务。Deep-RL使用两个虚拟智能体模拟对话，并学习多轮对话中的未来奖励的建模，同时，应用策略梯度方法使高质量对话获得更高奖励，如连贯性、信息丰富度和简洁性等。

点此链接查看更多RL在NLP中的应用。

强化学习在医疗保健中的应用

医疗保健领域，RL系统为患者只能提供治疗策略。该系统能够利用以往的经验找到最优的策略，而无需生物系统的数学模型等先验信息，这使得基于RL的系统具有更广泛的适用性。

基于RL的医疗保健动态治疗方案（DTRs）包括慢性病或重症监护、自动化医疗诊断及其他一些领域。

在医疗保健中，RL方法还可用于根据治疗的延迟效应改善长期结果。

对于慢性病，RL方法还可用于发现和生成最佳DTRs。

通过本文，您可以深入研究RL在医疗保健中的应用。

强化学习在工程中的应用

在工程领域，Facebook提出了开源强化学习平台——Horizon，该平台利用强化学习来优化大规模生产系统。在Facebook内部，Horizon被用于：

Horizon主要流程包括：

一个典型例子是，强化学习根据视频缓冲区的状态和其他机器学习系统的估计可选择的为用户提供低比特率或高比特率的视频。

Horizon还能够处理以下问题：

强化学习在新闻推荐中的应用

强化学习在游戏中的应用

在市场营销中，选择正确的目标全体才可带来高回报，因此个人精准定位至关重要的。论文以中国最大的电子商务平台淘宝网为研究对象，表明上述多智能体强化学习优于现有的单智能体强化学习方法。

强化学习在机器人控制中的应用

通过深度学习和强化学习方法训练机器人，可以使其能够抓取各种物体，甚至是训练中未出现过的物体。因此，可将其用于装配线上产品的制造。

上述想法是通过结合大规模分布式优化和QT-Opt（一种深度Q-Learning变体）实现的。其中，QT-Opt支持连续动作空间操作，这使其可以很好处理机器人问题。在实践中，先离线训练模型，然后在真实的机器人上进行部署和微调。

实验表明，在700次实验中，QT-Opt方法有96%的概率成功抓取陌生的物体，而之前的方法仅有78%的成功率。

总结

强化学习是一个非常有趣且值得广泛研究的领域，RL技术的进步及其在现实各领域的应用势必将取得更大的成功。

AI研习社是AI学术青年和AI开发者技术交流的在线社区。我们与高校、学术机构和产业界合作，通过提供学习、实战和求职服务，为AI学术青年和开发者的交流互助和职业发展打造一站式平台，致力成为中国最大的科技创新人才聚集地。

THE END

强化学习的10个现实应用神经网络算法智能体机器翻译

强化学习的10个现实应用神经网络算法智能体机器翻译

探索强化学习（人工智能重要子领域）：原理算法及应用

详细日程｜GSE2021全球智慧教育大会

深度强化学习算法与应用研究现状综述

全国高等院校计算机基础教育研究会计算机基础教育教学研究课题申报指南（2024

好未来：基于多模态数据分析的在线学习智能评估反馈

架构算法方法论齐备，智能风控峰会完整日程！

中国地球物理学会会讯第150期

预见未来丨机器学习：未来十年研究热点量子机器学习（QuantumML）量子计算机利用量子相干和量子纠缠等效应来处理信息papering