丰富的线上&线下活动,深入探索云世界
做任务,得社区积分和周边
最真实的开发者用云体验
让每位学生受益于普惠算力
让创作激发创新
资深技术专家手把手带教
遇见技术追梦人
技术交流,直击现场
海量开发者使用工具、手册,免费下载
极速、全面、稳定、安全的开源镜像
开发手册、白皮书、案例集等实战精华
为开发者定制的Chrome浏览器插件
作者:言枫、虞晖华、蒋溢轩、蒽竹、水德、千诀
随着用户对产品体验的要求逐渐提高,实际对话场景更加复杂,对话管理模块也需要更多的改进和创新。传统的对话管理模型通常是建立在一个明确的话术体系内(即先查找再问询最后结束),一般会预定义好系统动作空间、用户意图空间和对话本体,但是实际中用户的行为变化难测,系统的应答能力十分有限,这就会导致传统对话系统可拓性差的问题(难以处理预定义之外的情况)。另外,在很多的真实业界场景,存在大量的冷启动问题,缺少足量的标注对话数据,数据的清洗标注成本代价高昂。而在模型训练上,基于深度增强学习的对话管理模型一般都需要大量的数据,大部分论文的实验都表明,训练好一个对话模型通常需要几百个完整的对话session,这样低下的训练效率阻碍了实际中对话系统的快速开发和迭代。综上,针对传统对话管理模型的诸多局限,近几年学界和业界的研究者们都开始将焦点放在如何加强对话管理模型的实用性上,具体来说有三大问题:1.可拓展性差2.标注数据少3.训练效率低我们将按照这三个方向,为大家介绍近期最新的研究成果。
随着对话系统应用领域的多样化,对数据的需求也更加多样化,若想训好一个任务型对话系统,通常都需要尽可能多的该领域的数据,但一般来说,想要获取高质量的有标注数据的成本很高。为此学者们进行了各种研究尝试,主要可分为三种思路:1)用机器自动标注数据,降低数据标注的成本;2)对话结构挖掘,尽可能高效利用无标注数据;3)加强数据采集策略,高效获取优质的数据。
随着深度增强学习在游戏围棋领域的大获成功,该方法在任务导向型对话领域也有广泛应用。例如论文[6]的ACER对话管理方法,使用了model-free深度增强学习,通过结合ExperienceReplay、信度域约束、预训练等技巧,大大提高了增强学习算法在任务型对话领域的训练效率和稳定性。然而,简单地套用增强学习算法并不能满足对话系统的实际应用。这主要是因为对话领域不像游戏围棋那样有清晰的规则、奖励函数,动作空间简单明确,还有完美的环境模拟器可以生成数以亿计的高质量交互数据。对话任务中,一般包括了多样变化的槽位槽值和动作意图,这使得对话系统的动作空间急剧增大且难以预定义。传统扁平的增强学习(flatreinforcementlearning)方法由于对所有的系统动作进行one-hot编码,会存在维度灾难,因此不再适用于处理动作空间非常大的复杂对话问题,为此学者们进行了诸多研究尝试,包括model-freeRL、model-basedRL和human-in-the-loop三个方向。
本综述围绕对话管理(DialogManagement,DM)模型的最新前沿研究做了一个详细的介绍,针对传统对话管理的痛点划分了三个大的方向:1)可拓展性差2)标注数据少3)训练效率低。在可拓展性方面,我们介绍了处理变化的用户意图、对话本体、系统动作空间的常用方法,主要有语义相似匹配方法、知识蒸馏方法和序列生成方法;对于标注数据稀缺问题,我们介绍了机器自动标注、对话结构有效挖掘和数据高效收集策略三部分内容;而针对传统DM中RL模型训练效率低下的问题,学界有尝试引入HRL、FRL等方法对动作空间进行层次划分,也有利用model-basedRL对环境进行建模提高训练效率,将human-in-the-loop引入对话系统训练框架亦是当下十分活跃的研究方向。最后我们对阿里巴巴-达摩院-小蜜ConversationalAI团队目前在DM模型化的进展做了一个比较详细的汇报介绍,希望本综述能为大家的对话管理研究提供一些启发和思考。