辛鑫教授以“基于离线强化学习的推荐系统”为题,介绍了如何使用离线训练数据来构建基于强化学习的推荐系统方法。该方法主要包括结合监督学习与对比学习的训练方法,以及基于奖励引导的训练方法。推荐系统旨在改善用户体验,由于强化学习非常贴合这一目标——最大化用户在每个会话的累积奖励,因此使用强化学习去构建推荐系统是一个很具有前景的研究方向。然而,在离线训练的场景下,设计基于强化学习的推荐算法并不容易。具体而言,传统强化学习的关键在于使用大量的在线试错训练智能体,因此在训练过程中会产生许多试错经验。然而,在推荐场景下,在线试错代价高昂。因此,在推荐场景下,智能体需要通过以前推荐策略产生的离线数据进行训练,而传统的强化学习算法在这些离线训练设置下可能导致次优的策略。
黄超教授以“鲁棒推荐系统的研究”为题,介绍了如何设计更为鲁棒的推荐系统从而解决实际场景中的两个关键问题:1)现有推荐算法的效果极大程度上依赖充足、准确的用户交互记录作为监督信号,在监督信号稀缺的情况下,很难学得准确、高质量的用户、商品表征。2)数据噪声和倾斜分布问题阻碍模型进行有效的用户、商品交互建模,导致现有基于图的协同过滤模型偏向于预测流行商品,并在面对交互数据稀缺的用户时会出现严重的效果退化。推荐系统能够帮助用户缓解信息过载问题,近年来在线上购物、流视频网站、地点推荐等各类网络应用中发挥了越来越重要的作用。为了更准确地对用户偏好进行建模,协同过滤方法将用户、商品嵌入语义空间,可使用表征向量压缩观测到的用户、商品交互数据。
李晨亮教授以“多场景融合的搜推系统前沿进展”为题,从特征重构、知识共享、模型结构优化、预训练模型等多个角度介绍了当前多场景融合的搜推系统进展。指出搜推系统已渗透进生活与工作的各个角落,现阶段不同场景往往相对独立,各类场景定制的搜推模型不断更新。如何打破不同场景之间的数据壁垒,推进全方面的用户需求理解,改善低资源场景的性能、降低智能化服务的成本是目前业界较为关心的问题。
引导发言阶段结束后,论坛进入Panel环节。会场的6位嘉宾围绕5个议题展开了思辨研讨。
黄栋:推荐系统也好和数据安全,涉及到多个层面的力量博弈,包含政府、用户以及企业,所以它并不平衡。另外,用户的视角具有一定的盲目性,把选择权和知情权直接完全交给用户,可能也并不适合。
华伟:可信的这件事是一个主观的事,把技术和技术在社会中的运用,以及个人对技术理解的结合程度,创造一个综合的客观评价。
辛鑫:非常赞同沈老师的观点,可信的需求是非常客观的,可以引入多视角去了解平台、用户和政府要优化的分别是什么。每一个人对可信推荐系统的理解都是不一样的,需要加强个性化的推荐系统。
张琨:可信的标准目前其实是不确定的。对于不同的角色而言,每个人对可信的理解是不一样的。目前来讲的话,还是需要有这种更明确的一些定义或方向,才能去讨论怎么去实现。
郭磊:用户觉得不可信是因为没有参与到推荐过程中去,大多数情况下推荐算法像一个黑盒子,因此可加强其可解释性。
郭磊:有时希望随机的推荐,按照偏好推荐确实存在漏网之鱼或过度推荐。
张琨:认为现在的推荐是过度推荐。企业希望不漏掉任何可能的用户。可参考大模型,采用随机策略保证推荐更多样。
辛鑫:每个人都有自己的体验。可能目前没有很好的算法推荐这样的场景,比如医院分诊台,对推荐系统有更高的要求,在很多民生领域存在很多漏网之鱼。
沈华伟:度很难讲,从同质化和多样化角度来讲。从需要、特殊群体来看,很多普及技术对特殊群体来说并不了解。要把推荐看成一种服务,而不仅仅是技术。
黄栋:准确性不是很好的度量。用户隐私保护要适度,用户视角更local,期望更全局的视角。
黄超:很多APP没有用户隐私,有时APP可以用,但不要给其他人应用。从公平角度,应该用完消除数据和影响,需要更灵活的编辑。
沈华伟:企业认为技术上很难做到消除数据和影响。没有安全只有平凡,因为平凡所以安全。隐私和精确性是从两个角度来说的。
辛鑫:需要定义什么是隐私。对推荐算法提隐私难以实现和管理。是否有责任向用户批露用了哪些数据。
张琨:目前无法做到删除数据和学到的知识,但可以做到达到准确率标准的情况下用哪些数据就足够了。
郭磊:隐私是分层级的,对于隐私的保护从立法角度执行和监管需要更大的努力。违反协议跨平台使用数据的情况需要避免。
沈华伟:隐私界定并不严格。国家保护了知情权和选择权。认为从扩大了使用和知悉范围来界定更好。
沈华伟:每个人都生活在自己的茧房,推荐系统会带来更紧的气泡。未来更多的考虑认知安全。很多是社会问题,不仅仅是技术问题。
黄栋:从过去主动查找到现在的被动接受,行为模式的改变有利有弊。获取知识能力发生了改变。
郭磊:对青少年来说,推荐系统会加速禁锢的行为,系统层面应承担更多的责任。
张琨:每个人都非常喜欢看到自己喜欢的东西,推荐系统加速了这种情况,应避免“夹带私货”。
黄超:要打破信息茧房还是很困难的。算法可在重排环节增加推荐内容的多样化,要牺牲掉短期的精确性。鼓励生成多样化。
黄超:当前太过度追求精确度,更多鼓励大家追求公平性、可信赖、隐私保护。
黄栋:企业看到的更多是业务量的成长,生态应该更体现社会责任感,对社会贡献的增长。目标导向怎么定义,需要思考短期刺激和长期收益。
沈华伟:推荐系统有自己的生命。优化的目标是能活多久,如何一直被大家用。
辛鑫:学术界定义的推荐系统与工业界的定义有很大差距。企业需要有社会责任感。在学术界需要论文的insight,而不是与baseline的比较。
张琨:生态改善需要先活下来,是否可以改善评价推荐系统的标准,有了多维度指标才能有动力去做,不仅仅是收益,还要有社会责任感等。