排序算法、多模态算法是推荐系统中的关键组成部分,用于根据用户的兴趣和历史行为来推荐个性化内容。以下是近年来的演进:
近年来,深度学习在排序算法中的应用迅速增加。通过使用深度神经网络来建模用户和物品之间的复杂关系,推荐系统能够更准确地理解用户的兴趣。这些方法包括各种神经网络架构,如卷积神经网络(CNN)、循环神经网络(RNN)和自注意力机制(Transformer)。例如,YouTube的深度学习排序模型可以根据用户的观看历史和行为来推荐视频。
推荐系统越来越注重对用户行为序列的建模。这意味着算法不仅考虑用户当前的兴趣,还考虑他们的历史行为。这可以通过RNN、LSTM(长短时记忆网络)等模型来实现。这使得推荐系统能够更好地理解用户的演变兴趣,例如新闻阅读历史或商品浏览历史。
自监督学习方法在排序算法中也有广泛应用。这种方法通过从未标记的数据中自动生成标签来进行训练。例如,通过使用用户点击行为生成正样本和负样本,可以训练排序模型。这种方法降低了标记数据的依赖性,提高了模型的可扩展性。
当数据分布存在显著偏移时,长期信息将被丢弃,这会损害推荐性能。传统方法通过基于模型的持续学习方法来解决这个问题,而没有分析在线推荐系统的数据特性。为了解决上述问题,我们提出了一种带有数据驱动先验(DDP)的在线推荐系统增量更新框架,它由特征先验(FP)和模型先验(MP)组成。FP对每个特定值进行点击率估计,以增强训练过程的稳定性。MP根据贝叶斯法则,将先前的模型输出合并到当前更新中,从而得到一个在理论上可证的用于稳健更新的先验。通过这种方式,FP和MP都被很好地集成到统一框架中,该框架与模型无关,并且可以适应各种先进的交互模型。在两个公开可用的数据集以及一个工业数据集的大量实验证明了所提出框架的卓越性能。
为此,我们提出了一个具有数据驱动先验(DDP)的稳健统一增量学习框架,以改进现今主流的训练框架下的性能。它以端到端的方式整合了特征先验,并提供了更具理论证明的模型先验。具体而言,特征先验旨在明确估计特定特征值的平均CTR。在特征粒度上,CTR值的分布比实例级别上的分布更稳定,因为数据更集中在每个特征上。特征先验最终起到辅助特征信息的作用,并为模型的更新提供更稳定的学习方向,从而有利于优化长尾项目。此外,基于贝叶斯法则,我们构建了模型先验,通过在增量数据上最大化似然函数,并降低当前模型到先前模型的函数空间距离,来近似完整数据上的后验估计。因此,可以将以前模型的输出轻松集成到框架中,以实现模型先验,其中以前模型的输出用于监督当前模型。
1.3.1预备知识
1.3.2框架总览
我们提出了一个统一的框架,即基于数据驱动先验知识的增量更新框架(Data-DrivenPrior,DDP),它由两个重要组件组成,如上图所示:
这两个基于数据驱动的部分可以轻松集成到现有的先进模型中,从而产生一个与模型无关且通用的框架。此外,该框架可以以端到端的方式进行更新,很容易集成到在线推荐系统中。
1.3.3特征先验
先前的研究采用朴素的持续学习方法,通过利用基于模型的信息帮助学习每个实例的CTR。一个主要的问题是增量更新所加剧的极度数据稀疏问题。模型参数对这些数据非常敏感,稀疏的数据会导致模型的不稳定性,从而使其过度拟合最新的数据。直观上,实例中的特征数据出现更加频繁,估计结果比实例本身更加稳定。因此,我们受到启发,设计了一个模块来估计特征的CTR值,并将其作为稳定且有用的信息输入CTR模型,以提高推荐系统的性能。这种特征级别的值可以泛化到长尾项目中,使CTR模型能够更准确地估计长尾特征。为此,我们提出了特征先验(FP),它可以为每个特征维护长期的先验信息,从而更稳定地表达长尾特征。
其中,Concat()表示连接函数。通过这种方式,特征先验被很好地集成到原始的嵌入模块中,然后通过任何交互模块来捕捉不同特征之间的交互。
1.3.4模型先验
我们在公开数据集上做了大量实验,实验效果如上表格所示,我们的最终框架DDP和只引入特征先验的FP,在Criteo数据集和CIKM2019数据集上,增量学习下的整体表现和在长尾表现都体现了我们方法的优越性。同时,长尾数据上的效果证明了特征先验在长尾数据上估计的稳定性。
2.3.1CTR预估模型
2.3.2群体信息选择
2.3.3群体表示学习
2.3.4群体参数生成
2.3.5损失函数
一般来说,协同过滤通常是利用学习到的代表用户和商品潜在特征的嵌入/表达(Embeddings)进行融合以预估出用户对商品的偏好/交互概率,而融合手段通常是内积,欧式距离,或者多层感知机。因此,如何得到特征富有表现力的用户/商品嵌入对于预测准确性至关重要。早期的协同过滤算法,例如矩阵分解(MatrixFactorization),大多直接将用户/商品ID投影到嵌入向量。后来,许多工作通过在嵌入表达学习中引入用户的历史交互行为,以增强目标用户嵌入。
近年涌现了许多基于图卷积神经网络(GraphConvolutionalNeuralNetwork,GCN)的协同过滤算法的新兴研究,这些研究通过用户-商品之间的多跳连接进一步增强了嵌入表达能力。具体而言,协同过滤的数据可以天然的用二分图组织:用户u和商品i作为节点,交互行为作为边。节点u/i的k阶特征是由k层堆叠的图卷积层聚合而来,汇总了其k跳邻域内的信息。而这样k跳邻域形成了一个树状结构,用户/商品树。图1(a)给出了推荐系统中图卷积的双树结构。
尽管基于GCN的协同过滤算法已经被广泛研究,但现有的方法都有一个主要的局限:在协同过滤层进行最终融合之前,用户树和商品树缺乏交互。这主要归因于现有的聚合方式大都继承自传统的针对节点分类任务而提出的GCN算法。然而,推荐任务和分类任务是十分不同的,它并未要求对用户或者商品进行通用刻画,如用户购买力或是商品评分,而是需要用户和商品的交互特征,即用户选择商品时的考量或是商品吸引用户的部分特性,来进行用户商品偏好预估。
现有方法仅在最终融合用户商品表达,这样的次优结构缺乏对有价值的交互特征的捕捉,导致它们在用户商品偏好预估上效果有限。当要预估用户对某个商品的偏好时,用户树和商品树独立地聚合自己的邻居来学习各自的表达。因此,用户树聚合时无法感知目标商品,反之亦然。现有的图注意力方法大部分都应用于节点包含丰富信息的图中,并不适合用户-商品这样的只包含ID类特征的二分图。并且,注意力机制的权重的计算也局限在中心节点和它邻居之间,即自注意力机制。
考虑到后融合用户商品高阶特征带来的负面影响,本文提出了一种交互式图卷积网络结构(InteractiveGraphConvolutionalNeuralNetwork,IA-GCN),用于基于协和过滤的推荐系统。它采用了一种早融合方式,通过在用户树和商品树之间建立交互引导来提取交互特征,可以为用户提供更为有效精确的个性化推荐服务(参见图1(b))。
本文提出的IA-GCN是业界首个在推荐系统领域针对动态交互式图卷积网络的尝试。IA-GCN利用外部注意力机制,强调特定于目标的信息,可以以端到端(end-to-end)的方式与各种已有的基于图神经网络的协同过滤算法相结合,兼备可解释性和可扩展性。我们在三个基准数据集的广泛实验以及和多个sota基线的对比,验证了BI-GCN的有效性和优越性。
海报布局的生成旨在预测图像上视觉元素的位置和类别。此任务对于海报的美学吸引力和信息传播起到了至关重要的作用。创建一流的海报布局需要同时考虑到布局元素的彼此关系和图像组成,因此这项要求很高的任务通常由专业设计师完成。但是人工设计是一件既耗时又费财的事情。为了以低成本生成高质量的海报布局,自动布局生成在学术界和工业界越来越流行。
针对上述问题,我们提出了一个关系感知扩散模型用于海报布局生成领域,该模型同时考虑了视觉-文本和几何关系因素。由于扩散模型有在许多生成任务中取得了巨大成功,我们遵循噪声到布局的范式,通过学习去噪模型逐渐调整噪声来生成海报布局。在每个采样步骤中,给定一组以高斯采样的框分布或最后一个采样步骤的估计框为输入,我们通过图像编码器提取RoI特征作为生成的特征图。然后是视觉文本关系感知模块(VTRAM)被提出用于建模视觉和文本特征之间的关系,这使得布局结果由图像和文本内容同时决定。与此同时,我们设计一个几何关系感知模块(GRAM)基于RoI彼此的相对位置关系增强每个RoI的特征表达,这使得模型能够更好地理解布局元素之间的上下文信息。受益于新提出的VTRAM和GRAM模块,用户可以通过预定义布局或改变文本内容以控制布局生成过程。
由于文本信息在原始CGL-Dataset的测试集中没有提供,所以我们另外收集1035张带有可用文字描述的海报图像来替换原来的测试集。如图(c)所示,收集海报图像的处理方式与训练集相同进而获得干净的背景图像。与此同时,我们收集了当前商品的所有促销信息以分析不同文字内容对于海报布局的影响。由于收集到的文字内容聚焦于电商领域,我们使用基于海量电商文本语料预训练的模型来提取文本特征。
我们的方法的概述如上图所示。方法由四部分组成:特征提取器、视觉文本关系感知模块(VTRAM)、几何关系感知模块(GRAM)和布局解码器。特征提取器分别提取文本和图像的特征,VTRAM模块建模布局的视觉和文本关系,GRAM用于增强RoI特征的彼此位置关系表达能力。最后,基于VTRAM和GRAM的输出以及RoI特征,布局解码器预测元素的坐标和类别。
4.4.1基于扩散模型的海报布局生成
扩散模型是一类使用马尔可夫链将噪声转换为数据样本的概率生成模型。如图所示,我们将海报布局生成问题作为一个噪声到布局的生成过程,通过学习去噪模型以逐步调整噪声布局。因此扩散模型生成的海报布局也同样包括两个过程:扩散过程和去噪过程。给定一个海报布局,我们逐渐添加高斯噪声以破坏确定性的布局结果,我们称这个操作为扩散过程。相反给定初始随机布局,我们通过逐步去噪的方式获得最终海报布局称为去噪过程。
4.4.2基于扩散模型的海报布局生成
图像编码
给定一个干净的背景图像,我们使用ResNet-50与特征金字塔网络(FPN)提取视觉特征。ResNet-50由于在计算机视觉方面的卓越性能已获得广泛应用。除此之外,我们使用FPN生成多尺度特征图,中包括从低到高级别的图像特征。基于,我们用前面提到的噪声布局提取RoI特征如下:
=(,),
其中的形状为(,,)。在训练阶段,RoI特征来自添加高斯噪声的真实布局,推理阶段来自随机布局的去噪。
文本编码
给定海报上所有的商品宣传标语,我们先通过预训练方法RoBERTa提取文本特征。我们注意到产品的宣传标语不是简单的重复产品名称,而是突出它的卖点。针对这个问题,我们从电商平台收集了2亿商品语料进行预训练,这使得模型预测卖点更准确。同时为了让模型感知文本长度和布局之间的关系,我们补充了文本长度embedding作为特征表示的一部分。最后我们融合内容和长度特征作为文本编码器的输出。
4.4.3视觉文本关系先验模块
代替直接concat视觉和文本特征,我们设计了一个视觉文本关系感知模块来实现图像和文本的域对齐。该模块能够感知视觉和文本元素之间的关系并使其充分利用图像和文本的特征信息,这让模型对于内容有了更全面的理解。为了确保文本数量恒定,我们采用填充向量方法以达到固定数量,这样处理的好处是模型具有处理不同长度文本信息的能力。
4.4.4对齐关系先验模块
我们通过结合去噪过程的结果和图像特征构建RoI特征,但是这些RoI特征是独立的。为了加强RoI之间的位置感知关系,我们设计了几何关系感知模块(GRAM)让模型更好的学习内容信息关系图形元素之间,具体细节如下:首先,给定个RoIs,两个盒子和(,∈{1,2,...,})的相对位置特征计算方式如下:
需要强调的是不同类型元素应该有不同的定位策略,例如垫层应覆盖在文本类型元素上但是其他种类的元素之间应避免重叠,因此我们提取RoI特征作为元素的类别信息。为了合并位置和类别信息,提取视觉特征被展开并且被投影函数P转换为维度的向量。最后,视觉embedding乘以几何权重进而得到最终的几何特征:
其中,V′是V的展开形式。
4.4.5布局解码器
与目标检测任务类似,布局解码器用于预测各种元素的类别和坐标信息。我们基于VTRAM和GRAM的融合结果以及RoI特征构建布局解码器的输入,然后这些融合的特征会被送入坐标回归器和类别预测器获取最后的结果,最后我们用坐标回归损失和分类损失指导模型学习。除此之外,为了避免预测框彼此过度重叠,我们采用giou损失作为补充,最终的损失函数形式如下:
4.5实验结果
4.5.1定性效果对比
4.5.2定量效果对比
内容无关方法的对比
内容有关方法对比
相信未来,研究和工程界需要继续努力以解决这些问题,以推动这些领域的发展。