以知识图谱作为边信息生成推荐的价值在于:一方面可以提供更准确的推荐;另一方面可以对推荐结果进行解释。
知识图谱由实体和关系组成(以电影推荐为例):实体(用户、电影、演员、导演和类型);关系(交互、归属、表演、导演和友谊)。
基本思想:将知识图谱中的节点和边在低维向量空间中得到嵌入表示(KnowledgeGraphEmbedding,KGE),利用知识图谱丰富item/user的表示。
基于embedding的方法忽略了图中的信息连通模式,通常无法为推荐结果提供解释。
基本思想:将知识图谱视为一个异构信息网络(user-item),考虑到user、item的连通相似性(语义相似性/结构对等性),进而提升推荐效果。其中,连通相似性的定义依赖meta-path结构(meta-path是连接两个实体的一条特定的路径)。
用户Alice与部分物品在知识图谱的关联图示
KPRN模型图示
基于path的方法有天生的可解释性,但早期的方法没有结合embedding的思想,对user/item的表示较为简单,准确性仍有提升空间。
基本思想:利用嵌入传播(常使用GNN)完善user、item在知识图谱中有多跳邻居的表示。其中,传播过程可以看作是在知识图谱中发现user的偏好模式,类似于在基于path的方法中发现连接模式。
联合方法结合了基于embedding和基于path的方法,兼具准确性和可解释性,逐渐成为知识图谱推荐算法的主流方法。
*在表格中,Emb代表基于嵌入的方法,Uni代表统一方法,Att’代表注意力机制,'RL’代表强化学习,'AE’代表自动编码器,'MF’代表矩阵分解。
前面三节是以核心技术的角度来分类,本节以训练学习的角度来分类。(分类角度不同而已,助于理解)
DeepWalk的主要思想是在由物品组成的图结构上进行随机游走,产生大量物品序列,然后将这些物品序列作为训练样本输入word2vec进行训练,得到物品的embedding。
在DeepWalk的基础上,通过调整随机游走权重的方法,使embedding的结果在网络的同质性和结构性中进行权衡。
其中,网络的“同质性”指的是距离相近节点的embedding应该尽量近似,“结构性”指的是结构上相似的节点的embedding应该尽量接近。
GNN的核心观点:
GNN的局限性:
GNN的训练学习思路:
与GNN核心的不同在于不再以不动点理论为基础。
思考如何解决图中邻居结点数量不固定的问题:
解决GCN需要存放整张图信息的问题,利用采样部分节点的方式进行学习。
在nlp、计算机视觉、推荐系统、强化学习、恶意检测、专业领域等都有很大的应用前景。