大型语言模型时代的图机器学习综述:发展历史LLM增强图学习图增强LLM应用场景未来方向(下) 4.2 解决传统 GNN 训练限制 传统的 GNN 训练依赖于标记数据。然而,获取高质量的标记数据往往伴随着大量的时间和... 

忽略结构信息:仅使用节点属性构建文本提示,忽略邻接标签和关系。

隐式结构信息:用自然语言描述邻接信息和图拓扑结构;

显式结构信息:使用GNN模型对图结构进行编码。

编码模块。编码模块负责图和文本编码,我们将分别为每个模块提供总结。

图编码。预训练的GNN模型通常用于图编码。例如,GIT-Mol[139]采用预训练的MoMu模型[80]中的GIN模型来编码分子图。KoPA[137]使用预训练的RotateE模型来获取知识图中实体和关系嵌入。此外,GIMLET[138]提出了一个统一的图-文本模型,无需额外的图编码模块。特别是,GIMLET提出了一种基于距离的联合位置嵌入方法,利用最短图距离来表示图节点之间的相对位置,使变换器编码器能够编码图和文本。GraphToken[144]评估了一系列GNN模型作为图编码器,包括GCN、MPNN[105]、GIN、GraphTransformer、HGT[56]等。

文本编码。由于LLMs在理解文本信息方面的巨大能力,大多数现有方法,如ProteinChat[141]和DrugChat[136],直接将LLMs用作文本编码器。在GraphLLM[134]中,利用LLM的分词器和冻结的嵌入表来获取节点文本属性的表示,与下游冻结的LLM对齐。

4.3异质性和泛化

尽管图神经网络(GNNs)在图任务中取得了令人瞩目的成绩,但它们也存在一些不足之处。一个显著的缺陷是邻居信息聚合机制的不足,尤其是在处理异构图时。当相邻节点缺乏相似性时,GNN的性能会显著下降。此外,GNN在面对分布外(OOD)泛化时也面临挑战,导致模型在训练数据之外的分布上的性能下降。这一挑战在实际应用中尤为突出,主要原因在于,包含所有可能的图结构在有限的训练数据中是非常困难的。因此,当GNN对未见过的图结构进行推断时,它们的性能可能会大幅下降。这种泛化能力的降低使得GNN在面对现实世界场景中不断演变的图数据时变得相对脆弱。例如,GNN可能在处理社交网络中新出现的社会关系时遇到困难。LLMs已被用来缓解上述限制。特别是,GraphText[28]通过将节点属性和关系封装在图语法树中,有效地解耦了深度和广度,与GNN基线相比,在异构图上取得了更好的结果。Chen等人[26]研究了LLM处理OOD泛化场景的能力。他们使用GOOD[151]基准作为标准,结果表明LLM在解决OOD泛化问题上表现出色。OpenGraph[145]旨在解决跨不同领域的零样本图任务。在这个模型中,LLMs被用来在数据稀缺情况下生成合成图,从而增强OpenGraph的预训练过程。

5图对LLMs的增强

5.1KG增强的LLM预训练

虽然LLMs在文本理解和生成方面表现出色,但它们仍可能产生语法正确但事实上错误的信息。在LLM预训练期间明确整合KG中的知识,有望增强LLM的学习能力和事实意识[155]–[157]。在本小节中,我们将概述KG增强预训练语言模型(PLMs)的研究进展。虽然针对LLMs的KG增强预训练的工作有限,但关于KG增强PLMs的研究可以为LLM预训练提供见解。现有的KG增强预训练方法可以分为三个主要类别:修改输入数据、修改模型结构和修改预训练任务。

5.1.1修改输入数据

5.1.2修改模型结构

5.1.3修改预训练任务

5.2KG增强的LLM推理

为了评估LLMs的透明度和可解释性,提出了各种基准。例如,Li等人[35]引入了一项名为知识感知语言模型归因(KaLMA)的新任务,并开发了相应的基准数据集。该基准评估LLM从知识图谱派生引用信息以支持其答案的能力。KaLMA还提供了一个自动评估,涵盖文本质量、引用质量和文本-引用对齐的答案方面。此外,XplainLLM[184]引入了一个数据集,更好地理解LLMs从“为什么选择”和“为什么不选择”的角度做出决策。

6应用

在本节中,我们将介绍实际应用,展示了GFMs和LLMs的潜力和价值。如表2所示,推荐系统、知识图谱、科学领域的AI和机器人任务规划成为最常见的领域。我们将全面总结每个应用。

6.1推荐系统

6.2知识图谱

6.3科学领域的AI

6.4机器人任务规划

机器人任务规划旨在将任务分解为一系列高级操作,由机器人逐步完成[210]。在任务执行期间,机器人需要感知周围环境的信息,这些信息通常使用场景图表示。在场景图中,节点代表场景对象,如人和桌子,而边描述对象之间的空间或功能关系。使LLMs能够进行机器人任务规划的关键取决于如何以场景图的形式表示环境信息。许多研究探索了使用场景信息的文本描述,并为LLMs构建提示以生成任务计划。Chalvatzaki等人[211]引入了Graph2NL映射表,使用相应的文本表达来表示具有不同数值范围的属性。例如,大于5的距离被表示为“远”,小于3的距离被表示为“可到达”。SayPlan[212]将场景图以JSON形式描述为文本序列,迭代地调用LLM生成计划并允许自我纠正。Zhen等人[213]提出了一个有效的提示模板,ThinkNetPrompt,以增强LLM在任务规划中的性能。与依赖于语言描述场景图信息的方法不同,GRID[113]使用图变换器对场景图进行编码。它利用跨模态注意力对齐图模态和用户指令,最终通过解码器层输出动作标记。LLMs的强大理解和推理能力在机器人任务规划中展示了巨大的潜力。然而,随着任务复杂性的增加,搜索空间急剧扩大,使用LLMs生成可行任务计划的效率面临着挑战。

7结论

在本综述中,我们已经全面回顾了LLMs时代图应用和图ML的最新进展,这是一个图学习中的新兴领域。我们首先回顾了图ML的演变,然后深入探讨了LLMs增强图ML的各种方法。由于LLMs在各个领域都具有显著的能力,它们有很大的潜力将图ML增强为GFMs。我们进一步探索了使用图增强LLMs,突出了它们在增强LLM预训练和推理方面的能力。此外,我们展示了它们在分子发现、知识图谱和推荐系统等多样化应用中的潜力。尽管取得了成功,但这个领域仍在发展中,并为进一步的进展提供了许多机会。因此,我们进一步讨论了几个挑战和潜在的未来方向。总的来说,我们的综述旨在为研究人员和从业者提供系统和全面的回顾,激发这个有前途领域的未来探索。

THE END
1.数据流程图和系统结构图详细版本.经管文库(原数据流程图和系统结构图-详细版本.https://bbs.pinggu.org/thread-13115355-1-1.html
2.收藏:20张数据分析学习思维导图大全,有了它学习思路超清晰!来源:数据分析不是个事儿 数据分析学习内容比较多,很多宝子可能会感觉无从下手,今天小爱就给大家分享一波很硬的干货,20张数据分析学习思维导图大全,建议收藏,慢慢消化吸收! 数据分析步骤地图 数据分析基础知识地图 数据分析技术知识地图 展开剩余 84 % https://m.sohu.com/a/796770928_121124376
3.大数据学习路线图(2023完整版)适合收藏本文提供了一份详细的大数据学习路线图,涵盖从数据仓库基础到BI数据分析与可视化的7个阶段,包括MySQL、Python、Hadoop、Linux、Hive、数据仓库技术、BI工具如Superset、FineBI等,以及数据质量和阿里云大数据服务等专题,旨在帮助初学者和进阶者规划学习路径。 摘要由CSDN通过智能技术生成 https://blog.csdn.net/longz_org_cn/article/details/130152191
4.Java辅助学习系统数据流图java数据流编程实验总结Java辅助学习系统数据流图 java数据流编程实验总结 20143516许心远 《Java程序设计》第6周学习总结 教材学习内容总结 10.1.1 1.Java将输入/输出抽象化为串流,数据有来源及目的地,衔接两者的是串流对象。 2.若要将数据从来源中取出,可以使用输入串流;若要将数据写入目的地,可以使用输出串流。在java中,输入串流代表https://blog.51cto.com/u_14844/8309580
5.MariaDb数据库管理系统学习(二)使用HeidiSQL数据库图形化界面管理HeidiSQL 是一款用于简单化的MySQLserver和数据库管理的图形化界面。该软件同意你浏览你的数据库,管理表,浏览和编辑记录,管理用户权限等等。此外,你能够从文本文件导入数据,执行 SQL查询,在两个数据库之间同步表以及导出选择的表到其他数据库或者 SQL 脚本其中。HeidiSQL 提供了一个用于在数据库浏览之间切换 SQL 查询https://cloud.tencent.com/developer/article/2047562
6.深度图数据集:解决深度学习数据不足的方案实验结果表明,使用深度图数据集可以提高深度学习模型的性能。具体来说,通过将图像、文本等原始数据转化为深度图数据集,再利用图卷积网络(GCN)等图神经网络进行训练,模型在各项指标上均取得了显著的提升。这充分证明了深度图数据集在解决深度学习数据集少问题上的有效性。五、案例分析——深度图数据集在推荐系统中的https://developer.baidu.com/article/detail.html?id=2036386
7.基于深度学习的实时识别硬件系统框架设计AET系统框架采用MNIST和Fashion MNIST数据集作为网络模型硬化试验样本,实验结果表明,在一般场景下该系统框架能够实时、准确地完成图像数据的获取、显示及识别,并且具有可移植性高、处理速度快、功耗低的特点。 关键词: 深度学习 卷积神经网络 Zynq 软硬件协同 中图分类号: TP391文献标识码: ADOI:10.16157/j.issn.0258-http://www.chinaaet.com/article/3000091553
8.前沿综述:面向复杂系统建模的多模态图学习澎湃号·湃客图学习(Graph Learning)是一种研究和应用图结构数据的机器学习方法。在图学习中,数据被表征为由节点和边组成的图形,其中节点表示实体或对象,边表示它们之间的关系或连接。因此图学习特别适用于复杂系统的多尺度分析、建模与仿真研究,揭示复杂系统中的模式、规律和动态变化。图学习常用的技术包括图卷积网络、图注意力网络https://www.thepaper.cn/newsDetail_forward_25672785
9.管理信息系统学习心得体会管理信息系统学习心得体会3 一连为期五天的管理信息系统实训结束了,从E—R图的绘制到业务流程图绘制,再到数据流程图绘制,最后到判断树、判断表绘制,我们似乎在名为管理信息系统的这座大学城里的外环绕了一圈,但系我又深知,这么一个想法其实只是在五十步笑百步,E—R图、业务流程图、数据流程图、判断树和判断表https://www.yjbys.com/xuexi/xinde/3879192.html
10.亚马逊AWS:开源图深度学习框架DGL的机遇与挑战实际过程中使用图数据去解决问题,大家可能会想到说我有这样的任务,我有这样的一个需求,我应该用怎样的模型去解决它呢? 现在主流的或者说一个非常火热的方向,(就是)把我们知道已经非常成功的深度学习技巧引入到图数据的学习当中,因此也就诞生了一类新的图数据库,叫做图神经网络 Graph Neural Network,GNN。 https://www.yueshu.com.cn/posts/chance-and-challenge-of-deep-graph-learning
11.大数据组件有哪些?构建现代数据生态系统的组件一览!Apache Giraph:用于大规模图数据处理的分布式计算系统。Giraph支持图的遍历和计算,适用于社交网络分析、推荐系统等场景。 TensorFlow和PyTorch:两个流行的开源机器学习框架,提供了灵活的工具和库,使得用户能够构建和训练各种深度学习模型。 结语 大数据组件构成了一个庞大而强大的生态系统,为企业提供了从数据存储、处理到分https://www.fanruan.com/bw/big-data-module
12.《学生成绩管理系统数据流图》.doc《学生成绩管理系统数据流图》.doc 8页VIP内容提供方:tangzhaoxu123 大小:274.5 KB 字数:约4.79千字 发布时间:2020-01-22发布于天津 浏览人气:686 下载次数:仅上传者可见 收藏次数:0 需要金币:*** 金币 (10金币=人民币1元)《学生成绩管理系统数据流图》.doc 关闭预览 想预览更多内容,点击免费https://max.book118.com/html/2020/0117/7200054111002113.shtm
13.学习数据库系统概论这一篇就够了学习数据库系统概论这一篇就够了 第一章 数据库绪论 1.1、数据库系统概述 1.1.1、数据库的四个概念 数据(Data):数据是数据库中存储的基本对象,它是描述事物的符号记录。 数据库(Database):数据库是长期储存在计算机内、有组织的、可共享的大量数据的集合。https://developer.huawei.com/consumer/cn/forum/topic/0201421181252730565
14.一种高效全面的敏感数据分布自动化探查方法本文概要性地描述了一种企业敏感数据分级分类、采集、识别、分布展示的高效全面的自动化探查方法。https://www.secrss.com/articles/12266
15.Java开发全栈知识体系架构学习(服务器微服务数据库思维导向URL指定的资源提交数据或附加新的数据 03、PUT方法 跟POST方法很像,也是想服务器提交数据。但是,它们之间有不同。PUT指定了资源在服务器上的位置,而POST没有 04、HEAD方法 只请求页面的首部 05、DELETE方法 删除服务器上的某资源 06、OPTIONS方法 它用于获取当前URL所支持的方法。如果请求成功,会有https://www.processon.com/view/60504b5ff346fb348a93b4fa
16.《复式条形统计图》说课稿(精选12篇)从学生已有的知识经验出发,先后呈现单手投球的条形统计图,复式统计表和两幅单式条形统计图,既复习、激活学生已有的对单式条形统计图的认知,又为后继的学习提供准备材料,接着通过提出需要对统计图的数据进行分析比较才能作答的问题。引发学生认知冲突,产生合并统计图的需求,促进学生主动建构所要学的复式条形统计图的https://xiaoxue.ruiwen.com/shuokegao/326172.html
17.2022云栖精选—云栖大会图计算及其应用论坛但是,在真实的应用场景中问题复杂,计算模式多样,解决方案碎片化;同时用户的门槛很高,学习难度也很大;海量数据的计算复杂度高且效率低。因此,解决图计算大规模应用的挑战是我们GraphScope系统开发的重要目标。 GraphScope的构建,始于2020年底。两年的时间里,我们结合了阿里的海量数据场景以及以达摩院团队和业界专家学者的合作https://developer.aliyun.com/article/1101113
18.收藏:常用医学公共数据库(含临床数据库,生信数据库和机器学习数据美国国家癌症数据库(National Cancer Database, NCDB),SEER(Surveillance, Epidemiology, and EndResults Program)https://www.medsci.cn/article/show_article.do?id=fd511958806a
19.科学网—[转载]基于强化学习的数据驱动多智能体系统最优一致性基于强化学习的数据驱动多智能体系统最优一致性综述 李金娜, 程薇燃 辽宁石油化工大学信息与控制工程学院,辽宁 抚顺113000 【摘 要】多智能体系统因其在工程、社会科学和自然科学等多学科领域具有潜在、广泛的应用性,在过去的 20 年里引起了研究者的广泛关注。实现多智能体系统的一致性通常需要求解相关矩阵方程离线设https://wap.sciencenet.cn/blog-951291-1276281.html
20.四年级上册数学教学计划(通用13篇)3、统计与概率(数学思想方法)领域的知识包括统计;数学广角两个单元。统计主要学习复式条形统计图(纵式和横式)学会看懂复式统计图并进行数据分析;数学广角让学生初步体会运筹思想和对策论方法解决生活中的实际问题。 4、用数学领域的内容主要放在三位数乘两位数、除数是两位数的除法这两个单元之中,结合计算教学解决生活https://www.unjs.com/jiaoxuejihua/202109/4104477.html