基于信息增强的图神经网络学习方法研究
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第1章 绪论

1.1 图神经网络研究的背景及意义

从微观世界粒子间的相互作用到宏观世界人与人之间的社交,从自然生态系统中的食物网到人造互联网中的链接,事物间的关联可谓无处不在。

中国科学院计算技术研究所李国杰院士认为,隐藏在大数据之中的秘密主要是数据之间的网络。网络(图)数据可以自然地表达对象间的复杂联系,是表达对象间复杂联系的常用形式,广泛应用于自然科学、社会科学及工业等领域。举例来说,在社交媒体平台上,人与人之间相互的关注、互相的联系,构成了典型的社交网络;Web页面间数以百亿计的超链关系构成了网页链接网络;以概念为节点、以概念间的关联为边构成了知识图谱;不同蛋白质的交互作用构成了蛋白质交互网络。由此可见,网络(图)是日常生产生活中最为常见的一种信息载体,也是建模事物间关联的有效工具。

对网络数据进行挖掘,并从中发现有价值的信息是一个值得研究的问题。首先,网络数据分析挖掘在服务经济和社会发展中具有基础性作用,有效地感知、分析、挖掘、利用这些网络数据,为相关产业的发展提供了巨大的助推力。例如,在互联网信息服务领域,随着网络媒体技术越来越普及,大量的网络数据于该领域中产生,有效地挖掘、分析、理解这些公众社会生活的网络数据,为相关政府部门发现并处理民生问题提供了重要的决策依据。其次,网络数据的分析、挖掘是网络科学的重要内容之一,在大数据革命的推动下,网络数据的分析挖掘(如面向网络数据的划分、节点分类、链接预测、推荐系统等分析挖掘任务)已成为网络科学、数据科学等多学科交叉领域的共性热点研究课题。综上所述,网络数据分析挖掘技术作为大数据时代网络科学发展的重要内容,对许多领域都具有重要的共性支撑作用,对其进行研究具有重大科学意义。

众所周知,深度学习[1](Deep Learning)是当今人工智能研究中最主要的方法之一。传统的深度学习技术在大小和形状固定的欧几里得数据(如图像)或序列数据(如文本)上取得了巨大的成功,但由于图数据不规则的特性,传统的深度学习模型(深度卷积神经网络)没有办法直接应用在图数据上。面对这样的困境,人们迫切需要一种更加有效的网络数据分析挖掘技术,图神经网络(Graph Neural Network,GNN)应运而生。近年来,图神经网络作为新型的网络数据分析挖掘工具迅速崛起,其理论与方法的研究现正处于爆发期,受到广泛关注。

图神经网络在网络数据的表示方面具有重要的科学研究意义。网络分析挖掘任务效果能否发挥其有效性,主要取决于网络的表示[2,3]。传统意义上的图特征工程方法严重依赖专家的手工设计,需要耗费大量的人力、物力,在一种类型网络上的手工设计方式很难迁移到其他类型的网络上。此外,使用邻接矩阵形式的网络表示面临维度过高和数据稀疏两大问题,对于存储和计算都具有非常大的挑战。相对而言,表示学习(Representation Learning)可以自动地学习图上的特征,该学习过程耗费的人力、物力较少,且可以灵活应用于各种下游任务。因此,研究者开始探索面向网络的表示学习(Network Representation Learning)方法。由于图神经网络学习方法能够综合建模图拓扑结构和节点特征,从中学习到低维、稠密的高质量节点表示,从而能够解决传统网络表示面临的维度过高和数据稀疏等问题。同时,获得的节点表示可以很好地反映节点的语义信息,使其在后续的任务中获得更好的性能。因此,图神经网络为网络表示学习提供了一种新的研究视角,具有非常重大的意义。

图神经网络在多源异构网络数据分析方面具有重要的研究意义。大规模复杂网络中通常包含大量的不同类型的节点和边,通过设计合适的图神经网络模型,可以将这些不同类型的节点或边映射到统一的特征空间中,进而实现有效的网络数据分析挖掘任务[3,4]。例如,在现实生活中,随着社交网络的不断发展,人们常常加入多个社交网络,以享受丰富多样的服务。人们可以在微信、QQ平台上聊天,在微博上共享资讯,在抖音上分享视频,在领英上求职,在知乎、Quora上交流学习心得。图神经网络可以将上述多个社交网络的用户映射到统一的空间进行融合,从而丰富用户或群体的画像,进而挖掘用户或群体的偏好,针对性地开展个性化推荐等商业活动。

图神经网络的研究在多学科交叉促进网络数据分析方面具有重要的科学意义。图神经网络是一个典型的多学科交叉研究问题,其发展与交叉领域、交叉学科的研究密不可分。图神经网络的研究以数学中的图论为理论基础,将计算机科学中的机器学习、分布式系统、信息可视化,统计学中的推断建模,物理学中的统计物理学等学科交叉融合,从而得到发展。一方面,图神经网络的发展得益于这些相关学科的理论与方法的研究进展,通过对网络数据的结构和属性进行深度分析,以完成各种复杂的网络数据建模任务。另一方面,图神经网络是推动众多学科交叉发展的着力点,可以极大地促进相关方向的革新与发展。

作为网络数据分析与挖掘中的一个基础研究问题,图神经网络的研究不仅具有重要的科学理论研究意义,而且在许多领域具有重要的使用价值。例如,在推荐系统[5,6]中,图神经网络能够更好地建模用户和产品的属性信息及二者的交互信息,进而学到精准的用户偏好特征,以提升推荐效果;在链接预测[7]中,图神经网络为融入节点和边的属性信息提供了方法,提高了预测质量并可以完成冷启动预测任务;在机器阅读理解领域[8],领域知识图谱与图神经网络模型有效结合,提高了机器阅读理解系统的推理能力与可解释性;在生物化学领域[9-12],图神经网络可以精细地刻画分子结构,模拟复杂的基因表达模式,有助于该领域发现新药和对药物进行分类;在图像描述任务(Image Caption)中[13],图神经网络可以对检测出的语义目标进行深度挖掘,并用于后续的语言表达。此外,图神经网络也在不断地应用到组合优化[14,15]、程序分析[16]和城市智能[17]等新的领域中。

综上所述,图神经网络作为网络数据分析挖掘中的一个基础研究问题,具有十分重要的学术研究价值与实际应用意义。虽然图神经网络在与图相关的学习任务方面取得了丰硕的成果,但仍面临着深度加深模型退化与监督信息过度依赖两个重要的挑战。整体而言,对图神经网络的研究还处于探索阶段,已有的研究也仅仅是在相关问题上使用了一部分最基本的策略,并没有充分挖掘图数据中蕴含的各种信息,如高阶近邻信息、全局结构信息、节点伪标记信息、节点权重信息等。综合研究这些信息,可以更立体地挖掘网络数据知识,进而更全面地分析问题。本书围绕图神经网络面临的深度加深模型退化和监督信息过度依赖两个挑战,利用信息增强的方法设计了一系列新的图神经网络模型,从而进一步发展和丰富了图神经网络的建模和方法体系。