Latent subspace models could effectively discover latent feature representations of complex data, and they have been widely used in analyzing relational network data. In order to handle the large-scale complex relational network data widely available in the Internet, this project aims to address some key basic issues of probabilistic relational latent subspace models in the aspects of model representation, learning and inference, model complexity control, and etc. More specifically, this project proposes to do the following work to improve existing relational latent subspace models. First, to improve the expressiveness and flexibility on modeling both symmetric and asymmetric networks, as well as the networks with entity attributes, and to overcome the common issue of data imbalance, this project proposes to learn a generalized relational latent subspace model, by exploring the ideas of posterior regularization and introducing a regularization parameter to well balance the data. Second, to improve the ability in learning predictive latent feature representations and the prediction performance in various tasks (such as link prediction, recommendation, document retrieval, etc.), this project proposes to do discriminative learning for the generalized relational latent subspace model, and also to develop an "accurate" inference algorithm by exploring the statistical ideas of data augmentation. Finally, to avoid the highly inefficient model selection step of parametric models, this project proposes a nonparametric Bayesian approach to learning generalized relational subspace models, which can automatically resolve the number of hidden features according to the given data.
隐层空间模型可以有效发掘复杂数据的隐含特征表示,已广泛用于关系网络数据分析。面向互联网环境下的海量复杂关系网络数据,本项目拟系统解决基于概率图的关系隐层空间模型中存在的模型表示、学习与推理、以及模型复杂度等若干基础性关键问题。更具体地说,本项目将:(1)提出基于后验正则化的广义关系隐层空间模型,提高传统关系隐层空间模型在描述对称和非对称关系网络以及包含实体对象属性的关系网络数据的能力和灵活性,克服关系网络中广泛存在的数据不均衡问题;(2)提出关系隐层空间模型的判别式最大间隔学习方法以及基于数据增广统计思想的"精确"推理算法,提高关系隐层空间模型学习判别性的特征表示的能力及其在链接预测、网络推荐、文本检索等任务中的预测性能;(3)提出非参数化的广义关系隐层空间模型,自动确定隐含特征的数目(即模型复杂度),克服参数化隐层空间模型需要时间代价很高的模型选择的缺陷。
针对项目任务书的研究目标,本项目系统解决了基于概率图的关系隐层空间模型中存在的模型表示、学习与推理、以及模型复杂度等若干基础性关键问题,顺利完成各项研究任务,取得优良成果。具体地说,本项目:(1)提出了基于后验正则化的广义关系隐层空间模型,提高了传统关系隐层空间模型在描述对称和非对称关系网络以及包含实体对象属性的关系网络数据的能力和灵活性,克服了关系网络中广泛存在的数据不均衡问题;(2)提出了关系隐层空间模型的判别式最大间隔学习方法以及基于数据增广统计思想的"精确"推理算法,提高关系隐层空间模型学习判别性的特征表示的能力及其在链接预测、网络推荐、文本检索等任务中的预测性能;(3)提出了非参数化的广义关系隐层空间模型,自动确定隐含特征的数目(即模型复杂度),克服了参数化隐层空间模型需要时间代价很高的模型选择的缺陷。(4)提出了一种判别式的非参数化的隐含特征关系网络模型,可以自动推断出可能的隐特征维度,同时实现链接关系预测。在各种实际网络中的实验结果证明LFRM模型有广泛的应用场景和用途。(5)针对机器学习的基本问题特征提取,提出了一种简单而高效的方法:最大间隔数据偏移变换。该方法在原始数据中学习一个最大间隔分类器,通过建立一个特征抽取器,能够学习适用于分类任务的特征;(6)面向大数据的应用需求,提出了基于噪声扰动的支持向量机及罗杰斯特回归预测方法。该方法高效、简单,显著提高模型在二分类、多分类任务中的性能,有望用于海量复杂数据的预测任务中。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
涡度相关技术及其在陆地生态系统通量研究中的应用
粗颗粒土的静止土压力系数非线性分析与计算方法
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
特斯拉涡轮机运行性能研究综述
基于概率图模型的复杂行为识别
基于概率图模型的图像分割方法研究
基于概率图模型的数据降维算法研究
基于概率图的文本检索模型及算法研究