Community structure is one of the most essential features of real networks. Previous study mainly focused on identifying communities in networks using only links (relationship between pairs of nodes), or clustering nodes by content (features) of nodes. It is still a problem on how to make use of content of nodes and links together to detect communities in content networks high efficiently. In this project, we intended to study methods on community detection combining content and links in content networks, especially, massive content networks, present new methods and models to extract user groups and topics in Weibo networks. In summary, we will concentrate on the following studies. 1. Study on high efficent probabilistic approaches for detecting communities in networks by combining content of nodes and links together. 2. Study on NMF (Nonnegative Matrix Factorization) models for detecting communities in networks using content of nodes and links. 3. Study on high scalability community detection approaches based on sampling strategies and network sparsification on massive content networks. 4. Use the proposed models and methods to extract user groups and topics on Weibo networks constructed by Weibo users, users' followers, Weibo texts and texts' followers, and to discover communities in other content networks.
现有的复杂网络社区发现方法大都基于"社区结构"的原始约束:社区内的节点链接稠密而社区间的节点链接稀疏来检测网络中蕴含的社区,忽略了节点上的属性信息。而现实世界网络节点上常含有丰富的属性信息,如通信网络中的用户信息、通话位置、通话时长等,且两个节点可在属性上非常相似,但这两个节点间却不存在链接关系。如何同时利用网络节点间的链接关系和节点上附着的属性信息,准确、高效地发现网络、特别是大规模网络中的社区结构越来越受到人们的重视。本项目主要研究节点内容和链接相结合的高效社区发现方法及相关方法在微博网络用户群及话题识别中的应用。具体内容包括:1.基于概率模型节点内容和链接相结合的高效社区发现方法;2.基于非负矩阵分解节点内容和链接相结合的新型社区发现方法;3.基于采样策略和网络稀疏化表示的大规模网络节点内容和链接相结合的高可扩展性社区发现方法;4.相关方法在微博网用户群及话题分析等内容网络中的应用。
现实世界中的复杂系统大都可以刻画为复杂网络的形式,其中节点表示数据对象,边表示数据对象之间的关系,除此之外,节点本身常富含丰富的内容信息。如何同时利用网络节点间的链接关系和节点上附着的属性信息,准确、高效地发现网络(特别是大规模网络)中的社区结构具有重要的理论和应用价值。本项目的研究内容主要包括:1. 基于概率模型节点内容和链接相结合的高效社区发现方法;2. 基于非负矩阵分解节点内容和链接相结合的新型社区发现方法;3. 基于采样策略和网络稀疏化表示的大规模网络节点内容和链接相结合的高可扩展性社区发现方法;4. 相关方法在微博网用户群及话题分析等内容网络中的应用。. 以项目为依托,针对以上研究内容,项目取得的研究成果主要有:1. 给出了一系列高效的社区发现概率模型及融合节点属性的概率模型。2. 研究了基于非负矩阵分解NMF的社区发现方法;基于NMF与K-means的等价性,给出了高效的K-means型社区发现算法及节点内容和链接自适应融合的社区发现算法。3. 针对大规模网络研究了随机变分推理技术和在线变分期望最大化EM推理方法,给出了网络结构保持的低维表示学习方法;4. 给出了面向微博社群识别的节点属性增强的社区发现方法,给出用户兴趣增强的微博话题检测方法等。并以此为基础与企业合作,将话题发现方法用于优酷音乐自动专辑生成,在企业内部构建了一个原型系统。基于以上成果,共计发表学术论文26篇,其中SCI检索论文9篇,国内核心期刊论文11篇,国际会议论文5篇,国内会议论文1篇。另有,在审SCI期刊(Information Sciences)论文1篇。培养博士生5人,已毕业2人;培养硕士生13人,已毕业9人。项目负责人作为会议本地负责人于2017年11月组织了国内重要机器学习会议:机器学习及应用研讨会MLA17,参会代表约1200人;作为会议本地主席于2018年11月 组织了第十届亚洲机器学习国际会议ACML18,参会代表约300余人。圆满完成了项目预期的各项指标。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
跨社交网络用户对齐技术综述
黄河流域水资源利用时空演变特征及驱动要素
自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例
城市轨道交通车站火灾情况下客流疏散能力评价
面向大规模、带内容复杂网络的精准语义社团发现研究
融合网络拓扑与结点、链接属性的重叠社区发现方法研究
基于动态节点运动的网络社区发现方法研究
在线网络社区话题内容与社区结构协同演化机理与验证方法研究