Academic resources are the carrier of scholarly knowledge system. Academic text mining is an important issue in the field of information science. Knowledge entities in academic resources form clusters prevalently, including concept clusters, academic literature clusters and scientific communities. Different from the clusters consisting of a single type of knowledge entities, this project focuses on a new kind of knowledge community structure with different types of knowledge entities due to their objective semantic and structural relationships. This project thus studies on identifying and characterizing potential knowledge communities. The representation of knowledge entities suffers from the problems about comprehensiveness, consistency and feature selection, which is the biggest challenge to knowledge community detection. Based on the extraction of knowledge entities and the clarification of their structural relationships, this topic represents academic resource with an academic heterogeneous network. By using the principles of scientometrics and the analysis of network structure to reveal the proximity of knowledge entities, this project proposes a neural network framework of scholarly heterogeneous network embedding to learn uniform representation for different types of knowledge entities. According to the multidimensional features of knowledge entities, fuzzy clustering is applied to identify knowledge communities and then visual tools are used to reveal the logical connotation of structural relationships and semantic features. Finally, a knowledge community discovery prototype system is developed and case studies in specific subject areas are conducted.
学术资源是学术知识系统的载体,学术资源挖掘是情报学领域关注的重要问题。学术资源中广泛存在着由知识实体聚集形成的群体结构,诸如概念簇群、学术文献聚类和科研社群等。区别于单类知识实体的集群结构,本项目关注不同类型知识实体因其客观语义和结构关联而组成的知识群落结构,发现和表征潜在的知识群落。知识实体表示的全面性、一致性和特征选择等方面的问题,是知识群落发现面临的最大挑战。本课题在抽取知识实体和厘清知识实体的结构关系基础上,将学术资源表达为学术异质网络;综合运用科学计量相关原理和网络结构分析方法揭示知识实体的临近性,以此提出学术异质网络表示学习的神经网络模型,实现不同类型知识实体的统一表示;根据知识实体多维特征,采用模糊聚类识别知识群落,并辅之于可视化工具,揭示其结构关系和语义特征的逻辑内涵;开发知识群落发现原型系统,并针对特定学科领域展开实例分析。
学术信息资源的数据建模和知识表示是学术资源挖掘的关键基础问题。本项目关注不同类型知识实体因其客观语义和结构关联而组成的知识群落结构,借助复杂网络建模方法构建知识网络模型,并研究其表示学习方法,基于此发现和表征潜在知识群落。本课题首先研究了知识实体的定义与抽取、知识实体的结构关系梳理与度量、学术异质网络模型构建的基本过程和表示方法;其次,借助神经网络模型提出了一种融合知识实体临近关系的学术异质网络表示学习方法;然后,在不同类型知识实体的统一表示基础上,利用聚类算法识别知识群落。鉴于学术异质网络和表示学习方法在情报挖掘任务的方法流程中的通用性和基础性,课题组进一步将其应用于论文推荐、跨学科知识交互与知识传播、新兴主题预测等学术资源挖掘任务,提出了一系列创新方法。本课题研究成果对于知识组织、科技情报挖掘具有理论与学术价值,在科技情报分析、数字图书馆服务、科技管理等方面具有潜在的应用价值。. 课题组已发表20篇期刊论文(其中中文论文12篇、SCI/SSCI 8篇)和9篇国际会议论文,取得1项发明专利授权,构建了学科领域知识群落发现原型系统,并申请1项软件著作权,获得省级科研奖励1项,项目负责人入选第四届中国科协青年人才托举工程。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
跨社交网络用户对齐技术综述
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
城市轨道交通车站火灾情况下客流疏散能力评价
基于细粒度词表示的命名实体识别研究
基于高阶张量表示和压缩谱嵌入的多层异质网络社区发现方法研究
数据开采中的知识表示和知识发现方法研究
基于知识异质性团队的异质性知识网络研究
异质信息网络的多粒度表示与知识获取方法研究