To deal with the serious “information overload” caused by explosive scientific publications, an intelligent academic search engine becomes a must for boosting the scientific advancements. Facing the reality of “lack of semantics”, this project aims to establish a new research paradigm for academic recommendation and search based on semantic science citation indexing, and developing the key technologies for integrating the semantics of scientific communications into academic ranking and search. The main research highlights of this project are as follows: targeting at the multinomial academic relations in the heterogeneous semantic academic network, we propose a co-ranking algorithms based on the semantic hypergraph model to rank multinomial academic relations and heterogeneous academic entities simultaneously for academic recommendation; targeting at the latent structures emerged during the process of scientific communication, we propose a constraint multi-manifold ranking algorithm based on the community structures in heterogeneous network and the sociality-regularized non-negative tensor/matrix factorization algorithms based on an extended collaborative filtering framework for academic recommendation; targeting at the usability of automatic academic recommendation, we propose two tools for exploratory academic search, the evolutionary citation network and the semantic citation genealogy which reflect the knowledge structure and development threads of a scientific domain. Standing at the cross-point of interdisciplinary studies, this project develops novel ideas and core techniques for establishing a future intelligent academic search engine, so it has both theoretical and practical significances.
为克服科技文献数量爆炸式增长带来的严重“信息过载”,智能学术搜索引擎已上升为促进人类科学发展的必然需要。针对“语义缺失”的现状,本课题旨在建立一种基于语义科学引文索引的学术推荐和检索的新范式,研究在学术推荐和检索中融合科学人际交流语义的关键技术。本项目的主要创新如下:针对异质语义学术网络中的多元社会关系,提出了以语义学术超网络为基本模型的多元学术关系和异质学术对象的协同排序算法,实现学术推荐;针对科学人际交流过程中形成的隐含结构,提出了基于异质语义学术网络社区结构的带约束的多网络协同流形排序算法和基于扩展的协同过滤问题框架的社会化非负张量/矩阵分解算法,实现学术推荐;针对自动学术推荐的可用性,提出了进化引用网络和语义引用族谱反映科学领域知识结构和发展脉络,实现探索式学术检索。本项目站在学科新兴的结合点上,提出了面向未来智能学术搜索引擎的新思路和关键技术,在理论和实践两方面都有重要意义。
增长大大增加了科研人员的认知负载。智能学术搜索引擎能大大提高科研人员理解科学领域发展和从事科研创新的效率。本课题的主要研究内容包括三点。O1: 异质学术网络科学评价与推荐算法。主要内容包括异质学术网络的建模及相关评价和推荐算法的研发。O2: 基于进化引用网络的探索式文献检索。主要内容包括进化引用网络的及其算法框架及其实现。O3: 科学文献语义资源库的初步建设。主要内容包括科学文献语义资源的本体建设及基本科学文献语义对象的抽取。针对第一点,本项目系统研究了一系列异质学术(社会)网络的建模方法,包括对时间因素更加鲁棒的联合矩阵建模及MutualRank算法、对多维关系的张量建模及Higher-Order MultualRank算法、对多元多维关系的异质超网建模及相关算法(HHGRank和HHGBiRank),并开源了相关评测集与工具包。针对第二点,首次提出了“进化引用网络”这个概念来刻画科学发展的历程,其对动态演化性的强调使其从方法论和指向性上都本质上区别于“骨架网”等其他表征。本项目提出并大体实现了一个进化引用网络的抽取框架,首先基于科学知识的生产、积累、传播和衰减等四个认知假设提出了动态学术网络上的排序算法和里程碑论文发现算法,其次从科学传播的角度提出了一系列对科学影响的传播主路径及主路径网络的识别算法,最后在提出了一个基于里程碑论文和最优主路径的进化引用网络抽取算法。针对第三点,初步完成了科学文献深度语义资源库的Alpha版,以科学发展和学术创新为侧重点,主要对科学文献中的“问题”和“方法”(包括“对比”方法)两类实体以及问题间、方法间和问题-方法间的实体关系进行建模和识别。为建设数据集,爬取、处理并标注了数百篇自然语言处理领域论文,训练了条件随机域和深度神经网络分类器,对实体和关系进行识别。面向计算语言学和图书馆情报学的大规模数据集正在建设中。阶段性成果为深入开展科学文献知识挖掘研究奠定了扎实基础。
{{i.achievement_title}}
数据更新时间:2023-05-31
跨社交网络用户对齐技术综述
基于多模态信息特征融合的犯罪预测算法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
城市轨道交通车站火灾情况下客流疏散能力评价
基于FTA-BN模型的页岩气井口装置失效概率分析
基于多语义信息融合的学术文献引文推荐研究
中文科学引文索引数据库
基于深度语义挖掘的引文推荐多样化研究
基于科学引文数据的耦合网络演化与预测研究