如何快速、准确地识别每篇文献的核心主题,分析出各个主题之间的结构关系,是文本挖掘中的一个重要研究课题。对每篇文献中的各个主题进行中心度计算,根据主题中心度区分各个主题的重要性,进而实现文献内容的表征是本研究提出的解决上述课题的一条新思路。为了实现这一思路,有两个核心问题需要解决:(1)如何构建文献的语言网络;(2)如何基于语言网络实现主题中心度的计算。项目将根据这两个问题,进行三个方面的研究:(1)以单篇文本为研究对象,以文本中的术语为知识单元,构建融合统计、语法、语义三个层次的底层文本加权网络;(2)基于文本语言网络特点,对现有网络中心度计算方法进行改进,提出术语中心度的计算方法,以识别核心术语;(3)提出基于文本语言网络特点的术语簇中心度的计算方法,实现核心术语簇识别。最终目标是快速、准确地揭示文本的核心主题(术语、术语簇)、一般主题及其相关关系,有效提高文本内容的主题理解能力。
项目的研究目标是基于语言网络揭示文本主题及其相关关系,以提高对文本内容的主题发现能力。项目重点针对基于语言网络的文本表示模型构建、文本语言网络分析及主题发现两个重点问题开展了研究,提出了两条完整的语言网络构建及文本主题识别方法,探索了其它多种基于语言网络分析实现文本主题挖掘的方法,并进行了实验和应用研究。项目研究成果主要有:(1)完整提出和实现了“基于多重关系的语言网络构建及多指标决策的文本主题中心度计算方法”。该方法以文档中领域术语为知识单元,基于术语节点间共现、语法、语义的多重关系构建语言网络模型,结合文本主题角色模型,依照节点的自身属性特征和网络中心度特征,基于多指标决策规则进行文本主题角色的识别。实验表明这一方法有效揭示了文本主题,得到的结果更接近摘要的主题表达。(2)完整提出和实现了“基于对象网格的文本网络表示和核心知识单元识别方法”。这一方法在前者基础上扩展了知识单元的范围,以单篇文本中包含的各类具有实际语义的命名实体和领域术语为知识单元,基于知识单元特征及其多重关系,将文本转化为可计算的知识单元网格,通过挖掘分析知识对象在网格中的分布规律,识别其中的重要知识对象,并通过具有关联的重要知识对象构建连续语义块形成文本的子知识簇,最终识别文献的核心知识单元。实验证明该方法对识别网络科技信息监测中的重要知识单元有重要的价值。(3)在上述两个完整研究的基础上,进一步探索了其它多种基于语言网络分析实现文本主题挖掘的方法。包括:基于词汇链的文本表示及主题识别方法、基于团(Clique)聚类的文本主题识别方法、基于路径分析的主题演化识别方法和基于事件的主题探测方法等,这些方法的研究形成了相关研究报告,并成为了多个博士生的博士研究课题,到目前已经取得了部分研究成果。(4)通过实践研究,实现研究成果的应用转化。除上述多种方法的实验研究外,项目组还进行了实践研究,一方面,基于上述多种技术构建了基于语言网络分析实现文本主题挖掘揭示的应用示范系统,另一方面,将相关的研究成果应用于网络科技信息监测,支持中国科学院科技信息监测服务体系的构建,以揭示网络科技信息中特定情报对象的主题网络关系和对象网络关系。项目共发表17篇期刊论文(其中11篇见刊,6篇接收待发表),2篇国际会议论文,2篇博士论文,完成了相关研究任务,取得了丰富的研究成果,形成了基于语言网络实现文本主题挖掘的理论方法体系
{{i.achievement_title}}
数据更新时间:2023-05-31
涡度相关技术及其在陆地生态系统通量研究中的应用
DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素
跨社交网络用户对齐技术综述
自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
多语言智能文本处理中基于主题语义空间的文本表示研究
高性能基于主题的文本聚类研究
基于元信息关联网络的半结构短文本主题语义建模研究
基于复杂网络的中文文本语义相似度研究