基于语言网络的文本主题中心度计算方法研究

基本信息

批准号：61075047

项目类别：面上项目

资助金额：35.00

负责人：张智雄

学科分类：

依托单位：中国科学院文献情报中心

批准年份：2010

结题年份：2013

起止时间：2011-01-01 - 2013-12-31

项目状态：已结题

项目参与者：丁颖,吴振新,乐小虬,赵华铭,付鸿鹄,许雁冬,周强,刘建华,吴思竹

关键词：

中心度计算术语中心度主题表示语言网络术语簇中心度

结项摘要

如何快速、准确地识别每篇文献的核心主题，分析出各个主题之间的结构关系，是文本挖掘中的一个重要研究课题。对每篇文献中的各个主题进行中心度计算，根据主题中心度区分各个主题的重要性，进而实现文献内容的表征是本研究提出的解决上述课题的一条新思路。为了实现这一思路，有两个核心问题需要解决：（1）如何构建文献的语言网络；（2）如何基于语言网络实现主题中心度的计算。项目将根据这两个问题，进行三个方面的研究：（1）以单篇文本为研究对象，以文本中的术语为知识单元，构建融合统计、语法、语义三个层次的底层文本加权网络；（2）基于文本语言网络特点，对现有网络中心度计算方法进行改进，提出术语中心度的计算方法，以识别核心术语；（3）提出基于文本语言网络特点的术语簇中心度的计算方法，实现核心术语簇识别。最终目标是快速、准确地揭示文本的核心主题（术语、术语簇）、一般主题及其相关关系，有效提高文本内容的主题理解能力。

项目摘要

项目的研究目标是基于语言网络揭示文本主题及其相关关系，以提高对文本内容的主题发现能力。项目重点针对基于语言网络的文本表示模型构建、文本语言网络分析及主题发现两个重点问题开展了研究，提出了两条完整的语言网络构建及文本主题识别方法，探索了其它多种基于语言网络分析实现文本主题挖掘的方法，并进行了实验和应用研究。项目研究成果主要有：（1）完整提出和实现了“基于多重关系的语言网络构建及多指标决策的文本主题中心度计算方法”。该方法以文档中领域术语为知识单元，基于术语节点间共现、语法、语义的多重关系构建语言网络模型，结合文本主题角色模型，依照节点的自身属性特征和网络中心度特征，基于多指标决策规则进行文本主题角色的识别。实验表明这一方法有效揭示了文本主题，得到的结果更接近摘要的主题表达。（2）完整提出和实现了“基于对象网格的文本网络表示和核心知识单元识别方法”。这一方法在前者基础上扩展了知识单元的范围，以单篇文本中包含的各类具有实际语义的命名实体和领域术语为知识单元，基于知识单元特征及其多重关系，将文本转化为可计算的知识单元网格，通过挖掘分析知识对象在网格中的分布规律，识别其中的重要知识对象，并通过具有关联的重要知识对象构建连续语义块形成文本的子知识簇，最终识别文献的核心知识单元。实验证明该方法对识别网络科技信息监测中的重要知识单元有重要的价值。（3）在上述两个完整研究的基础上，进一步探索了其它多种基于语言网络分析实现文本主题挖掘的方法。包括：基于词汇链的文本表示及主题识别方法、基于团（Clique）聚类的文本主题识别方法、基于路径分析的主题演化识别方法和基于事件的主题探测方法等，这些方法的研究形成了相关研究报告，并成为了多个博士生的博士研究课题，到目前已经取得了部分研究成果。（4）通过实践研究，实现研究成果的应用转化。除上述多种方法的实验研究外，项目组还进行了实践研究，一方面，基于上述多种技术构建了基于语言网络分析实现文本主题挖掘揭示的应用示范系统，另一方面，将相关的研究成果应用于网络科技信息监测，支持中国科学院科技信息监测服务体系的构建，以揭示网络科技信息中特定情报对象的主题网络关系和对象网络关系。项目共发表17篇期刊论文（其中11篇见刊，6篇接收待发表），2篇国际会议论文，2篇博士论文，完成了相关研究任务，取得了丰富的研究成果，形成了基于语言网络实现文本主题挖掘的理论方法体系

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.11842/wst.20190724002

发表时间：2020

DOI：10.13199/j.cnki.cst.2020.07.010

发表时间：2020

DOI：10.3724/SP.J.1089.2019.17435

发表时间：2019

DOI：10.3969/j.issn.1674-0696.2020.10.20

发表时间：2020

DOI：10.11936/bjutxb2021010011

发表时间：2021

张智雄的其他基金

相似国自然基金

多语言智能文本处理中基于主题语义空间的文本表示研究

批准号：60372016

批准年份：2003

负责人：赵军

学科分类：F0113

资助金额：22.00

项目类别：面上项目

高性能基于主题的文本聚类研究

批准号：60703058

批准年份：2007

负责人：赵颖

学科分类：F0201

资助金额：20.00

项目类别：青年科学基金项目

基于元信息关联网络的半结构短文本主题语义建模研究

批准号：61702367

批准年份：2017

负责人：王嫄

学科分类：F0211

资助金额：27.00

项目类别：青年科学基金项目

基于复杂网络的中文文本语义相似度研究

批准号：71373200

批准年份：2013

负责人：刘怀亮

学科分类：G0414

资助金额：56.00

项目类别：面上项目

基于语言网络的文本主题中心度计算方法研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于文献计量学和社会网络分析的国内高血压病中医学术团队研究

智能煤矿建设路线与工程实践

信息熵-保真度联合度量函数的单幅图像去雾方法

含饱和非线性的主动悬架系统自适应控制

城市生活垃圾热值的特征变量选择方法及预测建模

张智雄的其他基金

相似国自然基金