基于复杂网络的中文文本语义相似度研究

基本信息
批准号:71373200
项目类别:面上项目
资助金额:56.00
负责人:刘怀亮
学科分类:
依托单位:西安电子科技大学
批准年份:2013
结题年份:2017
起止时间:2014-01-01 - 2017-12-31
项目状态: 已结题
项目参与者:王亚民,孙蕾,赵辉,张倩,周德志,范云杰,左晓飞,杨志墨
关键词:
语义相似度本体特征选择复杂网络
结项摘要

In order to solve the problem of knowledge deficiency of massive information retrieval and semantic lose of traditional vector space model, according to Chinese language characteristics of paying great attention to meaning and despising the forms, this project wants to introduce the theory of complex network into the study of the calculation of Chinese text semantic similarity, expecting to build the mass text library community network model based on the complex network and study its text polymerization mechanism, community division algorithm, community discovery algorithm, etc. And the semantic association text is presented as knowledge map based on it. The weighted complex network of a single document is built to represent the semantic and the word relatedness based on ontology is used to measure the semantic relationship between text feature words. The word relatedness represents the weight of edges. Therefore the semantic and the structure information of the text are reserved. Analyzing the structure of the text with the feature of complex network, extracting the keyword that could reflect the theme of the document as feature word on the basis of node comprehensive characteristic, thus realizing the text complex network optimization refactoring. This project semantically markups the feature word node by introducing the word sense disambiguation technology and calculates the text similarity by using the theory of max-common subgraph. The algorithm of Chinese text similarity based on complex network is proposed in this subject, thus providing support for Chinese text processing based on semantic level.

为解决海量信息检索中知识匮乏、传统向量空间模型表征文本时语义缺失问题,针对中文文本"重意合、轻形式"的语言特点,本项目拟将复杂网络理论引入到中文文本语义相似度计算研究中,期望基于复杂网络建立海量文本库社区网络模型,研究其文本聚合机制、社区划分算法、社区发现算法等,以此为基础将语义关联文本以知识地图形式进行呈现;通过构建单一文本加权复杂网络模型对其进行语义表示,采用基于本体的词语相关度衡量文本特征词间语义关系,以此代表特征词连接边的权重,从而保留文本的语义信息及结构信息;利用复杂网络的网络特性对文本进行结构分析,以节点综合特性为依据,提取能够反映文本主题的关键词作为文本特征词,实现对文本复杂网络的优化重构;通过引入词义消歧技术对特征词节点进行语义标注,结合最大公共子图理论提取文本的公共部分以衡量文本间的相似度,提出基于复杂网络的中文文本相似度算法,从而为基于语义层次的中文文本处理提供支持。

项目摘要

为解决向量空间模型中文本结构和语义信息缺失,知识信息资源共享机制差的问题。将复杂网络理论引入到中文文本分类过程中,以词语间的词同现关系为基础构建单一文本加权复杂网络来表示中文文本,首先提出了两种方法对海量文本库中的社区进行检测以帮助挖掘复杂网络的结构和功能;进而利用构建的文本复杂网络模型来保留词语间的语义相关信息,利用其能够发现重叠簇的特性,以解决标签的语义模糊性,同时有效缓解了数据稀疏性问题。通过复杂网络的小世界特性和改进的TFIDF特征权重计算方法进行文本特征选择,利用节点综合特性提取反映文本主题的关键词作为文本的特征词,以优化文本网络结构,降低文本网络复杂性。引入知网和维基百科在复杂网络表示文本表示下进行文本相似度计算,以此减少语义流失。运用开放的语料库进行实验,结果表明这些方法都有效的提高了文本分类精度并实现了语义层次的文本信息的深度挖掘。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

涡度相关技术及其在陆地生态系统通量研究中的应用

涡度相关技术及其在陆地生态系统通量研究中的应用

DOI:10.17521/cjpe.2019.0351
发表时间:2020
2

监管的非对称性、盈余管理模式选择与证监会执法效率?

监管的非对称性、盈余管理模式选择与证监会执法效率?

DOI:
发表时间:2016
3

跨社交网络用户对齐技术综述

跨社交网络用户对齐技术综述

DOI:10.12198/j.issn.1673 − 159X.3895
发表时间:2021
4

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

DOI:10.12054/lydk.bisu.148
发表时间:2020
5

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022

刘怀亮的其他基金

批准号:70503022
批准年份:2005
资助金额:17.00
项目类别:青年科学基金项目

相似国自然基金

1

基于语义的中文文本聚类研究

批准号:60772081
批准年份:2007
负责人:施水才
学科分类:F0113
资助金额:30.00
项目类别:面上项目
2

中文网络文本的地理实体语义关系标注与评价

批准号:41801320
批准年份:2018
负责人:余丽
学科分类:D0114
资助金额:23.40
项目类别:青年科学基金项目
3

基于词汇语义网络的中文深层语义分析

批准号:61872402
批准年份:2018
负责人:邵艳秋
学科分类:F0211
资助金额:64.00
项目类别:面上项目
4

社交媒体中文本情感语义计算理论和方法

批准号:61632011
批准年份:2016
负责人:秦兵
学科分类:F0211
资助金额:265.00
项目类别:重点项目