语义相关性度量是自然语言处理(NLP)中的基础问题。目前相关性的研究主要限于"词对相关性",且计算方法与评测手段均独立于待分析文本,而相关度与文本的语义是密切相关的。复杂网络在语言学及NLP中已有初步应用,能发掘出传统方法难以探测到的文本内深层信息。根据NLP任务的普遍需要,本项目提出包括"词与短文本之间的语义相关性计算"等5项相关性计算任务,且要求相关度计算结果符合文本的语义。采用复杂网络作为背景知识表示,完成这5项相关性计算。采用两类方法评测:1)设计心理学试验,获取针对文本语义的人类直觉数据,采用合适的参数,产生评测平台,对比计算获得的各项相关度与人类直觉相符程度;2)在关键词抽取和信息检索两个任务中评价计算获得的相关度的应用效度。本研究有望克服传统方法依赖人工资源,对数据稀疏敏感,难以处理未登陆词和变体词等局限性,推进语义相关性的研究,对从语义上突破NLP的众多任务有着重要意义。
语义相关性度量是自然语言处理(NLP)中的基础问题。目前相关性的研究存在的问题是:计算方法与评测手段均独立于待分析文本的语义,而相关度与文本的语义是密切相关的。根据NLP任务的普遍需要,本项目提出包括"词与短文本之间的语义相关性计算"等词语语义相关性计算任务。复杂网络在语言学及NLP中已有初步应用,能发掘出传统方法难以探测到的文本内深层信息。本项目采用复杂网络作为一种背景知识的半精确表示,基于该网络,利用复杂网络研究领域的一些概念,实现词语的语义相关性的度量,在实现的过程中,我们力求设计符合待分析文本的语义的计算方法,并以针对复杂查询的信息检索任务为检验手段,检验基于网络的相关性度量方法的效度。. 本项目在以下几个方面取得了成果:1)超大型语义场网络(关键词同现网络,KTCN)的获取;2)KTCN的若干复杂网络特性调查;3)基于复杂网络研究领域的若干概念的词语语义相关性度量方法及其在针对复杂查询的信息检索中的应用;4)探讨多文档的基本要素网络的连通性与多文档信息融合之间的关联;5)权值网络的社团发现方法及“相对重要社团”发现方法;6)扩展工作:探讨复杂网络在篇章连贯性度量方面的应用、探索网络基于自身信息的精确化演化,等等。并且,我们发现了一些有价值的相关研究点。. 本项目的主要意义是推进语义相关性的研究,这在众多的NLP研究任务或者实际工程是有意义的。在项目中,我们强调:1)研究对象不限于一对词之间的相关度(词对相关度),相反,词与(短)文本之间的相关度、词群的中体相关度等是重点问题;2)网络来自真实的语料而非人工知识;3)网络是介于原始语料和人工知识之间的一种半精确知识表示,这种网络本身也是一种特殊形式的语料;在该表示方法上,模型和算法是重要的研究点,度量结果符合文本的语义是我们的目标;4)网络既能表达通用背景知识的能力,也具备表示领域背景知识的能力;5)对复杂网络领域的概念和语言学中的“语义场”的概念的借鉴,目的是一定程度上克服数据稀疏的问题。
{{i.achievement_title}}
数据更新时间:2023-05-31
涡度相关技术及其在陆地生态系统通量研究中的应用
跨社交网络用户对齐技术综述
基于SSVEP 直接脑控机器人方向和速度研究
自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例
基于多模态信息特征融合的犯罪预测算法研究
基于概率度量空间的词表示及词语相关性度量研究
后外侧颞叶皮层在动词语义加工中的作用
超度量空间在复杂系统层级聚类中的应用
复杂语义环境下网络资源聚合模型及其应用研究