时间语义信息处理是自然语言理解的一个重要任务。目前的研究由于语料库标注一致性低和TempEval评测尚不标准和科学,受到了很大制约。本课题旨在从自动选择标注对象入手,研究有效改进语料库标注质量和克服TempEval评测不足的方法,针对汉语系统地研究时间语义信息处理的理论、方法和技术;重点对影响标注对象确定的关键因素进行测试和分析,探索一种基于关键因素的自动选择标注对象的方法;全面收集和挖掘实际可操作的时间信息表达和传递的规律;研究并实现适合汉语特点的事件时间属性的确定和事件间时序关系识别和推理的方法;谋求在汉语时间语义信息处理技术上有所突破,为进一步建立事件语义链的研究提供新思路和新方法。
时间关系从事件发生、发展的角度反映了现实世界随时间发生的变化,是语义信息处理的重要方面。从处理的文本范围来看,时间关系可分为局部时间关系和全局时间关系。前者指在句子内或邻接句子间的时间关系,后者指整篇或多篇文本中确定所有时间关系。目前的研究大多围绕TempEval国际评测中的局部时间关系进行。. 本项目以全局时间关系识别为最终目的,做了以下工作:(1)针对汉语从词汇、主从句、句子之间等几个角度全面总结归纳了汉语时间信息表达和传递规律。(2)围绕TempEval国际评测任务进行汉语局部时间关系的研究,包括:时间表达式的识别、事件及属性的识别、同句中时间-事件的关系、同句中事件-事件关系、相邻句主要事件之间的关系、文中事件-文档创建时间(DCT)的关系的识别。(3)重新考虑了排序对象,提出从时间片段和主题片段入手来识别时间关系,克服评测任务定义不够合理,所得时间关系不符合语义逻辑的局限。时间片段指时间焦点一致的语言片段,可以涉及多个事件。主题片段指主题焦点一致的语言片段。这两种语义单元比事件触发词语义粒度粗。本项目采用基于规则的方法和分类思想识别时间片段和主题片段,并对所提方法在TempEval-2010的汉语语料上进行了实验,时间片段的识别准确率达79.75%,主题片段的识别准确率为76.74%,基于主题片段的时间关系识别准确率为75.6%。结果表明:①通过引入时间片段统一处理同一时间焦点的事件,从而避免同句或相邻句中事件之间关系的冗余识别,可有效减少不必要的时序关系的识别;②通过主题片段决定排序范围,使获得的时间关系更加符合语义逻辑,可理解性更好。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于图卷积网络的归纳式微博谣言检测新方法
时间序列分析与机器学习方法在预测肺结核发病趋势中的应用
常用哮喘动物模型的建立
基于关系对齐的汉语虚词抽象语义表示与分析
基于卷积神经网络的链接表示及预测方法
汉语框架语义角色自动标注技术研究
汉语语义角色标注方法研究
基于概念格粒分析的图像语义自动标注方法研究
汉语语义选择限制知识自动获取及其应用研究