Scope determination deals with analyzing what part of a given sentence is under user's interest while focus identification further analyzes the specific object in which the user is mostly interested. As a fundamental issue in deep semantic parsing at sentence level, these two closely related and complementary tasks have many potential applications in natural language processing. The study of scope determination, however, currently focuses on chunking-based approaches and fails to effectively explore structured syntactic information while the research of focus identification just emerges. Within the guidance of linguistic theory, this project targets at the key issues of scope determination and focus identification from various aspects, such as computational modeling, exploring of structured syntactic information and managing of imbalanced data. The main content of this project includes: 1) a computational modeling framework for scope determination via shallow semantic parsing, 2) tree kernel-based scope determination, 3) focus identification using competition learning and centering theory, and 4) various solutions to imbalanced data from both data level and algorithm level. Last but not least, the project also aims to eliminate the performance gap between Chinese and English by constructing high-quality corpora for both scope determination and focus identification in Chinese.
覆盖域界定和聚焦点识别研究分别从作用面和作用点两个层面确定用户感兴趣的文本片断和关注对象,相互补充,相辅相成,在自然语言处理研究中具有广泛的应用价值,是实现句子级深层语义理解的重要基础之一。目前,覆盖域界定研究在建模和有效利用结构化句法信息的方面存在缺陷,聚焦点识别研究刚起步。本课题将在语言学理论指导下,从建模、结构化句法信息利用和数据不平衡问题研究等多个角度,深入研究自然语言处理中的覆盖域界定和聚焦点识别问题。主要研究内容包括:1)基于浅层语义分析的覆盖域界定模型;2)基于树核函数的覆盖域界定研究;3)基于竞争机制和中心理论的聚焦点识别研究;4)面向数据层面和算法层面的数据不平衡解决方案。同时,针对中文语料库缺乏问题,本课题将构建一定规模的高质量中文覆盖域界定和聚焦点识别语料库,深入开展中文覆盖域界定和聚焦点识别研究,缩短与英文相关研究的差距。
本课题在研究自然语言中否定语义和不确定语义表示结构的基础上,提出了新颖的覆盖域和聚焦点识别方法和计算模型,实现了一个高性能的覆盖域界定和聚焦点识别系统,性能达到国际领先水平,为将来的进一步研究打下了扎实的基础。.三年来,课题总体进展顺利,所有研究计划已按要求完成,达到预期目标。特别是:.1)在覆盖域界定方面,揭示了平面化句法特征与结构化句法特征在覆盖域界定模型中的不同作用,采用完全子树和关键路径两类句法结构,提出了一个基于卷积树核的融合模型,并借助触发词词性驱动的多分类器融合策略,优化覆盖域界定系统性能。在BioScope语料库上,覆盖域界定性能提高约5%。此外,提出了基于卷积神经网络的覆盖域界定模型,性能再提高了约2%。.2)在聚焦点识别方面,提出了基于“词-主题”的双层结构图模型的聚焦点识别方法,利用上下文中的线索及特征来识别聚焦点,此外,作为无监督模型,该方法避免了人工标注的开销。在SEM’2012评测语料上的实验表明,聚焦点识别的性能比该评测最优系统提高了约6%。.3)在面向汉语的覆盖域界定和聚焦点识别研究方面,构建了一个较大规模的完备的汉语语料库CNeSp,并借助汉语词素特征和跨语言触发词扩展技术,优化了汉语触发词识别方法,在CNeSp语料库上性能提高约3%。此外,借助元决策树模型,有效融合了序列化特征和结构化特征,实现了面向汉语的覆盖域界定系统,在CNeSp语料库上的性能平均达到60%。.研究成果方面,本课题发表SCI索引源期刊论文1篇、EI索引源期刊论文4篇、国际顶级会议ACL/IJCAI/EMNLP/COLING论文8篇;获得软件著作权2项、专利3件。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
粗颗粒土的静止土压力系数非线性分析与计算方法
拥堵路网交通流均衡分配模型
内点最大化与冗余点控制的小型无人机遥感图像配准
中国参与全球价值链的环境效应分析
基于自然语言处理语义分析技术的蛋白质远同源性检测和折叠识别
汉语语篇中语句焦点和焦点-重音投射
自然语言处理中基于矩阵的结构化学习研究
自然语言处理中语言元素的非齐次属性研究