Selectional preference describes the semantic preference of the predicate for its arguments. It is an important lexical knowledge which can be applied to syntactic parsing, semantic role labeling, word sense disambiguation, anaphora resolution, metaphor computation, and many other natural language processing tasks. But hand crafted selectional preference knowledge base can not well meet the requirement of large scale text processing. This project studies the automatic acquisition and application of Chinese selectional preference. Firstly, on knowledge acquisition, we propose a selectional preference model incorporating Chinese features, combining Chinese word formation and character formation with corpus and lexicon for argument similarity computation. We build a basic collocation base with multiple knowledge sources and a gold-standard test set for model evaluation. Secondly, on knowledge representation, to improve the poor interpretability of word level selectional preference, we transform the knowledge to semantic level through semantic class mapping. We build a selectional preference knowledge base and explore related linguistic patterns. Thirdly, on knowledge application, we introduce selectional preference into the machine learning framework for metaphor recognition, and make quantitative analysis on the relation between metaphor and selectional preference.
语义选择限制刻画谓语对论元的语义选择倾向,是一种重要的词汇语义知识,对句法分析、语义角色标注、词义消歧、指代消解、隐喻计算等自然语言处理任务都有重要作用。手工构建的语义选择限制知识库不能很好地满足大规模文本处理的需要,本项目研究汉语语义选择限制知识的自动获取及应用,内容包括:(1)知识获取方面,提出结合汉语特色的语义选择限制获取模型,把汉语构词与汉字部首等特点与语料库分布、词典知识结合起来计算论元相似度,基于多知识源构建基础搭配库,研制标准测试集对模型进行评价。(2)知识表示方面,针对词语层面的语义选择限制知识可理解性差的缺点,通过语义类映射将其转化为语义类层面的知识,从而提高知识的可理解性,构建语义选择限制知识库并总结语言规律。(3)知识应用方面,把自动获取的语义选择限制知识融入机器学习框架进行隐喻识别,在大规模隐喻识别基础上对隐喻与语义选择限制之间的关系进行定量分析。
语义选择限制是一种重要的词汇语义知识,对自然语言的句法语义分析有重要作用。本项目围绕汉语语义选择限制知识的自动获取及应用,主要研究了以下三个方面的内容:(1)知识获取方法及评测,提出基于词语相似度的语义选择限制获取方法、基于神经网络的语义选择限制获取方法以及基于LDA的语义选择限制获取方法,构建伪消歧评测数据集对方法进行评价。考察了基于多源知识的汉语词语相似度计算方法。(2)知识表示及知识库建设,提出基于语义分类体系及最小描述长度MDL原则的优选语义类获取方法,将知识抽象到语义类层面,构建语义选择限制知识库,知识库包含常用双音节动词4681个,对现有的语义分类体系进行了改造。(3)知识在隐喻识别中的应用,提出基于机器学习方法的隐喻识别,定量分析了隐喻与选择限制的关系。隐喻是一个复杂的现象,单纯基于选择限制识别隐喻还不够,还需要考虑词语抽象性及历时因素。提出基于跨语言知识迁移的词语抽象性度量方法并用于隐喻识别,基于历时词向量考察了词语隐喻义的发展变化,构建了隐喻搭配库及标注语料库。围绕上述工作,项目组成员在国内外期刊会议上发表论文30篇,其中SCI论文1篇,EI论文11篇,中文信息学报论文6篇,1篇论文获得CLSW2015唯一最佳论文。所构建的语义选择限制知识库及隐喻知识库已提供给北京大学、北京语言大学等研究单位使用。
{{i.achievement_title}}
数据更新时间:2023-05-31
涡度相关技术及其在陆地生态系统通量研究中的应用
监管的非对称性、盈余管理模式选择与证监会执法效率?
基于SSVEP 直接脑控机器人方向和速度研究
自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
汉语语义知识获取与语义计算模型研究
汉语句法排歧知识的自动获取方法研究
汉语篇章框架语义关系网自动抽取及其语义推理
基于RoughSet的自动知识获取技术及应用研究