基于翻译学习和核方法的中文模糊限制信息检测研究

基本信息
批准号:61272375
项目类别:面上项目
资助金额:80.00
负责人:周惠巍
学科分类:
依托单位:大连理工大学
批准年份:2012
结题年份:2016
起止时间:2013-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:亢世勇,马建军,臧师竹,何蛟,王伟,刘晓霞,李瑶,张严
关键词:
核方法中文模糊限制信息检测迁移学习翻译学习
结项摘要

As an essential important step of information extraction, hedge detection is used to distinguish factual and uncertain information to avoid extracting speculative information as factual information. In recent years, extensive research has been done on automatic hedge detection from English texts. Meanwhile, hedges are widely used in Chinese texts of various fields, and the research on hedge detection from Chinese tests is, therefore, of essential importance in Chinese information extraction. In this work, translated learning methods are exploited for cross-language learning to identify Chinese hedge sentences based on English training data in the biomedical domain, transfer learning methods are exploited to transfer the knowledge extracted from Chinese biomedical domain to the other domain to solve cross-domain hedged sentences identification, Chinese hedge corpora are designed and constructed, and flat features and structured features of syntactic and semantic information are extracted to train a hedge scope detection model by the convolution tree kernel which consists of a polynomial kernel and a convolution tree kernel. In a word, the research of cross-language and cross-domain hedged sentences identification will provide both a theoretical foundation and specific methods for knowledge transferring and spreading, and the research in Chinese hedge detection will improve the truth and accuracy of Chinese information extraction.

作为信息抽取的一个重要环节,模糊限制信息检测旨在区分不确定信息与事实信息,避免将模糊限制信息作为事实信息用于信息抽取。近年来,英文模糊限制信息的检测已取得了阶段性研究成果,中文模糊限制语广泛用于中文各个领域,开展中文模糊限制信息检测的研究对于中文事实信息抽取具有重要意义。本项目首先针对生物医学文献,基于英文标注数据,采用翻译学习方法,训练中文模糊限制性句子识别模型,实现跨语言学习;然后采用迁移学习方法,将从中文生物医学文献学习获得的模糊限制性句子识别知识迁移至向其他领域,实现跨领域模糊限制性句子识别;设计并构建中文模糊限制信息语料库;抽取平面特征和句法、语义的结构化特征,使用多项式核和卷积树核的复合核,建立模糊限制信息范围检测模型。跨语言、跨领域的模糊限制性句子识别研究,将为自然语言处理中知识的迁移、推广提供理论基础和方法支撑;研究中文模糊限制信息检测将提高中文信息抽取的真实性和准确性。

项目摘要

作为信息抽取的一个重要环节,模糊限制信息检测旨在区分不确定信息与事实信息,避免将模糊限制信息作为事实信息用于信息抽取。近年来,英文模糊限制信息的检测已取得了阶段性研究成果,中文模糊限制语广泛用于中文各个领域,开展中文模糊限制信息检测的研究对于中文事实信息抽取具有重要意义。项目围绕跨语言信息抽取、跨领域中文模糊限制语识别、中文模糊限制信息语料库构建和中文模糊限制信息范围检测等方面进行了研究。取得研究成果:(1)提出了基于降噪自动编码机的双视图方法、基于双语词表示方法、基于联合表示学习方法,实现跨语言中文模糊限制语识别;(2)提出了半监督学习和迁移学习相结合的方法、多领域辅助的特征迁移和实例迁移相结合的方法,实现跨领域模糊限制语识别;(3)设计并构建中文模糊限制语及其范围语料库;(4)抽取平面、句法和语义特征,使用多项式核、卷积树核的复合核方法和深度学习方法,建立中文模糊限制信息范围检测模型。跨语言、跨领域的模糊限制语识别研究,将为自然语言处理中知识的迁移、推广提供理论基础和方法支撑;研究中文模糊限制信息检测将提高中文信息抽取的真实性和准确性。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

内点最大化与冗余点控制的小型无人机遥感图像配准

内点最大化与冗余点控制的小型无人机遥感图像配准

DOI:10.11834/jrs.20209060
发表时间:2020
2

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
3

栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究

栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究

DOI:10.3969/j.issn.1002-0268.2020.03.007
发表时间:2020
4

气载放射性碘采样测量方法研究进展

气载放射性碘采样测量方法研究进展

DOI:
发表时间:2020
5

城市轨道交通车站火灾情况下客流疏散能力评价

城市轨道交通车站火灾情况下客流疏散能力评价

DOI:
发表时间:2015

周惠巍的其他基金

相似国自然基金

1

基于深度信息和深度学习的车载视觉行人检测方法研究

批准号:61403004
批准年份:2014
负责人:张师林
学科分类:F0302
资助金额:24.00
项目类别:青年科学基金项目
2

基于学习排序模型的中文智能提问方法研究

批准号:61502397
批准年份:2015
负责人:刘明
学科分类:F06
资助金额:20.00
项目类别:青年科学基金项目
3

基于多源特征学习的中文查询纠错方法研究

批准号:61672040
批准年份:2016
负责人:段建勇
学科分类:F0211
资助金额:62.00
项目类别:面上项目
4

基于公理模糊集理论和信息粒度的模糊分类方法研究

批准号:61803065
批准年份:2018
负责人:王昕
学科分类:F0303
资助金额:24.00
项目类别:青年科学基金项目