缩略语是新词的主要来源,而新词对自然语言处理中的词性标注,词义确定与消歧,命名实体识别及共指消解等造成了严重障碍;在中文信息处理中,还造成了分词的极大困难。与一般新词不同,缩略语在构成上表现出特有的规律。本课题的目的就是系统地研究汉语缩略语的规律,探讨缩略语处理的若干关键技术。主要包括:(1)根据大规模的语料与缩略语-原形语对照表,研究缩略语的构成规律及词性表现规律;(2)利用所获规律,研究汉语缩略语的识别技术以及具有缩略语识别能力的汉语词处理模型;(3)研究从文本中挖掘缩略语-原形语对,自动扩充缩略语-原形语的对照表;(4) 探讨如何在文本中预测缩略语所对应的原形语以及如何消解缩略语的歧义,并针对上下文信息不充足的情况,研究缩略形式向原形语的还原转换。本项研究将有助于解决缩略语对中文信息处理诸多环节的困扰,并为相关应用提供支持。
缩略语是指较长的一个或者多个词通过压减其中的一些字并通过变序或数字总括而形成的意义不变、长度较短的语言单元。压缩前的形式,称为完整形式(full form)。. 缩略语是新词的主要来源之一,而新词对自然语言处理中的词性标注,词义确定与消歧,命名实体识别及共指消解等造成了严重障碍;在中文信息处理中,还造成了分词的极大困难。. 本课题围绕汉语缩略语问题开展研究,探讨了缩略语处理的若干关键技术。主要包括:(1)研究了缩略语的基本特点和构成规律,从序列化的角度,提出了从完整形式生成缩略语的二种模型,并对二种模型给出了形式化描述;(2)构建了汉语缩略语的语言资源,即,带切分标注的完整形式-缩略语对照表以及带缩略语与完整形式对应关系的语料标注,对照表含有9524对关系,标注语料含1998年2个月的人民日报;(3)研究了缩略语的预测方法。根据缩略语的构成规律提出了基于不同单位(基于字、基于词)的序列标注方法和基于感知器的重排序模型;(4)研究了缩略语的挖掘,提出了从缩略语出发,在真实上下文中发掘其完整形式的方法,以及从完整形式出发,预测缩略语并利用Web信息验证最终缩略语的方法。通过挖掘可以自动构建完整形式-缩略语对照表;(5)研究了快速的序列标注方法,并在汉语自动切词中融入了新词发现的功能,有助于识别上下文中新的缩略语;(6)针对汉语实体识别和共指消解经常受到缩略语干扰的问题,研究了实体共指消解技术,包括文本内实体共指和文本间的实体共指。. 三年来,项目组超额完成了预期的任务,申请专利2项,共发表论文26篇,其中,期刊论文10篇(包括1篇录用待发表),会议论文16篇。会议论文中的国际顶级会议论文8篇,包括2篇ACL2012,1篇SIGKDD2012,1篇EMNLP2012,4篇COLING(2010,2012)。构建了一定规模的缩略语资源,开发了快速的序列标注模块;参加了Sighan-2010的2个评测(实体消歧和词义归纳),TAC的KBP评测和CONLL-shared的评测。
{{i.achievement_title}}
数据更新时间:2023-05-31
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
基于细粒度词表示的命名实体识别研究
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
适用于带中段并联电抗器的电缆线路的参数识别纵联保护新原理
基于Pickering 乳液的分子印迹技术
汉语句法分析中的自动歧义识别和分类问题研究
汉语加工中词汇和句法歧义解决的研究
基于统计关系学习的汉语指代消解研究
汉语指代消解与多文本交叉共指研究