目前,在机器翻译、语音识别、信息检索等应用系统的开发中,广泛地使用语料库。建设高质量的大规模语料库是中文信息处理领域的基础性工程。由于自动分词和词性标注的正确率达不到百分之百;人工校对语料时,校对者对分词单位和词性标注认识上存在着差异,造成语料加工结果不一致现象的存在。因此,研究语料库一致性检验技术是十分必要的,它不仅可以保证语料库加工的质量,也可以提高语料库加工的自动化程度,减轻人工校对的工作量。课题研究的内容有:研究语料库加工规范的分词模式、词性标注模式的形式和生成;一致性检验模式库的构建、维护、优化策略,模式的选择,模式匹配条件的确定;建立组合型歧义字段语言环境和兼类词语言环境模型;应用基于范例推理、粗糙集、分类、聚类和模式识别技术,获取分词与词性标注一致性检验知识库,研究一致性检验算法;开发分词与词性标注一致性检验软件,为建设高质量的大规模语料库提供有力的保证。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
监管的非对称性、盈余管理模式选择与证监会执法效率?
粗颗粒土的静止土压力系数非线性分析与计算方法
宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响
中国参与全球价值链的环境效应分析
汉语词义标注语料库的自动构建及一致性检验技术研究
中文网络文本的地理实体语义关系标注与评价
无监督分词及词性归纳联合方法研究
基于词语独异性特征的大规模词义标注语料库自动构建研究