大规模中文文本语料库分词与词性标注一致性检验技术研究

基本信息
批准号:60473139
项目类别:面上项目
资助金额:23.00
负责人:郑家恒
学科分类:
依托单位:山西大学
批准年份:2004
结题年份:2007
起止时间:2005-01-01 - 2007-12-31
项目状态: 已结题
项目参与者:安秋生,崔军,谭红叶,钱揖丽,张虎,刘江,宋礼鹏,王兴义
关键词:
语料加工规范模式分词一致性语言环境模型词性标注一致性
结项摘要

目前,在机器翻译、语音识别、信息检索等应用系统的开发中,广泛地使用语料库。建设高质量的大规模语料库是中文信息处理领域的基础性工程。由于自动分词和词性标注的正确率达不到百分之百;人工校对语料时,校对者对分词单位和词性标注认识上存在着差异,造成语料加工结果不一致现象的存在。因此,研究语料库一致性检验技术是十分必要的,它不仅可以保证语料库加工的质量,也可以提高语料库加工的自动化程度,减轻人工校对的工作量。课题研究的内容有:研究语料库加工规范的分词模式、词性标注模式的形式和生成;一致性检验模式库的构建、维护、优化策略,模式的选择,模式匹配条件的确定;建立组合型歧义字段语言环境和兼类词语言环境模型;应用基于范例推理、粗糙集、分类、聚类和模式识别技术,获取分词与词性标注一致性检验知识库,研究一致性检验算法;开发分词与词性标注一致性检验软件,为建设高质量的大规模语料库提供有力的保证。

项目摘要

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

监管的非对称性、盈余管理模式选择与证监会执法效率?

监管的非对称性、盈余管理模式选择与证监会执法效率?

DOI:
发表时间:2016
3

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
4

宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响

宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响

DOI:10.7606/j.issn.1000-7601.2022.03.25
发表时间:2022
5

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019

郑家恒的其他基金

批准号:60775041
批准年份:2007
资助金额:28.00
项目类别:面上项目

相似国自然基金

1

汉语词义标注语料库的自动构建及一致性检验技术研究

批准号:60873013
批准年份:2008
负责人:张仰森
学科分类:F0201
资助金额:32.00
项目类别:面上项目
2

中文网络文本的地理实体语义关系标注与评价

批准号:41801320
批准年份:2018
负责人:余丽
学科分类:D0114
资助金额:23.40
项目类别:青年科学基金项目
3

无监督分词及词性归纳联合方法研究

批准号:61303105
批准年份:2013
负责人:王函石
学科分类:F0211
资助金额:25.00
项目类别:青年科学基金项目
4

基于词语独异性特征的大规模词义标注语料库自动构建研究

批准号:60703063
批准年份:2007
负责人:吴云芳
学科分类:F0211
资助金额:20.00
项目类别:青年科学基金项目