大规模中文文本语料库分词与词性标注一致性检验技术研究

基本信息

批准号：60473139

项目类别：面上项目

资助金额：23.00

负责人：郑家恒

学科分类：

依托单位：山西大学

批准年份：2004

结题年份：2007

起止时间：2005-01-01 - 2007-12-31

项目状态：已结题

项目参与者：安秋生,崔军,谭红叶,钱揖丽,张虎,刘江,宋礼鹏,王兴义

关键词：

语料加工规范模式分词一致性语言环境模型词性标注一致性

结项摘要

目前，在机器翻译、语音识别、信息检索等应用系统的开发中，广泛地使用语料库。建设高质量的大规模语料库是中文信息处理领域的基础性工程。由于自动分词和词性标注的正确率达不到百分之百；人工校对语料时，校对者对分词单位和词性标注认识上存在着差异，造成语料加工结果不一致现象的存在。因此，研究语料库一致性检验技术是十分必要的，它不仅可以保证语料库加工的质量，也可以提高语料库加工的自动化程度，减轻人工校对的工作量。课题研究的内容有：研究语料库加工规范的分词模式、词性标注模式的形式和生成；一致性检验模式库的构建、维护、优化策略，模式的选择，模式匹配条件的确定；建立组合型歧义字段语言环境和兼类词语言环境模型；应用基于范例推理、粗糙集、分类、聚类和模式识别技术，获取分词与词性标注一致性检验知识库，研究一致性检验算法；开发分词与词性标注一致性检验软件，为建设高质量的大规模语料库提供有力的保证。

项目摘要

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.1051/jnwpu/20213920292

发表时间：2021

DOI：10.16383/j.aas.c180673

发表时间：2021

DOI：10.7641/CTA.2018.70969

发表时间：2018

DOI：

发表时间：2020

DOI：10.7605/gdlxb.2022.03.033

发表时间：2022

郑家恒的其他基金

批准号：60775041

批准年份：2007

资助金额：28.00

项目类别：面上项目

相似国自然基金

汉语词义标注语料库的自动构建及一致性检验技术研究

批准号：60873013

批准年份：2008

负责人：张仰森

学科分类：F0201

资助金额：32.00

项目类别：面上项目

中文网络文本的地理实体语义关系标注与评价

批准号：41801320

批准年份：2018

负责人：余丽

学科分类：D0114

资助金额：23.40

项目类别：青年科学基金项目

无监督分词及词性归纳联合方法研究

批准号：61303105

批准年份：2013

负责人：王函石

学科分类：F0211

资助金额：25.00

项目类别：青年科学基金项目

基于词语独异性特征的大规模词义标注语料库自动构建研究

批准号：60703063

批准年份：2007

负责人：吴云芳

学科分类：F0211

资助金额：20.00

项目类别：青年科学基金项目

大规模中文文本语料库分词与词性标注一致性检验技术研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

一种基于多层设计空间缩减策略的近似高维优化方法

二维FM系统的同时故障检测与控制

具有随机多跳时变时延的多航天器协同编队姿态一致性

扶贫资源输入对贫困地区分配公平的影响

二叠纪末生物大灭绝后Skolithos遗迹化石的古环境意义:以豫西和尚沟组为例

郑家恒的其他基金

基于中文文本的计算机中介通信中欺骗检测研究

相似国自然基金