汉语词义标注语料库的自动构建及一致性检验技术研究

基本信息

批准号：60873013

项目类别：面上项目

资助金额：32.00

负责人：张仰森

学科分类：

依托单位：北京信息科技大学

批准年份：2008

结题年份：2011

起止时间：2009-01-01 - 2011-12-31

项目状态：已结题

项目参与者：康海燕,艾红,秦奕青,刘旭红,高卓,肖建涛,刘安宇,孙超,郭充

关键词：

隐最大熵原理标注语料库词义消歧与标注一致性检验

结项摘要

词义消歧是计算语言学研究领域的核心问题，多年来的研究并未取得突破性进展，其主要原因是缺乏高质量大规模词义标注语料库。本项目拟从以下几个方面开展研究：(1)采用机器学习方法，从标注语料库、《现代汉语语法信息词典》、《现代汉语语义词典》等多种知识资源获取词义消歧知识；(2)对不同知识源的词义消歧知识做模式化表示处理，构建知识库；(3)构建高效的汉语词义标注模型与算法，实现大规模汉语词义标注语料库的自动构建；（4）对汉语词义标注规范的描述作结构化处理，构建词义标注规范的模式，以检验标注结果是否符合规范；(5)人工辅助校对一部分词义标注语料，作为正确性和一致性检验的训练语料，采用自动聚类、模糊匹配等技术，从训练语料中获取一致性检验的知识库，设计一致性检验的模型与算法，提高大规模汉语词义标注语料库的质量。本项目的研究方法和关键技术对其它汉语语料库的建设将具有方法论上的参考价值和意义。

项目摘要

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.3724/SP.J.1089.2019.17435

发表时间：2019

DOI：10.7641/CTA.2018.70969

发表时间：2018

DOI：10.3969/j.issn.1001-9731.2021.11.009

发表时间：2021

DOI：10.7544/issn1000-1239.2019.20190386

发表时间：2019

DOI：10.7502/j.issn.1674-3962.201906027

发表时间：2019

张仰森的其他基金

批准号：61070119

批准年份：2010

资助金额：33.00

项目类别：面上项目

批准号：61772081

批准年份：2017

资助金额：60.00

项目类别：面上项目

批准号：61370139

批准年份：2013

资助金额：75.00

项目类别：面上项目

相似国自然基金

基于词语独异性特征的大规模词义标注语料库自动构建研究

批准号：60703063

批准年份：2007

负责人：吴云芳

学科分类：F0211

资助金额：20.00

项目类别：青年科学基金项目

汉语全文词义标注关键技术研究

批准号：61272221

批准年份：2012

负责人：曲维光

学科分类：F0211

资助金额：81.00

项目类别：面上项目

大规模中文文本语料库分词与词性标注一致性检验技术研究

批准号：60473139

批准年份：2004

负责人：郑家恒

学科分类：F0211

资助金额：23.00

项目类别：面上项目

汉语框架语义角色自动标注技术研究

批准号：60873128

批准年份：2008

负责人：李济洪

学科分类：F0211

资助金额：35.00

项目类别：面上项目

汉语词义标注语料库的自动构建及一致性检验技术研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

信息熵-保真度联合度量函数的单幅图像去雾方法

具有随机多跳时变时延的多航天器协同编队姿态一致性

制冷与空调用纳米流体研究进展

基于卷积神经网络的JPEG图像隐写分析参照图像生成方法

耐磨钢铁材料中强化相设计与性质计算研究进展

张仰森的其他基金

基于语义分析的汉语文本错误自动侦测与纠错方法

网络社交媒体中特定社会安全事件的侦测分析与态势评估研究

基于语义分析的中文微博信息挖掘方法研究

相似国自然基金