电子文本已成为当今主要的信息资源和交流媒介,汉语文本的错误侦测与纠错研究是电子出版、数字图书馆建设、网络媒体及办公软件开发等领域亟待解决的问题。如何发现数字文本中的各种错误并实现自动纠错是自然语言处理领域的挑战性课题,尤其是语义搭配上的错误。本项目的内容是在句法和语义学理论指导下,研究从大规模语料和其它语言知识资源中获取句法语义搭配知识的方法和途径,研究语义搭配关系的表示方法与存储组织技术,构建语义知识库;然后基于语义知识库构建语义级文本错误的自动侦测模型;再针对侦测出的各种错误,构建纠错知识库,并依据它研究候选纠错建议的产生和排序方法,提高纠错建议的有效性。本项目的目的是将字词级的文本错误侦测扩展到句法语义级,通过句法语义分析建立汉语文本字词级和语义级文本侦错与纠错的一体化模型,提高文本校对系统的召回率和精确率。本项目对电子出版、数字图书馆建设、编辑排版软件开发等具有重要的意义。
本项目研究从大规模语料和其他语言知识资源中获取句法和语义搭配知识的方法和途径,研究语义搭配关系的表示方法和存储组织技术,构建语义搭配知识库,在此基础上,对语义级文本错误的自动侦测模型以及对纠错建议的产生与排序进行深入研究。经过项目组全体成员的共同努力,取得了以下的创新成果:(1)提出了基于多知识源的二元搭配语义知识库的构建方法。从中文文本查错的实际需求出发,利用中文文本语料以及汉语语法信息词典、HowNet等语义词典,提取相关的词语语义搭配知识库,设计了搭配知识库的体系结构和描述体系,该体系结构为三层结构:第一层为字词级搭配知识库,第二层为半义原级搭配知识库,第三层为义原级搭配知识库;(2)提出了面向专业领域的文本校对思想,并对面向文本校对的专业词汇提取及搭配关系挖掘方法进行了深入研究。建立了面向计算机领域的文本查错知识库和面向新闻领域政治性敏感词汇的文本查错知识库;(3)提出了一组面向中文文本错误侦测与推理的数学模型,包括字词级错误侦测模型、句法语义搭配错误侦测模型、政治性敏感词错误侦测模型以及中文文本综合错误侦测模型;(4)提出了一种基于上下文的纠错建议生成与排序算法;(5)设计并实现了一个中文文本校对系统,该系统实现了对字词错误、句法语义错误的综合侦测;(6)设计并实现了一个文本修改比对系统,该系统以插件的方式集成到了外交部第一局办公文档处理系统中;(7)设计实现了一个面向政治性错误的新闻文稿校对系统。(8)建立了面向中文文本校对的搭配知识库,其中字词搭配知识库含有448753条记录,半义原搭配知识库含有15005条记录,义原搭配知识库含有1102条记录。作为中文文本查错过程中基础研究,我们还开展了中文语句相似度的计算方法研究。发表研究论文40篇,发明专利1项,软件著作权7项。本项目所提出的语义搭配知识库构建方法、文本查错模型以及纠错建议生成与排序算法对文档信息处理、电子出版自动化等具有重要的理论意义和实用价值。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
物联网中区块链技术的应用与挑战
一种改进的多目标正余弦优化算法
采用深度学习的铣刀磨损状态预测模型
面向汉语文本理解的语义计算方法
包含识别错误的汉语文本检索研究
基于语义依存图的汉语复杂名词短语资源建设与自动分析研究
面向文本推理的汉语语义计算模型研究