评价方法是自然语言处理乃至人工智能领域的一个关键问题。自然语言处理系统中现有的"黑箱评价"思想不能够对系统实现深入细致的分析,人工错误分析虽然信息丰富,但代价高昂,这都约束了人们对系统性能和处理过程的把握和了解,进而限制了自然语言处理系统的发展。本课题提出针对自然语言处理系统的自动化"白箱"评价方法研究,通过对(1)自然语言处理系统中的白箱评价理论及方法(2)背景知识在白箱评价方法中的作用、获取及运用(3)面向自然语言处理的白箱评价方法的自动化等三个关键问题的研究,实现从系统的输出入手,逐步深入系统内部结构,结合多种背景知识,实现以机器翻译和信息检索为代表的复杂自然语言处理系统的错误自动检测、分类、定位和成因分析,建立一套较为完整的面向自然语言处理系统的 "白箱"评价理论和方法;通过实现对系统的具体特点和问题的自动化分析,进而改善系统研发过程,最终达到推动自然语言处理系统快速发展的目的。
项目以机器翻译和信息检索系统作为自然语言处理系统的典型代表,对自然语言处理系统的白箱评价分析理论及方法进行了深入研究。其中,针对机器翻译系统,主要探索了从单语和双语两个角度,基于以语言学知识,和用户行为信息为主的背景知识,对系统的过程和性能进行详细细分、自动定位错误并自动化分析错误成因的理论和方法,并改进实现了相关的分析评价工具,进而尝试了基于白箱评价分析结果对不同类型的机器翻译系统进行比较分析及融合改进。在信息检索系统方面,主要探索了从稳定性和有效性两个方面细分系统性能,并从二者平衡的角度进行系统优化。同时也探索了利用用户行为、用户兴趣、词汇的句法依赖关系等背景知识对信息检索系统的性能进行分析和改进。以上内容为自然语言处理系统的研发提供了丰富的分析评价依据,为推动该领域的研究提供了有益的科学手段。除以上计划内内容外,项目还探索了用于描述错误分布的机器学习方法,以及基于量子信息理论的信息检索过程中的主观性的分析等拓展研究,为相关研究提供了新的研究基础。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于LS-SVM香梨可溶性糖的近红外光谱快速检测
信息熵-保真度联合度量函数的单幅图像去雾方法
高分五号卫星多角度偏振相机最优化估计反演:角度依赖与后验误差分析
城市生活垃圾热值的特征变量选择方法及预测建模
基于卷积神经网络的JPEG图像隐写分析参照图像生成方法
机器翻译与自然语言处理系统的自动评价
汉语信息处理系统评价方法
自动化码头箱区堆垛机调度优化问题
汉语综合资料库及信息处理系统评价方法