Sequence labeling is a classic Natural Language Processing (NLP) task. In this proposal, we investigate the Chinese word segmentation and the Part-Of-Speech (POS) tagging task, which are treat as character-based sequence labeling task and word-based sequence labeling task, respectively. The state-of-the-art Chinese word segmentation and POS tagging systems obtained high accuracy in domains like newswire with the large-scale annotated training corpora. However, the performance of system trained on newswire corpora significantly decreases when it is used in other domains such as patents. For example, the F1 measure of the well-known Chinese word segmenter LTP is 91.2% on newswire data, while 76.9% on patent data. This is because the training data (source domain) and test data (target domain) are from different distributions. In this proposal, we will develop some neural domain adaptation methods to improve the cross-domain sequence labeling performance. In the experiments, we use Chinese Treebank as source domain data and patent, novel, Weibo as target domain data to test the proposed Chinese sequence labeling systems. The proposed Chinese word segmenter and POS tagger, without domain limitation, can be used in many Chinese natural language processing task for new words detection, such as science and technology document content analysis system.
序列标注问题是自然语言处理常见的问题之一。本课题拟针对中文序列标注任务中的分词任务(字序列标注)和词性标注任务(字\词序列标注)展开研究。现有常用分词和词性标注工具在拥有大量标注数据的新闻领域有着较高的准确率,但将上述工具应用至非新闻文本,系统性能发生骤降。例如哈工大LTP分词器,在新闻语料的F1值为91.2%,但在专利文本为87.1%。上述现象的产生是由于用于训练系统的始源域数据(新闻)与测试的目标域数据(专利)差异较大。本课题拟采用基于深度神经网络的领域自适应算法解决在中文序列标注过程中由于数据领域不同带来的系统性能骤降的问题。实验中,以Chinese Treebank语料作为始源域数据,专利、小说、微博等语料作为目标域数据,对自适应中文序列标注系统进行测试。本课题建立的领域自适应分词和词性标注系统,具有较强的新词发现能力,可应用于专业文本处理系理系统,诸如科技文献内容分析系统。
序列标注问题是自然语言处理常见的问题之一。本项目围绕中文序列标注任务展开,主要包括中文分词、中文命名实体识别、中文缺失代词补全等。由于在一些特定领域中可利用的标注数据极为有限,使得系统性能不佳。针对目标领域标注数据有限的情况,开展了两方面的研究工作:一方面,利用跨域数据,采用领域自适应方法,提升系统在目标领域数据上的性能;另一方面,仅利用目标域数据,采用数据增强、利用知识库等方法,提升系统性能。实验结果表明所提出的模型均在相应任务上取得了系统性能的提升,使得系统在数据标注有限的情况下,仍具有相对良好的性能。在研究过程中,课题组在序列标注任务上开展了很多探索性工作,如对中医古籍文献进行了标注并建立中医古籍分词系统。中医古籍分词系统的建立,使得计算机和非专业人员理解专业古籍语义变得相对容易,为后续中医古籍自动化信息处理奠定了良好的基础。本项目围绕中文自然语言处理的基础研究而展开,所提模型可广泛应用于中文信息处理相关任务中,如信息抽取、对话系统等。
{{i.achievement_title}}
数据更新时间:2023-05-31
F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度
多源数据驱动CNN-GRU模型的公交客流量分类预测
时间序列分析与机器学习方法在预测肺结核发病趋势中的应用
涡轮叶片厚壁带肋通道流动与传热性能的预测和优化
简化的滤波器查找表与神经网络联合预失真方法
中文领域本体学习及半自动构建方法研究
基于时空领域本体的语义标注技术研究
基于需求语义标注与领域知识的服务透明化推荐方法研究
基于字依存的中文精细结构标注及其学习算法研究