This topic focuses on the Laos corpus scarcity and the POS tagging, Named Entity Recognition (NER) of Laos, Laos and Chinese bilingual parallel sentence pair extraction and Laos-Chinese bilingual word alignment are the mainly research methods. Firstly, according to the characteristics of morphology, vocabulary, lexical Lao affixes, fusing the semi-supervised learning method of the fusion of Lao affixes, speech dictionary, n-gram modelto research the method of Lao POS tagging. Secondly, according to the nestedness and complexity of the named entity in Laos, studying the hybrid model based on the characteristics of the Laos named entity and word formation to identify the named entity; Then analyzing the features such as Laos and Chinese dependency relationships, similar sentence structure, vocabulary translation and sentence length and so on, studying put these features into the classifier of Support Vector Machine to achieve the extraction of bilingual parallel sentence between Chinese and Laos. Finally, integrating the characteristics of word structure,word interdependence syntactic, multiple attributive order and auxiliary word into the log linear model and the minimum error rate algorithm to study the Laos and Chinese bilingual word alignment method. According to the theoretical results of the above researches, we will develop the corresponding software tools and construct the Laos lexical analysis and Laos and Chinese parallel corpus to lay a solid foundation for the Laos-Chinese bilingual natural language processing.
本课题针对老挝语语料资源稀缺的状况,主要研究老挝语词性标注及命名实体识别方法,老-汉双语平行句对抽取及老-汉双语自动词对齐方法;首先:针对老挝语词法、词汇形态及词根词缀等特征,研究融合老挝语词缀、词性词典、n元语法模型的半监督学习方法来标注老挝语的词性;其次,根据老挝语命名实体的特征与嵌套性,研究融合老挝语命名实体特征、词特征的多层混合模型来识别命名实体;再分析老-汉句法依存关系共现、句子结构相似、句对词汇互译及句子长度比例等特征,研究融合这些特征到SVM分类器的老-汉双语平行句对抽取方法;最后深入理解老挝语的词结构、词语依存句法、多层定语排列顺序、助词的特征等,研究融合这些特征到对数线性模型、最小错误率算法的老-汉双语自动词对齐方法。针对以上研究的理论成果,实现相应的软件工具,构建老挝语词法分析及老汉双语平行语料库,为老-汉双语自然语言处理奠定坚实的基础。
针对老挝语词法标注语稀缺、信息化程度低的状况,本项目基础工作是:构建老挝语词法标注语料库,在此基础上,主要对老挝语分词、词性标注、命名实体识别以及老-汉双语句子对齐等方法进行研究。初期,针对老挝语的特点,制定了老挝语单词切分规范、词性标注规范和命名实体标注规范,通过人工标注和光学字符识别方法、构建了约30万词的老挝语词法标注语料库,并利用老挝语单语字典库进行单词正确性校正。. 在所构建语料库的基础上,首先,针对老挝语语料稀缺、词形复杂、存在大量低频词和未登录词,通过对老挝语言组成成分、句子特征、老挝语法规则以及老挝词结构特征的分析,将老挝语音节切分与分词工作进行结合,实现了端到端的老挝语分词工具,准确率达到89.02%。其次,通过融合老挝语多特征,对老挝语词性标注方法开展了系列相关研究,实现了准确率达94.34%的老挝语词性标注工具。同时,研究老挝语人名、地名、机构名的句法与词法等领域知识,实现了融合多特征的多任务老挝语命名实体识别方法,实体识别准确率达到86.43%;并分析了老挝语名词短语的重要语言特征,提出并实现了融合短语结构的多通道老挝语名词短语方法,准确率达到85.25%;最后,提出了互译特征词对匹配、融合文本特征及融合多特征的老-汉双语句子对齐计算方法;实现了老-汉平行句子对齐准确率达到86.96%。通过以上研究,不断扩充语料库,完成了包含112万单词的老挝语词法标注语料库及10万老-汉双语平行句对的语料库建设。为业界对老挝语自然语言处理的后续研究,奠定了良好的基础,填补了国内在老挝语分词、词性标注、命名实体识别及语料等方面的空白,为汉-老机器翻译、跨语言舆情分析等领域的研究,奠定了良好的基础。
{{i.achievement_title}}
数据更新时间:2023-05-31
跨社交网络用户对齐技术综述
基于细粒度词表示的命名实体识别研究
平行图像:图像生成的一个新型理论框架
基于关系对齐的汉语虚词抽象语义表示与分析
基于语义分析的评价对象-情感词对抽取
基于互联网的汉语-缅语双语平行语料抽取方法及语料库构建
柬埔寨语命名实体识别及汉柬双语可比语料库构建方法研究
汉越双语语料库建设及词对齐方法研究
汉越双语事件语料库构建及舆情观点挖掘方法研究