Bilingual chunk analysis is the key and difficult point of Natural language processing(NLP), it is also the basis for the application of NLP. This research takes Vietnamese and Chinese as the object and can effectively deal with many tackled problems, such as chunk identification, inter-chunk relationship acquisition and bilingual chunk alignment for Vietnamese-Chinese chunk analysis. In chunk recognition, proposed a LSTM-CRF Vietnamese chunk identification method based on fusion of word segmentation and part of speech, taking the whole sentence likelihood function and improving the chunk recognition accuracy as the optimization target, finally to realize Vietnamese complex long sentence chunk identification; In the aspect of relationship between blocks recognition, proposed an Att-LSTM method fusion the semantic knowledge to prediction the relationship between block, joining some other types of contextual information in sentences that are important for relationship classification through the attentional mechanisms; In the Vietnamese-Han bilingual block alignment, to avoid lexical analysis, the dependencies between chunks and chunk features are applied to the Vietnamese-Han chunks alignment,and by exploring the complementarity of Vietnamese-Han chunks identification information, which can solve the problem of long distance dependence of bilingual chunks and improve the block alignment. The research achievements will be used to build the chunk analysis system and help to promote the application of information retrieval ,information extraction, machine translation,as well as knowledge-building.
双语组块分析是自然语言处理的关键和难点,也是自然语言处理应用系统的基础。本课题以越汉双语为对象,研究能有效处理越汉双语组块分析所面临的组块识别、块间关系获取和双语块对齐等关键技术。在组块识别方面,提出融合分词和词性特征的LSTM-CRF越南语组块识别方法,以提高组块识别精度为优化目标,实现越南语复杂长句组块识别;在块间依存关系识别方面,提出融合上下文信息的Att-LSTM块间依存关系获取方法,通过注意力机制加入对关系分类有重要意义的句子其他类型的上下文信息,实现块间关系的获取;在越汉双语组块对齐方面,提出融合块间依存关系和多特征的越汉双语组块对齐方法,避开词法分析这个瓶颈,结合双语组块间依存关系和相关特征,通过概率计算,发掘汉越组块识别信息的互补性,实现双语语块对齐。研究成果还将用于构建双语组块分析平台,有助于推动信息检索、信息抽取、机器翻译及知识构建等领域的应用。
在国家“一带一路”倡议和云南省南亚东南亚辐射中心建设大背景下,东南亚语言信息处理及机器翻译对促进面向东南亚国际政治经济文化的交流与合作有迫切需求。在当前以深度学习为主导的学习框架下,越南语、缅甸语等东南亚语言分词、词性标记、实体识别、依存句法分析以及中文-东南亚语言双语对齐语料获取还面临一系列难点问题需要解决。本课题将面向越南语、缅甸语等东南亚语言的词法、句法分析看作自然语言处理中的组块识别及块间关系识别问题,中文-越南语、缅甸语等东南亚语言的双语词对齐及句子对齐看作不同粒度的双语块对齐识别问题,研究取得了一系列创新性成果。在组块识别方面,针对越南语、缅甸语等东南亚语言分词、词性标记错误会造成线性传递等问题,提出了基于BiLSTM-CRF的音节切分、分词和POS标记的联合模型,基于改进多头注意力机制的命名实体识别等方法。在组块间依存关系识别方面,针对越南语、缅甸语存在大规模高质量的数据不足以及语义表示不准确的问题,提出基于迁移学习的东南亚语言依存句法分析模型,融合多粒度特征的低资源语言词性标记和依存分析联合模型等方法。在双语组块对齐方法研究方面,针对双语对齐块抽取准确度低的问题,提出了基于半监督的双语块对齐方法,基于结构特征一致性约束的双语句子级对齐块抽取等方法。基于以上方法构建了1000万余条双语块对齐语料库,为开展越南语、缅甸语等东南亚语言机器翻译研究及系统研发提供了重要的数据支撑。研发了适用于越南语、缅甸语等东南亚语的语言解析系统,成果已应用于OPPO、小牛翻译、小语智能信息科技等互联网相关企业,取得了较好的社会经济效益。课题研究发表相关论文16篇,其中SCI收录1篇,EI收录3篇,中文核心期刊9篇,会议论文4篇,受理发明专利13项,授权发明专利10项,登记软件著作权7项,培养硕士研究生10名。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
跨社交网络用户对齐技术综述
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
汉越双语新闻事件关联分析及摘要方法研究
汉越双语语料库建设及词对齐方法研究
汉越双语事件语料库构建及舆情观点挖掘方法研究
蒙汉双语网络挖掘层次关联分析方法研究