蒙古文多层次形态分析研究

基本信息
批准号:61163020
项目类别:地区科学基金项目
资助金额:47.00
负责人:白双成
学科分类:
依托单位:内蒙古自治区社会科学院
批准年份:2011
结题年份:2015
起止时间:2012-01-01 - 2015-12-31
项目状态: 已结题
项目参与者:呼斯勒,六月,苏亚拉图,娜仁图雅,乌力吉那仁,德力格尔仓,胡其图,黄金
关键词:
知识库蒙古文形态分析统计语言模型机器学习
结项摘要

本项目是一个规则与统计方法相结合构造三个层次的蒙古文形态分析方法体系,以能够应用于各类应用系统为目标的基础研究项目。项目以课题组已有成果"蒙古文框架知识库"为基础数据,通过研究实现基于机器学习方法的构件库和整词生成规则重构方法、参数化蒙古文字形比较方法、未登录词特征信息自动推导方法等关键技术,从搜索引擎搜集网络资源和语料库资源中剥离拼错词,回收未登录词,以求构造精确形态分析的Lemmatization方法。探索符合蒙古文自身特点的统计模型特征选取和优化原则,利用语料资源中通过Lemmatization方法无歧义标注部分为训练集统计建模,构造Stemming方法。以Stemming方法再对未标注和歧义标注部分进行有监督学习和扩充形态分析库。依此循环渐进地达到规则方法与统计方法的互补互促和整合。最后观察分析上述数据基础上精炼出高效Stemmer。项目研究意义重大、成果转化前景乐观。

项目摘要

对于形态变化特别丰富的蒙古文进行形态分析,切分出词根、词干、构词词缀、构形词缀,尤其是切掉构形词缀,如同汉文信息处理中的切词一样重要和基础。信息检索,机器翻译、语言生成、自动摘要、数字词典、句法分析、拼写检查等几乎所有较深入的自然语言处理研究和应用都有形态分析的迫切需求。本项目结合规则、统计、算法等方法构造了精确切分、统计模糊切分、快速切分三个层次的蒙古文形态分析方法,并以蒙古文搜索引擎、智能输入法等实际应用为用例和依托进行了反复研究和验证。本项目精确形态分析的Lemmatization方法主要以“蒙古文框架知识库”为基础数据,通过新提出的DoubleTrie数据结构方法和系列新词回收机制实现和优化。用基于标注语料和通用序列标注方法的统计模型实现了模糊切分的Stemming方法,在输入法统计建模实际应用中,提出了基于生语料的统计模型,是蒙古文统计建模的全新探索模式。基于以上所有工作,通过实践精炼出基于m值的不一定精确但高效的快速切分Stemmer方法(类似英文Porter Stemmer)。三种切分方法各有优劣,可依据需求选用一种或组合两三种方法,发挥其互补性。鉴于蒙古文形态分析需要解决一些列研究难题外还需依靠扎实的前期数据积累,甚至因蒙古文信息处理技术环境的不完善和不成熟导致的非研究性工程化工作和辅助平台建设工作也会耗费较大人力,同时,形态分析又是蒙古文信息处理研究中一个无法忽略和跳过的重要环节,已经成为很多研究团队深入研究的重要阻碍。所以,本项目研究成果对蒙古文信息处理具有重要的参考意义,成果转化和产品化后必然有很好的推广前景。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
3

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
4

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
5

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016

白双成的其他基金

批准号:60603091
批准年份:2006
资助金额:7.00
项目类别:青年科学基金项目

相似国自然基金

1

多层次宏观脑网络可视分析研究

批准号:61772504
批准年份:2017
负责人:时磊
学科分类:F0214
资助金额:63.00
项目类别:面上项目
2

水体中汞形态分析研究

批准号:20047001
批准年份:2000
负责人:吴明嘉
学科分类:B0602
资助金额:8.00
项目类别:专项基金项目
3

蒙古文自动校对研究

批准号:60603091
批准年份:2006
负责人:白双成
学科分类:F0211
资助金额:7.00
项目类别:青年科学基金项目
4

地下水中痕量卤素形态分析研究

批准号:21207120
批准年份:2012
负责人:郭伟
学科分类:B0602
资助金额:25.00
项目类别:青年科学基金项目