现代哈萨克语词级文本语料库构建技术研究

基本信息
批准号:60763005
项目类别:地区科学基金项目
资助金额:18.00
负责人:古丽拉·阿东别克
学科分类:
依托单位:新疆大学
批准年份:2007
结题年份:2010
起止时间:2008-01-01 - 2010-12-31
项目状态: 已结题
项目参与者:达吾勒·阿布都哈依尔,阿依达尔·米尔卡马力,木合亚提·尼亚孜别克,伊力亚尔·加尔木哈买提,张玉华,刘岩,梁坤
关键词:
语料库构建技术词自动标注现代哈萨克语
结项摘要

哈萨克语是仅次于维吾尔语的新疆通用6种语言之一,跨境语言(哈萨克斯坦)。哈语文字语料库构建技术研究,是哈文信息处理的基础性工作,属基础性资源建设,目前国内无此研究。随着对哈文的信息化、哈语语言学的不断研究,对哈语多种特性的定量研究需求越来越大。它涉及主要研究技术为:哈语文本语料库构建;对语料库词级标注并自动校对;据哈语独有的语言特点,研究词附加成分切分标注、词性标注、语言信息统计等技术,探讨适合哈文语料库构建的新算法。对词性标注,提出一种先统计、后规则的规则和统计相结合的方法;对词附加成分的切分,提出"全切分+哈语规则+语料库验证"相结合的技术;借鉴最大熵的特征选择、哈语规则、机器学习、词计算技术研究兼类词、歧义词标注技术;本研究为哈文信息处理提供基本信息能力,提供较为可靠和真实的哈语语言数据,对哈语信息处理向标准化、规范化、智能化、集成化、高性能的发展,具有意义,可与哈萨克斯坦国际合作。

项目摘要

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

涡度相关技术及其在陆地生态系统通量研究中的应用

涡度相关技术及其在陆地生态系统通量研究中的应用

DOI:10.17521/cjpe.2019.0351
发表时间:2020
2

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
3

端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响

端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响

DOI:
发表时间:2020
4

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
5

桂林岩溶石山青冈群落植物功能性状的种间和种内变异研究

桂林岩溶石山青冈群落植物功能性状的种间和种内变异研究

DOI:10.5846/stxb202009292521
发表时间:2021

古丽拉·阿东别克的其他基金

批准号:61063025
批准年份:2010
资助金额:28.00
项目类别:地区科学基金项目
批准号:61363062
批准年份:2013
资助金额:46.00
项目类别:地区科学基金项目

相似国自然基金

1

汉语词义标注语料库的自动构建及一致性检验技术研究

批准号:60873013
批准年份:2008
负责人:张仰森
学科分类:F0201
资助金额:32.00
项目类别:面上项目
2

现代哈萨克语短语识别及其语块库构建技术研究

批准号:61063025
批准年份:2010
负责人:古丽拉·阿东别克
学科分类:F0211
资助金额:28.00
项目类别:地区科学基金项目
3

现代哈萨克语句法分析与树库构建关键技术研究

批准号:61363062
批准年份:2013
负责人:古丽拉·阿东别克
学科分类:F0211
资助金额:46.00
项目类别:地区科学基金项目
4

基于大规模语料库的汉语词语自动聚类研究

批准号:69973015
批准年份:1999
负责人:王晓龙
学科分类:F0211
资助金额:12.00
项目类别:面上项目