现代哈萨克语词级文本语料库构建技术研究

基本信息
批准号:60763005
项目类别:地区科学基金项目
资助金额:18.00
负责人:古丽拉·阿东别克
学科分类:
依托单位:新疆大学
批准年份:2007
结题年份:2010
起止时间:2008-01-01 - 2010-12-31
项目状态: 已结题
项目参与者:达吾勒·阿布都哈依尔,阿依达尔·米尔卡马力,木合亚提·尼亚孜别克,伊力亚尔·加尔木哈买提,张玉华,刘岩,梁坤
关键词:
语料库构建技术词自动标注现代哈萨克语
结项摘要

哈萨克语是仅次于维吾尔语的新疆通用6种语言之一,跨境语言(哈萨克斯坦)。哈语文字语料库构建技术研究,是哈文信息处理的基础性工作,属基础性资源建设,目前国内无此研究。随着对哈文的信息化、哈语语言学的不断研究,对哈语多种特性的定量研究需求越来越大。它涉及主要研究技术为:哈语文本语料库构建;对语料库词级标注并自动校对;据哈语独有的语言特点,研究词附加成分切分标注、词性标注、语言信息统计等技术,探讨适合哈文语料库构建的新算法。对词性标注,提出一种先统计、后规则的规则和统计相结合的方法;对词附加成分的切分,提出"全切分+哈语规则+语料库验证"相结合的技术;借鉴最大熵的特征选择、哈语规则、机器学习、词计算技术研究兼类词、歧义词标注技术;本研究为哈文信息处理提供基本信息能力,提供较为可靠和真实的哈语语言数据,对哈语信息处理向标准化、规范化、智能化、集成化、高性能的发展,具有意义,可与哈萨克斯坦国际合作。

项目摘要

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

DOI:
发表时间:
2

混凝土SHPB试验技术研究进展

混凝土SHPB试验技术研究进展

DOI:10.3969/j.issn.1002-3550.2015.06.010
发表时间:2015
3

长白山苔原带土壤温度与肥力随海拔的变化特征

长白山苔原带土壤温度与肥力随海拔的变化特征

DOI:
发表时间:2018
4

基于直觉模糊二元语义交互式群决策的技术创新项目选择

基于直觉模糊二元语义交互式群决策的技术创新项目选择

DOI:10.12005/orms.2019.0029
发表时间:2019
5

GF-4序列图像的云自动检测

GF-4序列图像的云自动检测

DOI:CNKI:SUN:YGXB.0.2018-01-012
发表时间:2018

古丽拉·阿东别克的其他基金

批准号:61063025
批准年份:2010
资助金额:28.00
项目类别:地区科学基金项目
批准号:61363062
批准年份:2013
资助金额:46.00
项目类别:地区科学基金项目

相似国自然基金

1

汉语词义标注语料库的自动构建及一致性检验技术研究

批准号:60873013
批准年份:2008
负责人:张仰森
学科分类:F0201
资助金额:32.00
项目类别:面上项目
2

现代哈萨克语短语识别及其语块库构建技术研究

批准号:61063025
批准年份:2010
负责人:古丽拉·阿东别克
学科分类:F0211
资助金额:28.00
项目类别:地区科学基金项目
3

现代哈萨克语句法分析与树库构建关键技术研究

批准号:61363062
批准年份:2013
负责人:古丽拉·阿东别克
学科分类:F0211
资助金额:46.00
项目类别:地区科学基金项目
4

基于大规模语料库的汉语词语自动聚类研究

批准号:69973015
批准年份:1999
负责人:王晓龙
学科分类:F0211
资助金额:12.00
项目类别:面上项目