哈萨克语是仅次于维吾尔语的新疆通用6种语言之一,跨境语言(哈萨克斯坦)。哈语文字语料库构建技术研究,是哈文信息处理的基础性工作,属基础性资源建设,目前国内无此研究。随着对哈文的信息化、哈语语言学的不断研究,对哈语多种特性的定量研究需求越来越大。它涉及主要研究技术为:哈语文本语料库构建;对语料库词级标注并自动校对;据哈语独有的语言特点,研究词附加成分切分标注、词性标注、语言信息统计等技术,探讨适合哈文语料库构建的新算法。对词性标注,提出一种先统计、后规则的规则和统计相结合的方法;对词附加成分的切分,提出"全切分+哈语规则+语料库验证"相结合的技术;借鉴最大熵的特征选择、哈语规则、机器学习、词计算技术研究兼类词、歧义词标注技术;本研究为哈文信息处理提供基本信息能力,提供较为可靠和真实的哈语语言数据,对哈语信息处理向标准化、规范化、智能化、集成化、高性能的发展,具有意义,可与哈萨克斯坦国际合作。
{{i.achievement_title}}
数据更新时间:2023-05-31
涡度相关技术及其在陆地生态系统通量研究中的应用
硬件木马:关键问题研究进展及新动向
端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
桂林岩溶石山青冈群落植物功能性状的种间和种内变异研究
汉语词义标注语料库的自动构建及一致性检验技术研究
现代哈萨克语短语识别及其语块库构建技术研究
现代哈萨克语句法分析与树库构建关键技术研究
基于大规模语料库的汉语词语自动聚类研究