现代哈萨克语短语识别及其语块库构建技术研究

基本信息
批准号:61063025
项目类别:地区科学基金项目
资助金额:28.00
负责人:古丽拉·阿东别克
学科分类:
依托单位:新疆大学
批准年份:2010
结题年份:2013
起止时间:2011-01-01 - 2013-12-31
项目状态: 已结题
项目参与者:达吾勒·阿布都哈依尔,木合亚提·尼亚孜别克,阿依达尔·米尔卡马力,刘晓洁,古丽给娜·达列力汗,孙瑞娜,阿热依·邓哈孜,王雅莉
关键词:
歧义消解语块库哈萨克语浅层句法短语识别
结项摘要

短语作为句法单位是词法分析和句法分析的中间重要环节,是自然语言浅层句法分析的重要任务之一;按语块分析可降低进行短语划分和分析处理的复杂性,对句法分析提供基础;构建大规模标注语块库是语料库语言学发展的重要基础。基于浅层句法分析的哈语短语识别研究是当前哈语信息处理的燃眉之急。本项目据哈萨克语独特的语言特点,探索适合哈语的浅层句法分析方法。系统分析哈语短语构成规律,研究哈语短语自动识别、歧义消解、构建语块库的关键技术,从而设计短语和语块处理算法,为解决哈语短语对哈文信息处理的困扰提供有效手段,为哈文下一步句法处理和树库建设打下基础。哈语短语识别研究,将对全球哈族的文化发展起到促进作用,构建的哈文语块库为全球哈文信息化系统的开发奠定资源基础,有重要意义。可与哈萨克斯坦开展国际合作和交流,本研究对哈语知识获取、句法理解、汉哈机器翻译、大规模语料库加工等诸多领域,提供数据,推动应用产品的开发和升级。

项目摘要

短语(Phrase)是词和词按照一定的语义搭配关系和语法结构规则组合在一起的句法单位,短语的识别和分析结果可以简化句子的结构,降低句法分析的复杂度。 短语作为句法单位是词法分析和句法分析的中间重要环节,是自然语言浅层句法分析的重要任务之一;按语块分析可降低进行短语划分和分析处理的复杂性,对句法分析提供基础;构建一定大规模标注语块库是语料库语言学发展的重要基础。基于浅层句法分析的哈语短语识别研究是当前哈语信息处理的燃眉之急。. 哈萨克语(简称哈语,Kazakh)属于阿尔泰语系突厥语族的克普恰克语组, 而且是跨境语言(哈萨克斯坦共和国的国语)。哈萨克语是粘着语,其形态结构为词干加构词或构形附加成分。哈语的短语(又称词组)是由两个或两个以上的单词构成的句法单位,哈语短语有自由短语和固定短语之分。. 本项目据哈萨克语独特的语言特点,探索适合哈语的浅层句法分析方法。系统地分析了哈语短语结构和功能,在句子中的构成规律,用统计技术获取哈语短语结构规则,歧义结构等;研究了哈语短语自动识别的关键技术,完成了哈语基本短语的识别研究。 实现了基于规则的哈语基本短语自动识别,基于最大熵的哈语动词短语和名词短语自动识别,基于条件随机场的哈语形容词短语自动识别和哈语基本短语块自动标注,其准确率和召回率均在85%以上;针对歧义结构进行了基于规则的歧义消解研究。用短语抽取方法提取了动词短语、名词短语、形容词短语,建立了对应的短语库,同时用语块构建技术,抽取了书名和缩略词等固定短语,并用基于转换的错误驱动学习方法进行了语块标注算法研究。.本研究基本解决了哈文信息处理中短语识别的困扰问题,提供了有效技术手段,为哈文进一步句法处理和树库建设打下了基础。哈语短语识别研究,对全球哈族的文化发展起到促进作用,有重要意义。与哈萨克斯坦共和国等开展了国际交流,建立了良好的国际合作关系。本研究可应用于哈语知识获取、句法理解、汉哈机器翻译、大规模语料库加工等诸多领域。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

DOI:10.11821/dlyj201810008
发表时间:2018
2

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018
3

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

DOI:10.19596/j.cnki.1001-246x.8419
发表时间:2022
4

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022
5

适用于带中段并联电抗器的电缆线路的参数识别纵联保护新原理

适用于带中段并联电抗器的电缆线路的参数识别纵联保护新原理

DOI:10.19783/j.cnki.pspc.200521
发表时间:2021

古丽拉·阿东别克的其他基金

批准号:60763005
批准年份:2007
资助金额:18.00
项目类别:地区科学基金项目
批准号:61363062
批准年份:2013
资助金额:46.00
项目类别:地区科学基金项目

相似国自然基金

1

面向连续语音的哈萨克语关键词识别技术研究

批准号:61462084
批准年份:2014
负责人:达吾勒·阿布都哈依尔
学科分类:F0211
资助金额:45.00
项目类别:地区科学基金项目
2

哈萨克语语音声学分析研究

批准号:69143001
批准年份:1991
负责人:米尔卡玛
学科分类:F0211
资助金额:3.00
项目类别:专项基金项目
3

现代哈萨克语词级文本语料库构建技术研究

批准号:60763005
批准年份:2007
负责人:古丽拉·阿东别克
学科分类:F0211
资助金额:18.00
项目类别:地区科学基金项目
4

柬埔寨语命名实体识别及汉柬双语可比语料库构建方法研究

批准号:61462055
批准年份:2014
负责人:严馨
学科分类:F0211
资助金额:44.00
项目类别:地区科学基金项目