面向农业领域的维汉双语术语抽取的关键技术研究

基本信息
批准号:61163045
项目类别:地区科学基金项目
资助金额:49.00
负责人:张海军
学科分类:
依托单位:新疆师范大学
批准年份:2011
结题年份:2015
起止时间:2012-01-01 - 2015-12-31
项目状态: 已结题
项目参与者:木妮娜,古丽松,彭成,肖克来提,张赛,哈里克,乔娜
关键词:
语义相似度维汉双语术语重复模式统计框架单语术语
结项摘要

领域术语蕴涵了特定领域的专业知识,而双语术语承载着语言知识间的联系和映射,在机器翻译、跨语言信息检索等领域都有着重要的应用。本课题以维汉双语可比语料库为研究对象,实施面向农业领域的维汉双语术语抽取。可比语料的相关性决定着双语术语抽取的效率和效果,本课题拟设计一套双语类语义集合,在量化的基础上衡量语料间的可比性,以获取高质量的可比语料;为提高汉语领域术语的覆盖面和召回率,本课题拟采用重复模式提取方法构造候选术语集合,并应用海量语料作为汉语术语提取来源;对维吾尔语术语的检测,因其具有复杂的形态变化,拟构造一个有限状态机来进行术语边界检测;双语术语对齐以类语义集合为基础,使用统计框架来标注维汉双语的映射关系。在此基础上构造面向农业领域维汉双语新术语表,为新疆的农业信息化建设服务,并为其它领域维汉双语术语抽取提供有益借鉴。

项目摘要

领域术语承载着特定领域的核心知识,双语术语蕴含着双语知识间的联系,双语领域术语自动抽取是机器翻译、信息检索等领域的研究基础。本课题在大量调研的基础上,重点研究了大规模语料的重复模式快速提取算法、汉语农业领域术语抽取、基于大规模语料的网络汉语新词识别及维语农业领域术语自动抽取方法,取得了一定的研究成果。.在重复模式提取方面,研制了一种基于逐层剪枝算法的大规模语料重复模式提取算法,通过短串过滤长串及级联剪枝技术,及时滤出低频垃圾字符串,有效减少内存用量,进而高效处理容量大于内存容量的语料。实验表明,该算法的处理效率为0.59M/s,能高效的从规模远大于内存容量的语料中提取高频重复模式。为了进一步提高重复模式提取效率,研制了一种高效的中文字符串排序算法,实验表明,该算法排序速度比快速排序算法(Quick Sort)提高了两倍。.针对汉语农业术语的提取,研究了一种基于重复模式的领域术语提取技术,在重复模式的基础上,构造候选术语集合,应用领域相关的特定统计量,包括逆文档频率、C_value值、互信息和左右熵,进行汉语领域术语的提取,并增加了领域术语部件作为语言知识特征,使用统计学习框架实现了汉语农业领域术语的自动识别,实验结果表明,该方法的准确率和召回率分别达到了55.72%和86.48%,取得了目前较好的识别效果。.在领域术语的基础上,研究了汉语未登录词的检测模型和识别特征,并实现了基于统计学习框架的汉语候选新词检测和过滤方法,通过深入挖掘统计特征和语言知识特征,在统计学习框架下,充分整合多重特征,应用北京大学标注语料实验的准确率和召回率分别为69.15%和70.53%,实现了高效的汉语新词检测。.针对维语领域术语识别,针对维语术语识别中语言特征应用不充分,未见有效的框架整合各类特征问题,研究了一种维语农业领域术语识别方法。该方法应用统计量C_value值提取候选单词型术语作为锚点,使用维语词干和词尾组合的统计特征作为领域语言知识特征,应用有限状态机整合各类特征,在锚点词的基础上实施候选术语过滤和扩展,实现单词型术语和多词型术语的识别。实验的准确率和召回率分别为88.6%和78.1%,可实现维语术语的有效识别。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

涡度相关技术及其在陆地生态系统通量研究中的应用

涡度相关技术及其在陆地生态系统通量研究中的应用

DOI:10.17521/cjpe.2019.0351
发表时间:2020
2

监管的非对称性、盈余管理模式选择与证监会执法效率?

监管的非对称性、盈余管理模式选择与证监会执法效率?

DOI:
发表时间:2016
3

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

DOI:10.11999/JEIT150995
发表时间:2016
4

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

DOI:10.12054/lydk.bisu.148
发表时间:2020
5

宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响

宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响

DOI:10.7606/j.issn.1000-7601.2022.03.25
发表时间:2022

张海军的其他基金

批准号:81371678
批准年份:2013
资助金额:70.00
项目类别:面上项目
批准号:61300209
批准年份:2013
资助金额:25.00
项目类别:青年科学基金项目
批准号:51472184
批准年份:2014
资助金额:83.00
项目类别:面上项目
批准号:41572075
批准年份:2015
资助金额:54.00
项目类别:面上项目
批准号:21277141
批准年份:2012
资助金额:78.00
项目类别:面上项目
批准号:21477125
批准年份:2014
资助金额:80.00
项目类别:面上项目
批准号:51872210
批准年份:2018
资助金额:60.00
项目类别:面上项目
批准号:51672194
批准年份:2016
资助金额:62.00
项目类别:面上项目
批准号:51272188
批准年份:2012
资助金额:80.00
项目类别:面上项目
批准号:61572156
批准年份:2015
资助金额:63.00
项目类别:面上项目
批准号:81272377
批准年份:2012
资助金额:70.00
项目类别:面上项目
批准号:11102071
批准年份:2011
资助金额:26.00
项目类别:青年科学基金项目
批准号:31200750
批准年份:2012
资助金额:23.00
项目类别:青年科学基金项目
批准号:21876170
批准年份:2018
资助金额:66.00
项目类别:面上项目
批准号:20607022
批准年份:2006
资助金额:25.00
项目类别:青年科学基金项目
批准号:40602007
批准年份:2006
资助金额:27.00
项目类别:青年科学基金项目
批准号:51004107
批准年份:2010
资助金额:20.00
项目类别:青年科学基金项目
批准号:31272456
批准年份:2012
资助金额:83.00
项目类别:面上项目
批准号:21801010
批准年份:2018
资助金额:25.00
项目类别:青年科学基金项目
批准号:31902022
批准年份:2019
资助金额:25.00
项目类别:青年科学基金项目
批准号:31872379
批准年份:2018
资助金额:59.00
项目类别:面上项目
批准号:11674165
批准年份:2016
资助金额:60.00
项目类别:面上项目
批准号:51705472
批准年份:2017
资助金额:22.00
项目类别:青年科学基金项目
批准号:21403001
批准年份:2014
资助金额:25.00
项目类别:青年科学基金项目
批准号:21077102
批准年份:2010
资助金额:35.00
项目类别:面上项目

相似国自然基金

1

新疆汉维双语网络舆情分析关键技术研究

批准号:61040035
批准年份:2010
负责人:栾静
学科分类:F0113
资助金额:10.00
项目类别:专项基金项目
2

老挝语词法分析及老-汉双语平行语料抽取方法研究

批准号:61662040
批准年份:2016
负责人:周兰江
学科分类:F0211
资助金额:39.00
项目类别:地区科学基金项目
3

面向开放领域的自动关系抽取技术研究

批准号:60803078
批准年份:2008
负责人:陈锦秀
学科分类:F0211
资助金额:20.00
项目类别:青年科学基金项目
4

维-汉双语阅读障碍儿童双语加工的神经机制研究

批准号:81760597
批准年份:2017
负责人:左彭湘
学科分类:H3006
资助金额:35.00
项目类别:地区科学基金项目