面向海量文本的维吾尔文命名实体识别关键理论及技术研究

基本信息

批准号：61562083

项目类别：地区科学基金项目

资助金额：39.00

负责人：吐尔地·托合提

学科分类：

依托单位：新疆大学

批准年份：2015

结题年份：2019

起止时间：2016-01-01 - 2019-12-31

项目状态：已结题

项目参与者：廖媛媛,艾斯卡尔·肉孜,阿丽亚·艾孜子,许立睿,赵云兴,麦麦提阿卜杜拉·麦提如则,玛伊莱·艾力,迪娜·哈依日别克

关键词：

海量文本分析多层动态索引命名实体识别语义实体挖掘半指导学习

结项摘要

In a totally different language environment from Chinese and English, how to effectively mining and identify key information of named entities from the Uyghur massive text and so as to achieve the purpose of knowledge extraction, also in the field of more than Uyghur text mining technology, how to extract the text information units and to depict the text theme or to construct text model that more compact, and to achieve the purpose of improve the performance of learning algorithms and such as demands has become a scientific problems to be solved. In this project, the Uyghur natural language processing technology is introduced to the named entity recognition research, proposed a kind of Uighur named entities automatically mining and classification model under the massive text environment, and around the model's key theories and techniques to carry out Exploratory and innovative research on the scalable text representation method uses of index-based mechanism, statistical and rule-based method for Uyghur named entity boundary identification, and Uyghur named entity recognition (classification) so on three aspects, and finally establish massive text oriented Uyghur named entity recognition theory system and technology base, through research and implementation related algorithm, tools and application platform, applies and confirms this project research achievements in related area of Uyghur big data text mining.

在与中、英文完全不同的语言环境下，如何从维吾尔文海量文本中有效挖掘并识别出表示关键信息的命名实体，从而达到知识抽取的目的，在维吾尔文文本挖掘多个技术领域中如何抽取文本信息单元来刻画文本主题或构造更紧凑的文本模型，从而提高学习算法的性能等需求已成为亟待解决的科学问题。本课题将维吾尔文自然语言处理技术引入到命名实体识别研究中，提出一种海量文本环境下的维吾尔文命名实体自动挖掘及分类模型，并围绕该模型中的关键理论和技术，开展基于索引机制的可扩展文本表示，基于统计及规则结合的维吾尔文命名实体边界识别，以及基于半指导学习策略的维吾尔文命名实体类型识别（分类）等3个方面的探索性，创新性研究，最终建立海量文本环境下维吾尔文命名实体识别的理论体系及技术基础，并通过研发有关算法、工具和试验平台，在维吾尔文大数据文本挖掘相关领域中应用和验证本课题所取得的研究成果。

项目摘要

本课题将维吾尔文海量文本中的命名实体识别作为研究任务，围绕维吾尔文海量文本的采集及大规模资源库建设，海量文本中语义实体（语义串）识别及抽取，基于语义串的文本表示和处理，基于索引的命名实体快速识别及消歧，基于半监督学习的实体种子和模式扩充，基于条件随机场及词向量聚类的命名实体识别及分类等方面开展了以下几个方面的探索新、创新性研究。构建了大规模维汉命名实体库，为本领域内研究提供了资源支撑。提出了一种多层动态索引结构的海量文本表示方法，有效组织大规模文本并快速发现海量文本中的频繁模式，采用一种改进n元递增算法对于频繁模式进行扩充，通过相应的评价方法抽取文本中的语义串。提出了一种基于语义串的文本表示模型，研究了采用该模型的维吾尔文文本聚类、分类、自动摘要方法，验证了语义串抽取方法的有效性和语义串强有的文本表征能力。研究了维吾尔文中人名音节分布特征，提出了基于内部特征和外部特征相结合的人名识别方法。提出了基于索引的实体种子和模式扩充方法，从而实现了命名实体的批量识别和消歧。在大规模标注语料上，研究了基于词向量和条件随机场的命名实体批量识别和分类方法。经过项目实施，培养硕士生6人，青年教师5人，构建了多个资源库，开发了多个算法，工具和平台,发表学术论文10篇（EI收录2篇，已录用论文1篇），申请发明专利一项，计算机软件著作权登记4项，科技成果鉴定一项，新疆维吾尔自治区科技进步二等奖一项。本课题所取得的研究成果（技术方法、算法和工具）在一个多语种网络舆情监测系统中直接应用，已为我区相关部门提供网络内容监测的自动化手段，起到了积极作用。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.1051/jnwpu/20213920292

发表时间：2021

DOI：

发表时间：

DOI：10.6041/j.issn.1000-1298.2022.07.022

发表时间：2022

DOI：10.11842/wst.20190724002

发表时间：2020

DOI：10.1360/SSM-2020-0035

发表时间：2020

吐尔地·托合提的其他基金

批准号：61262062

批准年份：2012

资助金额：46.00

项目类别：地区科学基金项目

批准号：61063022

批准年份：2010

资助金额：25.00

项目类别：地区科学基金项目

相似国自然基金

维吾尔文命名实体识别关键技术研究

批准号：61262060

批准年份：2012

负责人：艾山·吾买尔

学科分类：F0211

资助金额：45.00

项目类别：地区科学基金项目

藏语命名实体识别关键技术研究

批准号：61303165

批准年份：2013

负责人：诺明花

学科分类：F0211

资助金额：22.00

项目类别：青年科学基金项目

维吾尔文WEB舆情挖掘的关键理论及技术研究

批准号：61163033

批准年份：2011

负责人：艾斯卡尔·艾木都拉

学科分类：F0211

资助金额：53.00

项目类别：地区科学基金项目

维吾尔文自然场景文本检测与识别方法研究

批准号：61662082

批准年份：2016

负责人：刘战东

学科分类：F0605

资助金额：40.00

项目类别：地区科学基金项目

面向海量文本的维吾尔文命名实体识别关键理论及技术研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

一种基于多层设计空间缩减策略的近似高维优化方法

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

基于改进LinkNet的寒旱区遥感图像河流识别方法

基于文献计量学和社会网络分析的国内高血压病中医学术团队研究

现代优化理论与应用

吐尔地·托合提的其他基金

维、哈、柯跨语言内容过滤关键技术研究

维吾尔文网络信息内容分析与理解的关键理论和技术研究

相似国自然基金