With the arrival of Big Data, the rapid growth of text data poses great challenges for information processing and utilization, feature selection is the basis of machine learning, which has a crucial impact on the accuracy and efficiency of the algorithm. Starting from text big data, this project intends to develop an efficient feature learning algorithm based on ecological succession theory, and to realize incremental dynamic learning for that model. The main research contents include: 1. Multi-granularity text feature modelling; 2. Real time text feature succession modeling; 3. Document-level and sentence-level oriented automatic text feature learning methods; 4. Text feature learning based on empirical research of ecological succession. The research of this project will provide a solid theoretical foundation for text mining, information retrieval and machine learning models, promote the development of text feature dimension reduction research, and provide practical application value for the public opinion monitoring, semantic analysis.
随着大数据时代的到来,文本数据的快速增长给信息处理和使用带来巨大的挑战,特征选择是机器学习算法的基础,对算法的准确度和效率有着关键性影响。本项目拟从文本大数据出发,基于生态演替理论研究特征学习高效算法,并实现模型的增量动态学习。主要研究内容包括:1.多粒度文本特征建模;2.针对实时数据的文本特征演替模型研究;3.面向篇章级和句子级自动文本特征学习方法研究;4.基于生态演替的文本特征学习实证研究。本项目的研究将为文本挖掘、信息检索领域的机器学习模型提供坚实的理论基础,同时推动文本特征降维研究的发展,为舆情监测、语义分析提供实际应用价值。
文本大数据时代给信息处理和知识使用带来巨大挑战,文本特征学习和特征演化是自然语言处理领域重要研究方向,传统人工特征设计方式耗费大量人力,随着时间的推移可能产生新特征,此外基于概率方法和深度学习方式具有特征不可解释性。针对以上问题,本项目基于演替理论,聚焦大数据文本特征的自动特征学习研究,包括(1)研究面向文本大数据的篇章级语义特征构建,提出一种特征本体的文本特征结构,将文本语义特征抽象为概念以及概念空间上的网络关系结构,并在该结构上研究特征在时间上的演化规律;(2)研究基于特征本体的特征学习优化策略,提出基于马尔科夫决策过程的特征图簇剪枝优化过程,和基于随机森林的特征抽取过程;(3)研究句子级文本特征学习方法,提出一种层次LSTM深度神经网络文本语义特征抽取及蕴含识别模型。最后将相关理论及方法应用于机器阅读理解、垃圾邮件过滤、主题检测和词义消歧等领域。本项目研究内容为自然语言处理各个应用领域提供了一种全新的特征表示方法,有助于进一步降低特征之间的冗余信息,提升分类系统准确率及算法效率。
{{i.achievement_title}}
数据更新时间:2023-05-31
演化经济地理学视角下的产业结构演替与分叉研究评述
基于分形L系统的水稻根系建模方法研究
论大数据环境对情报学发展的影响
近 40 年米兰绿洲农用地变化及其生态承载力研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
大数据环境下基于特征本体学习的无监督文本分类方法研究
基于深度学习的数据-文本生成技术研究
基于深度学习的文本和语音多模态数据挖掘研究
基于深度学习和主题模型的文本特征提取方法研究