文本分类中的文本图表示模型和结构化稀疏模型研究

基本信息
批准号:61472183
项目类别:面上项目
资助金额:80.00
负责人:戴新宇
学科分类:
依托单位:南京大学
批准年份:2014
结题年份:2018
起止时间:2015-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:姜春涛,付强,赵迎功,潘林林,邹远航,程川,牛力强
关键词:
文本图表示模型稀疏模型文本分类
结项摘要

Text categorization is an important research area for large-scale information retrieval. We propose to do some deep research on text representation and learning model for the application of text categorization. Firstly, we present a text graph representation with rich structured features of lexicon, syntax and semantic knowledge. Secondly,the sparse model with structured regularizer will be designed which can make directly use of the structured features within the text. And we will also present the optimization method for our structured sparse model. Based on our theoretical work, a high performance text categorization system will be designed and implemented. Our work can also be applied to other tasks of structured learning with structured representation in natural language processing area. In this project, we will try to publish several high quality journal papers or conference papers. Two or three patents will be submitted. And we will build a open source platform for text representation and text categorization.

文本分类是自然语言处理研究中的一个经典问题。文本分类技术在网络舆情分析、专利分析等领域具有广泛的应用。本课题针对目前文本分类研究中文本表示模型表达能力不足,分类模型不能充分利用结构化信息等问题,研究基于文本结构化表示的结构化稀疏模型。首先,探索研究结合词法、句法、语义及篇章信息,能够蕴含多层次结构化信息的文本图表示模型;其次,基于文本结构化表示的特性,提出能够针对文本图表示的结构特性,将特征选择和模型学习相融合、具有高压缩性、可解释性等良好性质的结构化稀疏模型;给出结构化稀疏模型优化学习算法;最终基于上述理论成果,构建高性能的文本分类系统。本项目的研究成果将对自然语言处理中涉及结构化特征选择和分类模型的任务提供广泛的借鉴意义。本项目可望在重要的国际国内期刊、会议上发表高质量论文5-8篇,申请发明专利2-3项,研制开源平台系统1个,培养学生5-8名。

项目摘要

在包括文本分类为代表的若干自然语言处理任务中,文本数据的表示和分类模型一直是研究者们关注的两个核心问题。项目组基于任务书中关于文本结构化表示和结构化稀疏模型这两个方面,展开了深入的探索和研究。具体的研究内容包括:自然语言的词法和句法分析技术、文本表示模型和方法、结构化稀疏模型和方法、基于深度学习的文本表示模型和方法,以及以文本表示为基础的自然语言处理若干应用研究。项目组提出了基于集成学习的中文分词技术、基于搜索的动态重排序的中文依存句法分析、基于用户评论文本的文档表示、基于分布式表示学习的词及其属性表示学习的一体化框架等一系列创新性的成果,共发表学术论文20篇。根据中国计算机学会(CCF)推荐的论文分类体系,包含A类论文6篇,B类论文3篇,C类论文5篇,多篇论文google scholar引用已经超过20次。申请国家发明专利3项,其中已授权2项。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
2

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
3

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
4

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018
5

货币政策与汇率制度对国际收支的影响研究

货币政策与汇率制度对国际收支的影响研究

DOI:
发表时间:2022

戴新宇的其他基金

批准号:61003112
批准年份:2010
资助金额:20.00
项目类别:青年科学基金项目

相似国自然基金

1

基于带有通配符序列模式和主题模型的短文本表示研究

批准号:61503116
批准年份:2015
负责人:谢飞
学科分类:F0606
资助金额:19.00
项目类别:青年科学基金项目
2

基于概率图的文本检索模型及算法研究

批准号:61462043
批准年份:2014
负责人:左家莉
学科分类:F0211
资助金额:46.00
项目类别:地区科学基金项目
3

文本自动分类中样本重要性模型及应用研究

批准号:61272212
批准年份:2012
负责人:王明文
学科分类:F0211
资助金额:70.00
项目类别:面上项目
4

面向文本信息安全的类别语义模型分类方法研究

批准号:61202226
批准年份:2012
负责人:周晓飞
学科分类:F0607
资助金额:22.00
项目类别:青年科学基金项目