基于深度学习的零样本和小样本文本过滤技术研究

基本信息
批准号:61872278
项目类别:面上项目
资助金额:65.00
负责人:李晨亮
学科分类:
依托单位:武汉大学
批准年份:2018
结题年份:2022
起止时间:2019-01-01 - 2022-12-31
项目状态: 已结题
项目参与者:孙爱欣,郑渤龙,田纲,全聪,吴伟,齐燕,孙万捷,段誉,陈诗倩
关键词:
文本排序文本分析信息检索文本过滤
结项摘要

Document filtering has become an indispensable technical process for document analysis. This class of techniques provides technical support for information retrieval and recommendation related applications in the era of big data. Existing works mainly develop the filtering solutions in the paradigm of supervised learning, which requires a lot of manually identified documents for each category in their training phase. In the era of big data, the number of possible categories covered by documents becomes constantly larger. It is unrealistic to manually identify a lot of positive examples for each possible category. In this project, our endeavor is devoted to the development of zero/few-shot document filtering techniques based solely on the provided semantic keywords (called seed words) of each category, aiming at reducing the cost for building the expensive training data. Following the deep learning and information retrieval methodologies, we mainly focus on the following research topics: (1) the category-specific relevance representation learning for documents based on word embeddings; (2) zero-shot driven category-specific relevance signal extraction for documents; (3) few-shot driven semantic matching for documents; (4) few-shot document filtering on the basis of zero-shot document filtering model. This project will make significant contributions to the development of text processing techniques and fulfill the requirement on the cost reduction for building training data.

文本过滤已成为文档分析不可缺少的技术手段。这项技术对于大数据时代下的各类应用中的信息检索、商品推荐等服务提供了技术层面的支撑。现有研究工作主要基于监督学习技术,需要借助大量人力去构建类别的训练文档。然而,在大数据时代的背景下,文档可能覆盖的类别数量不断增长,构建所有类别的训练文档是不现实的。本项目旨在通过类别的语义关键词(种子词),研究基于种子词的零样本/小样本学习的文本过滤技术,克服上述的文本种类不断增长和标注文档样本代价昂贵的难题。项目将采用深度学习与信息检索相关技术理论,重点研究:1)基于词向量表示的文本类别关联特征表示学习技术;2)面向零样本的文本类别语义关联信息的提取机制;3)面向小样本的文本语义匹配技术;4)基于零样本文本过滤模型的小样本文本过滤方法。本项研究对于推动文本处理技术的进一步发展以及降低大数据时代构建训练数据成本的需求具有重要的科学意义和应用价值。

项目摘要

该项目试图从少量代表类别语义信息的单词(简称种子词)出发,利用词向量表示学习、信息检索、自然语言处理以及人工智能中神经网络相关知识和技术,基于种子词针对性地表示文档与对应类别之间的关联特征,通过设计基于深度神经网络的关联度估计模型,从文档中提取目标类别的语义关联信息,实现针对目标类别的零样本文本相关度排序,即文本过滤;与此同时,通过目标领域少量样本,设计面向文本匹配的深度神经网络模型;在零样本文本过滤模型的基础之上,强化文档对于类别的特征信息提取性能,进一步提升文本过滤的性能,实现目标类别领域的零样本/小样本文本过滤目标。通过解决其中涉及的关键科学问题,丰富基于深度学习的文本检索理论,并最终服务于围绕文本信息为主题的各类信息检索、新闻推送、个性化商品推荐以及广告营销等应用。具体而言,该项目以文本过滤任务为研究对象,在给定类别对应的种子词的辅助条件下,建立基于种子词的文档与类别之间关联特征的表示方法;基于深度学习对抗训练方法构建面向零样本的文档类别语义关联信息的提取与融合机制;在零样本文档语义关联信息提取与融合的基础上,借助强化学习理论建立小样本文档类别过滤方法体系,最终实现在训练文档类别有限、以及目标类别标注文档数量有限的情况下,根据类别少量种子词完成类别过滤任务。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
3

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
4

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
5

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

DOI:10.19701/j.jzjg.2015.15.012
发表时间:2015

李晨亮的其他基金

相似国自然基金

1

深度视觉零样本学习关键技术研究

批准号:61771329
批准年份:2017
负责人:冀中
学科分类:F0116
资助金额:67.00
项目类别:面上项目
2

基于深度学习的小样本高光谱图像分类方法

批准号:61901369
批准年份:2019
负责人:丁晨
学科分类:F0113
资助金额:24.50
项目类别:青年科学基金项目
3

基于小样本深度学习的雷达图像人体行为识别方法

批准号:61901049
批准年份:2019
负责人:何元
学科分类:F0112
资助金额:23.00
项目类别:青年科学基金项目
4

基于零样本学习的人体行为识别研究

批准号:61906013
批准年份:2019
负责人:田艺
学科分类:F0604
资助金额:27.00
项目类别:青年科学基金项目