Despite the great success of deep learning in intelligent analysis of images and audios, it still cannot well handle text data. Compared to images and audios, texts exhibit more complex pattern structures and knowledge structures. Thus, more diverse training data are needed in this context. However, the lack of labeled training data has become a bottleneck problem for deep learning. With the rapid growth of (mobile) Internet, the Web users have generated a huge amount of data. The weak labels provided by users (e.g. tags, review ratings and the labeled best answers in question answering communities) are invaluable information for guiding the training of deep models. However, the weak labels cannot be used in supervised training directly, due to issues such as lack of standardization and noise. This project aims to learn deep models for text understanding tasks by weakly-supervised learning and transfer learning. The research topics include: (1) spam text filtering; (2) filtering and refinement of weak label information; (3) weakly-supervised training methods for deep text understanding models; (4) task-related deep model training methods based on transfer learning with deep models obtained from weakly-supervised learning. The overall goal is to effectively boost the performance of deep learning on intelligent text understanding tasks.
尽管深度学习在图像和音频数据的智能分析理解上取得了瞩目的成绩,在文本领域仍有较大的提升空间。相较于图像和音频,文本具有更复杂的模式结构和知识结构,因而需要更加复杂多样的训练数据。然而,缺乏有标注的训练数据已成为深度学习的瓶颈问题。随着互联网的普及和移动互联的迅速兴起,用户成为了互联网数据的主要产出者。用户产生的弱标注信息(如tag、评论评分、问答社区的最佳答案标注)为基于深度学习的文本智能理解提供了指导性信息。但用户产生的弱标注信息中存在不规范和噪声等问题,无法直接用于深度模型的有监督训练。为解决该问题,本课题将研究基于弱监督学习和迁移学习的深度文本理解模型学习方法。研究内容包括:(1)弱标注数据中的垃圾文本过滤;(2)弱标注信息过滤精化;(3)文本深度理解模型的弱监督训练方法;(4)在弱监督学习获得的模型基础上,结合迁移学习的任务相关模型训练方法。最终有效提升文本智能理解应用问题的效果。
尽管深度学习在图像和音频数据的智能分析理解上取得了瞩目的成绩,在文本领域仍有较大的提升空间。相较于图像和音频,文本具有更复杂的模式结构和知识结构,因而需要更加复杂多样的训练数据。然而,缺乏有标注的训练数据已成为深度学习的瓶颈问题。随着互联网的普及和移动互联的迅速兴起,用户成为了互联网数据的主要产出者。用户产生的弱标注信息(如tag、评论评分、问答社区的最佳答案标注)为基于深度学习的文本智能理解提供了指导性信息。但用户产生的弱标注信息中存在不规范和噪声等问题,无法直接用于深度模型的有监督训练。在此背景下,本项目从以下四方面开展研究工作,取得显著成果:(1)数据噪音影响去除:提出了两套鲁棒的抗噪音训练网络框架;结合注意力机制,提出了一种异质图卷积网络用于学习过滤精化中对象的相似性关系;(2)文本高层语义特征学习:基于注意力机制、进化策略、多视角学习等技术思想提出了一系列文本高层语义特征学习方法;(3)基于弱监督模型的多任务迁移学习:提出了三套弱监督多任务迁移学习方法,分别用于处理隐含式反馈、粗粒度和关系型的弱标注信息,将弱监督模型成功应用于具体的文本理解任务;(4)无任何标注场景下的自监督学习:提出了自监督异质图预训练方法和双图对比学习方法对无标注数据进行学习。共发表成果论文20篇,其中中国计算机学会A类期刊/会议论文11篇。部分成果支持获得2020年度浙江省自然科学一等奖。培养博士生2人,硕士生6人。
{{i.achievement_title}}
数据更新时间:2023-05-31
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
一种改进的多目标正余弦优化算法
面向工件表面缺陷的无监督域适应方法
面向文本分类的迁移学习和半监督学习方法研究
面向高光谱影像解译的无监督迁移深度表示模型与学习方法
基于弱监督深度学习的三维模型分类方法研究
基于视觉关系学习的弱监督图像理解研究