The web texts are from massive domains with diversified characteristics, which lead to a new challenge for natural language processing studies. Existing structured classification methods lack the adaptive learning ability given the cross-domain web text data. To deal with this issue, this project aims at studying characteristics of multiple domain web texts, and to propose adaptive structured learning methods based on the multiple domain data. The major research points are as follows: (1) We take each domain as a task that relates to other domains/tasks, and study multi-task learning method for modeling multi-domain web texts. This method can learn the domain similarities adaptively and automatically, and can process cross-domain web texts automatically via modeling the relationship of various domains. (2) We take domain specific characteristics as hidden information, and to study latent conditional models for adaptively processing multi-domain data. This method can universally model the hidden information of different domains, so that the multi-domain data can be automatically combined for improving the performance of structured classification tasks.(3) The multi-task learning methods and latent conditional models face the problem of high complexity and low efficiency on modeling multi-domain web texts. We study fast optimization methods for solving this problem.
网络文本数据来自多个不同的领域,形成了一个领域高度多元化的文本数据集,给自然语言处理带来新挑战。现有结构化分类技术在领域多元化的网络文本数据上缺乏跨领域的自适应学习能力。为了解决此问题,本项目拟研究多领域网络文本数据的特点,提出具有自适应能力的结构化学习方法。主要研究内容如下:(1)把每个领域作为一个和其他领域相关的任务,研究多任务学习技术用于处理多领域网络文本数据。该方法对领域关联度进行自适应学习,从领域相关性自动建模的角度处理跨领域的网络文本。(2)把领域特性作为任务的隐含信息,研究条件隐变量模型对多领域数据的自适应处理能力。该方法对领域的隐含信息进行统一建模,从而能够自动融合多领域数据,实现高效的结构化分类目标。(3)不管是多任务学习还是条件隐变量模型,处理多领域网络文本都面临复杂度高、速度慢的问题,我们研究高速的优化算法解决这个问题。
本项目的主要内容是多领域网络文本数据的自适应结构化分类方法研究。该研究包含两个方面,一是基础理论和技术,二是具体应用。在基础理论和技术方面,多领域网络文本的自然语言处理任务,存在数据规模庞大、学习容易过拟合的问题。针对这些问题我们提出了一系列解决方案,包括异步并行的AsynGrad算法、基于结构分解的结构正则化方法以及特征频率自适应学习方法。对于深度学习模型,异步并行的AsynGrad算法能有效的利用CPU计算资源,并行地训练同一个模型。而基于结构分解的结构正则化方法则通过寻找适合模型的结构复杂度,一方面提高了相应模型的效果,另一方面提高了训练速度。对于传统模型的参数学习,特征频率自适应学习方法能根据特征更新的历史信息启发式的更改学习率,实现了针对每个特征差异的学习率,有效的提高了训练收敛速度。在具体应用方面,多领域网络文本存在缩略语较多、分词和命名实体识别困难等问题。我们针对这些问题提出了一系列技术方案,包括跨领域学习和半监督学习的联合算法、深度模型DGRNN以及基于弱监督的重排序算法和基于最小语义单元的ILP约束算法。跨领域学习和半监督学习的联合算法用于中文网络文本的命名实体识别任务,并在微博命名实体识别任务上大幅改善了效果。深度模型DGRNN则用于网络文本的分词问题,在不同语料上超越了以往算法的效果。基于弱监督的重排序算法和基于最小语义单元的ILP约束算法用于缩略语预测,在实践中均取得了较好效果。这些研究以论文的形式发表在自然语言处理最高级别期刊CL和顶级会议ACL,NIPS,AAAI,EMNLP,COLING等。项目负责人孙栩在总结项目研究结果基础上,在国际会议EMNLP 2016上进行了题为"Methods and theories for large-scale structured prediction" 的讲习班报告(Tutorial)。报告历时3小时,并获得广泛关注,为本次会议6个tutorial中注册人数最多的2个tutorial之一,在国际学术领域产生了较大的影响。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
跨社交网络用户对齐技术综述
基于多模态信息特征融合的犯罪预测算法研究
城市轨道交通车站火灾情况下客流疏散能力评价
基于FTA-BN模型的页岩气井口装置失效概率分析
多标记文本数据流分类方法研究
面向非结构化文本的领域知识获取方法的研究
基于深度迁移学习的跨领域文本情感分类方法研究
基于深度网络的领域自适应振动数据故障诊断方法研究