多标记文本数据流分类方法研究

基本信息
批准号:61503112
项目类别:青年科学基金项目
资助金额:22.00
负责人:李培培
学科分类:
依托单位:合肥工业大学
批准年份:2015
结题年份:2018
起止时间:2016-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:张玉红,潘剑寒,王婧,何俊宏,王博岩,许尧,马利伟
关键词:
分类数据分布变化多标记数据流
结项摘要

Most existing works on data stream classification are only suitable for single-label data streams. It is a challenge to apply them in the real-world data streams specially the text data streams (including the Weibo articles and the online shopping reviews) where instances have multi-labels. Meanwhile, when performing classification on data streams, traditional techniques for multi-label data classification have a relatively poor efficiency in both time and space due to the characteristics of data streams. Therefore, in our proposal, we focus on the study of online learning methods for multi-label Web data streams, especially on the study of online methods based on the feature representation of the semantic contexts of terms etc. More specifically, we first design new techniques of term recognition and feature representation of the semantic contexts in multi-label text data streams, and then we study the label dependence and matching functions between features and labels, and the online feature selection-based formalization methods. Correspondingly, we design the effectively and efficiently online multi-label data stream classification models and the corresponding evaluation measures. Secondly, we focus on the detection and prediction of the data distribution changing using the above multi-label data stream learning models. Meanwhile, we analyze the qualitative and quantitative relationship between the data distribution changing and the changing of matching functions between features and labels and noisy data, and then propose the corresponding evaluation measures. Lastly, we apply our methods into labeling the contents of Weibo articles and design a prototype classification system for multi-label data streams.

现实世界中的数据流尤其是文本数据流(例如:微博博文数据、网络购物评论数据等)数据含多个标记的现象,使得面向单标记数据流处理的分类算法难以直接使用。而数据流的海量、快速、多变等特点,又使得传统的多标记数据分类方法面临挑战。因此,本课题拟开展在线多标记文本数据流分类方法研究,重点研究基于实体语义上下文特征表示等策略的在线多标记数据分类方法。在文本数据流实体识别与语义上下文特征表示研究的基础上,开展标记间依赖关系、特征与标记映射关系的形式化表示方法与在线特征选择方法研究,进而开展在线多标记文本数据流分类模型的构建、更新与评估等方面的研究;再次,研究多标记数据流环境下的数据分布变化的检测与预测方法,探索特征与标记的映射关系变化和噪音对数据分布变化影响的定性与定量关系,构建相应的度量标准与评价体系。基于上述研究,以微博博文分类为例,设计并实现面向Web服务应用领域的多标记数据流分类的原型系统。

项目摘要

实际应用领域社交网络、网络监控、传感器网络等,正以每天数以百万Gbit增长的速度产生大量的数据流。它们呈现出海量、快速、无限等特点,更显著的特点是特征高维稀疏、隐含语义信息低质、概念漂移等。因此,针对实际流数据开展分类任务的研究,以寻求适应数据流的在线模型、解决特征高维稀疏、语义低质、概念漂移等问题,具有重要研究意义和实际应用价值。目前我们主要从以下五个方面开展工作,包括:海量数据的实体识别与语义计算方法研究、高维稀疏文本数据流的特征选择方法研究、面向文本数据流的在线分类模型与算法研究、主题漂移检测方法研究以及应用,研究工作按照预定计划,取得的研究成果总结如下:. (1)理论方法上强调创新:在国内外重要学术刊物和会议上发表高质量论文15篇,其中,已发表/录用SCI 检索期刊论文7篇(其中IEEE Trans. 论文2篇)、EI会议论文4篇(其中ICDM顶级国际会议论文1篇)、国内核心期刊论文4篇;. (2) 基础研究可持续性:在此项目研究工作的基础上,课题主持人承担1 项重点研发计划项目(No. 2016YFB1000903)子课题;. (3) 技术方法在实际应用领域的探索与应用,提高其社会效益:申请专利2项;. (4) 人才培养:培养博士生3名、硕士生5名。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

温和条件下柱前标记-高效液相色谱-质谱法测定枸杞多糖中单糖组成

温和条件下柱前标记-高效液相色谱-质谱法测定枸杞多糖中单糖组成

DOI:10.3724/ SP.J.1123.2019.04013
发表时间:2019
3

近 40 年米兰绿洲农用地变化及其生态承载力研究

近 40 年米兰绿洲农用地变化及其生态承载力研究

DOI:
发表时间:2020
4

基于多模态信息特征融合的犯罪预测算法研究

基于多模态信息特征融合的犯罪预测算法研究

DOI:
发表时间:2018
5

疏勒河源高寒草甸土壤微生物生物量碳氮变化特征

疏勒河源高寒草甸土壤微生物生物量碳氮变化特征

DOI:10.5846/stxb201912262800
发表时间:2020

李培培的其他基金

相似国自然基金

1

半监督文本情感分类方法研究

批准号:61003155
批准年份:2010
负责人:李寿山
学科分类:F0211
资助金额:20.00
项目类别:青年科学基金项目
2

面向多源高维数据流的在线特征选择与分类方法研究

批准号:61673152
批准年份:2016
负责人:胡学钢
学科分类:F0605
资助金额:61.00
项目类别:面上项目
3

基于协同训练策略的不完全标记数据流分类问题研究

批准号:61273292
批准年份:2012
负责人:胡学钢
学科分类:F0603
资助金额:80.00
项目类别:面上项目
4

多领域网络文本数据的自适应结构化分类方法研究

批准号:61300063
批准年份:2013
负责人:孙栩
学科分类:F0211
资助金额:25.00
项目类别:青年科学基金项目