“用户行为数据”稀疏表示的理论与方法

基本信息
批准号:61273294
项目类别:面上项目
资助金额:46.00
负责人:韩素青
学科分类:
依托单位:太原师范学院
批准年份:2012
结题年份:2016
起止时间:2013-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:赵月爱,阴桂梅,胡正红,张虹,张朝霞,崔彩霞,菅小艳,郭慧娟,庞天杰
关键词:
稀疏表示用户行为数据迁移学习
结项摘要

Sparse Representation is one of the significant research topics in machine learning. In recent years, network provider has proposed an important task to analyze and process the data of user behavior, which reflects users' demands and preferences. L1 Regularization is a curcial method to perform Sparse Representation of data in statistical machine learning. However, when analyzing the data of user behavior, Regularzization requires symbolic data to be discrete, which is unreasonable and unnesessary. In fact, for specific problems, as long as cooresponding distinction relationship of samples in the symbolic data set were defined, it is posible to obtain the sparse representaion with regard to the feature significance, based on the internal structure of data. The sparse representation with regard to the sample significance can also be obtained, but not within the consideration of L1 Regularization. This project developed theorital representation and algorithm to process the sparsed data of user behavior, and made the process and results of sparse explainable. In addition, the research results would promote the research and development of this area.

稀疏表示(Sparse Representation)是机器学习研究的一个重要课题,而有用户需求或偏好的"用户行为数据"的分析与处理是近几年来网络服务商提出的主要任务之一。在统计机器学习中,L1正则化是实现数据稀疏表示的主要途径。但是,对于"用户行为数据",如果使用L1正则化方法,势必需要把符号数据不合理地理解为连续数据。事实上,针对具体问题,如果在符号数据集上关于样本能够定义出相应的区分关系,就可以根据数据的内在结构获得特征意义上的稀疏表示,并且获得样本意义上的稀疏表示,但这个问题已不再是L1正则化的任务了。而概率图模型理论在数据的稀疏表示和稀疏数据学习方面有较强的优势,因此,本项目试图借助该理论,基于符号机器学习方法,发展能够处理用户行为数据稀疏化的表示理论与算法,一方面避开不合理的"符号数据实数化",另一方面绕开最小二乘这类比较费时的计算,使稀疏化的过程和结果变得可解释的。

项目摘要

“用户行为数据”规模的日益增长对数据分析带来挑战。如何分析并有效处理用户行为数据,并从中找到有价值的东西,甚至对特定问题建立模型,是当前网络服务商特别关注的问题。.本项目的总体目标是基于符号机器学习方法,发展能够处理“用户行为数据”稀疏化的表示理论与算法,在符号数据稀疏表示理论研究与算法构建方面取得一些有特色且实用的研究结果。.(1)基于信息系统、决策表、序信息系统、集值决策系统、平衡数据和非平衡数据等,研究了数据稀疏化表示问题,设计了面向用户需求的系列属性约简算法、基于模糊粗糙集局部约简的启发式算法、阈值-Relief算法。同时,结合Kmeans算法,提出两种针对不平衡数据集进行特征选择的算法,分别称为Kmeans-ReliefF算法和Kmeans-Relief抽样算法。.(2)针对多属性群分级决策中属性与待评价对象众多,计算复杂且参数确定困难等问题,提出一种智能的三支群分级决策方法;针对同一标度函数下多粒度语义尺度不同无法直接集结运算而需要决策者主观选择转换函数的问题,分析了多属性群决策问题中多粒度语言存在非平衡多尺度语义的现象,定义了规范化的标度函数,通过直接对多粒度语言集进行规范化语义标度,简化了主观且复杂的转换过程。.针对多属性决策排序结果中“并列”决策现象问题,将基于信息量的属性重要性度量引入到优势度排序方法中, 提出一种基于优势粗糙集的多属性决策排序方法,克服了“并列现象”,细化了排序结果。.(3)聚类分析是处理“用户行为数据”的一种有效手段。针对非平衡数据、混合数据以及复杂网络等,从不同侧面、不同角度对聚类方法进行了研究。提出了基于先验信息的混合数据聚类个数确定算法、多中心的非平衡K-均值聚类方法、启发式社团划分算法、基于抽样的大规模混合数据聚类集成算法和基于新抽样策略的谱聚类集成算法。.本项目共发表论文20篇,其中核心以上论文15篇,省级5篇;完成译著1部。项目组成员3人考取博士,1人考取硕士;培养的硕士研究生中1人获得研究生国家励志奖学金。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

跨社交网络用户对齐技术综述

跨社交网络用户对齐技术综述

DOI:10.12198/j.issn.1673 − 159X.3895
发表时间:2021
3

拥堵路网交通流均衡分配模型

拥堵路网交通流均衡分配模型

DOI:10.11918/j.issn.0367-6234.201804030
发表时间:2019
4

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
5

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018

韩素青的其他基金

相似国自然基金

1

稀疏表示的移动凸包理论与方法

批准号:11571312
批准年份:2015
负责人:张振跃
学科分类:A0502
资助金额:50.00
项目类别:面上项目
2

稀疏低秩表示优化理论与新方法研究

批准号:61672265
批准年份:2016
负责人:吴小俊
学科分类:F0605
资助金额:64.00
项目类别:面上项目
3

图像识别中区分性稀疏表示理论与方法研究

批准号:61202228
批准年份:2012
负责人:陈思宝
学科分类:F0605
资助金额:22.00
项目类别:青年科学基金项目
4

基于稀疏表示理论的图像质量提升方法研究

批准号:61803193
批准年份:2018
负责人:刘兆栋
学科分类:F0310
资助金额:24.00
项目类别:青年科学基金项目