Sparse Representation is one of the significant research topics in machine learning. In recent years, network provider has proposed an important task to analyze and process the data of user behavior, which reflects users' demands and preferences. L1 Regularization is a curcial method to perform Sparse Representation of data in statistical machine learning. However, when analyzing the data of user behavior, Regularzization requires symbolic data to be discrete, which is unreasonable and unnesessary. In fact, for specific problems, as long as cooresponding distinction relationship of samples in the symbolic data set were defined, it is posible to obtain the sparse representaion with regard to the feature significance, based on the internal structure of data. The sparse representation with regard to the sample significance can also be obtained, but not within the consideration of L1 Regularization. This project developed theorital representation and algorithm to process the sparsed data of user behavior, and made the process and results of sparse explainable. In addition, the research results would promote the research and development of this area.
稀疏表示(Sparse Representation)是机器学习研究的一个重要课题,而有用户需求或偏好的"用户行为数据"的分析与处理是近几年来网络服务商提出的主要任务之一。在统计机器学习中,L1正则化是实现数据稀疏表示的主要途径。但是,对于"用户行为数据",如果使用L1正则化方法,势必需要把符号数据不合理地理解为连续数据。事实上,针对具体问题,如果在符号数据集上关于样本能够定义出相应的区分关系,就可以根据数据的内在结构获得特征意义上的稀疏表示,并且获得样本意义上的稀疏表示,但这个问题已不再是L1正则化的任务了。而概率图模型理论在数据的稀疏表示和稀疏数据学习方面有较强的优势,因此,本项目试图借助该理论,基于符号机器学习方法,发展能够处理用户行为数据稀疏化的表示理论与算法,一方面避开不合理的"符号数据实数化",另一方面绕开最小二乘这类比较费时的计算,使稀疏化的过程和结果变得可解释的。
“用户行为数据”规模的日益增长对数据分析带来挑战。如何分析并有效处理用户行为数据,并从中找到有价值的东西,甚至对特定问题建立模型,是当前网络服务商特别关注的问题。.本项目的总体目标是基于符号机器学习方法,发展能够处理“用户行为数据”稀疏化的表示理论与算法,在符号数据稀疏表示理论研究与算法构建方面取得一些有特色且实用的研究结果。.(1)基于信息系统、决策表、序信息系统、集值决策系统、平衡数据和非平衡数据等,研究了数据稀疏化表示问题,设计了面向用户需求的系列属性约简算法、基于模糊粗糙集局部约简的启发式算法、阈值-Relief算法。同时,结合Kmeans算法,提出两种针对不平衡数据集进行特征选择的算法,分别称为Kmeans-ReliefF算法和Kmeans-Relief抽样算法。.(2)针对多属性群分级决策中属性与待评价对象众多,计算复杂且参数确定困难等问题,提出一种智能的三支群分级决策方法;针对同一标度函数下多粒度语义尺度不同无法直接集结运算而需要决策者主观选择转换函数的问题,分析了多属性群决策问题中多粒度语言存在非平衡多尺度语义的现象,定义了规范化的标度函数,通过直接对多粒度语言集进行规范化语义标度,简化了主观且复杂的转换过程。.针对多属性决策排序结果中“并列”决策现象问题,将基于信息量的属性重要性度量引入到优势度排序方法中, 提出一种基于优势粗糙集的多属性决策排序方法,克服了“并列现象”,细化了排序结果。.(3)聚类分析是处理“用户行为数据”的一种有效手段。针对非平衡数据、混合数据以及复杂网络等,从不同侧面、不同角度对聚类方法进行了研究。提出了基于先验信息的混合数据聚类个数确定算法、多中心的非平衡K-均值聚类方法、启发式社团划分算法、基于抽样的大规模混合数据聚类集成算法和基于新抽样策略的谱聚类集成算法。.本项目共发表论文20篇,其中核心以上论文15篇,省级5篇;完成译著1部。项目组成员3人考取博士,1人考取硕士;培养的硕士研究生中1人获得研究生国家励志奖学金。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
跨社交网络用户对齐技术综述
拥堵路网交通流均衡分配模型
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于细粒度词表示的命名实体识别研究
稀疏表示的移动凸包理论与方法
稀疏低秩表示优化理论与新方法研究
图像识别中区分性稀疏表示理论与方法研究
基于稀疏表示理论的图像质量提升方法研究