Feature selection is one of key problems in pattern recognition and machine learning. As a common dimensionality reduction technique and knowledge discovery tool, the stability and privacy preservation of feature selection result is increasingly significant. It has been proved that ensemble learning can improve the stability of feature selection. However, the theoretical analysis of stability of ensemble feature selection is few. Moreover, few papers discussed the ensemble feature selection with privacy preservation. Since the local-learning based feature selection has the flexible model and high performance on high dimensional small sample size data, we will do some researches on local-learning based ensemble feature selection and deeply analyzing its stability in this project. Furthermore, the local-learning based privacy preserving ensemble feature selection will be analyzed and the corresponding algorithm will be designed based on the stability and differential privacy. The research fruits will be applied into real-world data. The concrete researches consist of: (1) The local-learning based ensemble feature selection and its stability analysis; (2) Differentially private ensemble feature selection based on stability; (3) The proposed method will be applied into speech measurements selection as well as patients’ privacy preservation for Parkinson detection and tracking. These researches have theoretical and practical value for high dimensional data analysis problem in pattern recognition and machine learning.
特征选择是模式识别和机器学习领域的一个关键问题。作为常用的降维技术和知识发现的工具,特征选择结果的稳定性及其保护数据隐私的性能日益重要。已有研究表明:集成学习的方法可以有效提高特征选择结果的稳定性,但缺少深入的理论分析。而集成特征选择的隐私保护性能则鲜有研究。由于基于局部学习的特征选择方法具有模型的灵活性及其所保证的算法处理高维小样本数据的有效性,本课题将研究基于局部学习的集成特征选择,并深入分析其输出结果的稳定性。进一步地,基于稳定性分析结果,结合差分隐私,分析和研究具有隐私保护性能的集成特征选择方法,并用于解决实际问题。具体研究内容包括:(1)基于局部学习的集成特征选择及其稳定性分析;(2)基于稳定性的差分隐私集成特征选择研究;(3)研究成果将应用于挑选与帕金森症相关的关键语音指标,同时保护患者的隐私信息。本研究对模式识别和机器学习等领域所面临的高维数据分析,具有重要的理论和实际意义。
特征选择是模式识别和机器学习领域的一个关键问题。作为常用的降维技术和知识发现的工具,特征选择结果的稳定性及其保护数据隐私的性能日益重要。本课题在对基于局部学习的集成特征选择的稳定性进行深入分析的基础上,设计了两种隐私保护集成特征选择的干扰策略,并与域适应性模型相结合用于帕金森症严重程度的UPDRS评分诊断。设计了新的集成特征选择方法,即最小最大集成特征选择方法。提出了新的特征选择框架,即基于对抗训练的特征选择,对抗逃避攻击的特征选择方法和提升深度学习模型鲁棒性的特征挑选方法,并对特征选择研究的进展进行了较全面的综述。此外,将集成思想进行扩展,设计了两种针对深度学习系统的集成攻击策略,探索深度学习系统的脆弱性。还将局部学习进行扩展,用于消除训练集中的歧视样本,提升了学习模型的公平性。本研究对模式识别和机器学习等领域所面临的高维数据分析,具有重要的理论和实际意义。
{{i.achievement_title}}
数据更新时间:2023-05-31
监管的非对称性、盈余管理模式选择与证监会执法效率?
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
水氮耦合及种植密度对绿洲灌区玉米光合作用和干物质积累特征的调控效应
掘进工作面局部通风风筒悬挂位置的数值模拟
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
关于选择性集成学习框架的拓展性研究
基于集成学习的基因微阵列数据特征选择和癌症分类研究
隐私保护的对抗性特征选择及其拓展研究
基于局部学习策略与局部性能估计的动态集成方法研究