Conventional machine learning research usually assumes that the data taxonomy is clear and stable. However, with the widely use of machine learning techniques in various real-world applications we encounter more and more tasks where the data taxonomy cannot be determined in advance. In these tasks, the class labels on the instances may change with different settings of parameters on data taxonomy, the features on the instances may also change with the feature parameters, and new class labels may appear in the testing data. Therefore, in this project we carefully consider the Indeterminate Classification Taxonomy in terms of "parameterized class labels", "parameterized features", and "augmentable class labels", and aim to theoretically analyze how these factors influence the learnability. Specifically, we will propose the method which can collaboratively learn the classification taxonomy and classification model simultaneously. Additionally, considering that big data accumulate continuously we will also extend these problems into online learning paradigm. Finally, all the proposed methods will be applied to real-world applications (e.g. quantitative trading) for practical evaluation. We hope that this project will output 10-15 high-quality papers published in prestigious journals (e.g. TKDE, TKDD, ML etc.) and top conferences (KDD, ICML, IJCAI, NIPS, ECML, CIKM, ICDM etc.).
传统的机器学习研究通常假定:数据的分类体系是明确恒定的,即数据分类标准恒定,且训练样本与测试样本的类别相同。随着机器学习技术逐渐走向实用,不可避免地在越来越多的任务中面临数据分类体系的不确定问题;在这样的问题中,数据的决策属性(分类类别)可随参数变化,数据的条件属性(观测特征)可随参数变化,且样本类别可能增加。本项目从"决策属性函数化"、"条件属性函数化"和"类别增加"三个方面考虑分类体系不确定下的机器学习问题,拟从理论上分析上述因素对可学习性的影响,提出能同时耦合学习分类体系和分类模型的机器学习方法;从数据量大并不断积聚的需求出发,提出这些问题的在线学习方法;并力求在实际问题(例如:量化股票交易)中得到验证应用。基于上述研究工作,本项目将在国内外一流期刊(TKDE、TKDD、ML等)和顶级会议(KDD、ICML、IJCAI、ECML、CIKM、ICDM等)上发表论文10-15篇。
传统机器学习通常假设分类体系事先确定;但现实的问题中,往往事先并不能确定分类体系,或者分类体系随时间变化。为此,本项目研究:1)研究半定义学习问题和模型,批自适应随机梯度下降方法和尺度不变的参数化矩阵分解方法,以提高大规模机器学习的学习效率和性能;2)研究复杂结构体处理分类体系不确定问题,提出问答系统中结构体机制应答模型,和复杂结构体的信息抽取模型;3)研究分类体系不确定的行为机理,对用户行为进行认知机理建模和分类。在系统建设和实际应用方面,基于Spark平台开发实现了概率图模型半定义分类模型和系统,并在大规模的微信公众号文章分类任务上进行验证。相关研究模型已在百度、微信、上交所等应用场景实现落地应用。受本项目资助,累计发表论文24篇,其中国际会议18篇(CCF A类会议12篇),国际期刊6篇(CCF A类期刊1篇);申请专利8项。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于SSVEP 直接脑控机器人方向和速度研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
面向云工作流安全的任务调度方法
城市轨道交通车站火灾情况下客流疏散能力评价
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
基于深度学习等机器学习算法的星系光谱自动分类方法研究
虹膜特征表示结构与机器学习分类方法研究
基于弱指导机器学习技术的中文领域本体非分类关系自动学习研究
机器学习在基因功能分类中的应用研究