分类体系不确定的机器学习研究

基本信息

批准号：61473274

项目类别：面上项目

资助金额：80.00

负责人：罗平

学科分类：

依托单位：中国科学院计算技术研究所

批准年份：2014

结题年份：2018

起止时间：2015-01-01 - 2018-12-31

项目状态：已结题

项目参与者：敖翔,杜长营,周干斌,余文超,韩硕,程晓虎,吴新宇,闫肃,罗丹

关键词：

泛化在线学习学习理论不确定分类体系机器学习

结项摘要

Conventional machine learning research usually assumes that the data taxonomy is clear and stable. However, with the widely use of machine learning techniques in various real-world applications we encounter more and more tasks where the data taxonomy cannot be determined in advance. In these tasks, the class labels on the instances may change with different settings of parameters on data taxonomy, the features on the instances may also change with the feature parameters, and new class labels may appear in the testing data. Therefore, in this project we carefully consider the Indeterminate Classification Taxonomy in terms of "parameterized class labels", "parameterized features", and "augmentable class labels", and aim to theoretically analyze how these factors influence the learnability. Specifically, we will propose the method which can collaboratively learn the classification taxonomy and classification model simultaneously. Additionally, considering that big data accumulate continuously we will also extend these problems into online learning paradigm. Finally, all the proposed methods will be applied to real-world applications (e.g. quantitative trading) for practical evaluation. We hope that this project will output 10-15 high-quality papers published in prestigious journals (e.g. TKDE, TKDD, ML etc.) and top conferences (KDD, ICML, IJCAI, NIPS, ECML, CIKM, ICDM etc.).

传统的机器学习研究通常假定：数据的分类体系是明确恒定的，即数据分类标准恒定，且训练样本与测试样本的类别相同。随着机器学习技术逐渐走向实用，不可避免地在越来越多的任务中面临数据分类体系的不确定问题；在这样的问题中，数据的决策属性（分类类别）可随参数变化，数据的条件属性（观测特征）可随参数变化，且样本类别可能增加。本项目从"决策属性函数化"、"条件属性函数化"和"类别增加"三个方面考虑分类体系不确定下的机器学习问题，拟从理论上分析上述因素对可学习性的影响，提出能同时耦合学习分类体系和分类模型的机器学习方法；从数据量大并不断积聚的需求出发，提出这些问题的在线学习方法；并力求在实际问题（例如：量化股票交易）中得到验证应用。基于上述研究工作，本项目将在国内外一流期刊（TKDE、TKDD、ML等）和顶级会议（KDD、ICML、IJCAI、ECML、CIKM、ICDM等）上发表论文10-15篇。

项目摘要

传统机器学习通常假设分类体系事先确定；但现实的问题中，往往事先并不能确定分类体系，或者分类体系随时间变化。为此，本项目研究：1）研究半定义学习问题和模型，批自适应随机梯度下降方法和尺度不变的参数化矩阵分解方法，以提高大规模机器学习的学习效率和性能；2）研究复杂结构体处理分类体系不确定问题，提出问答系统中结构体机制应答模型，和复杂结构体的信息抽取模型；3）研究分类体系不确定的行为机理，对用户行为进行认知机理建模和分类。在系统建设和实际应用方面，基于Spark平台开发实现了概率图模型半定义分类模型和系统，并在大规模的微信公众号文章分类任务上进行验证。相关研究模型已在百度、微信、上交所等应用场景实现落地应用。受本项目资助，累计发表论文24篇，其中国际会议18篇（CCF A类会议12篇），国际期刊6篇（CCF A类期刊1篇）；申请专利8项。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：

DOI：10.13334/j.0258-8013.pcsee.190276

发表时间：2020

DOI：10.14050/j.cnki.1672-9250.2017.02.014

发表时间：2017

DOI：10.13336/j.1003-6520.hve.20200528028

发表时间：2021

DOI：10.3778/j.issn.1002-8331.1903-0411

发表时间：2020

罗平的其他基金

批准号：61503366

批准年份：2015

资助金额：21.00

项目类别：青年科学基金项目

批准号：81603109

批准年份：2016

资助金额：17.30

项目类别：青年科学基金项目

批准号：31800598

批准年份：2018

资助金额：25.00

项目类别：青年科学基金项目

批准号：19971050

批准年份：1999

资助金额：6.00

项目类别：面上项目

批准号：60973142

批准年份：2009

资助金额：30.00

项目类别：面上项目

批准号：31560277

批准年份：2015

资助金额：39.00

项目类别：地区科学基金项目

相似国自然基金

基于深度学习等机器学习算法的星系光谱自动分类方法研究

批准号：11803055

批准年份：2018

负责人：陶一寒

学科分类：A1904

资助金额：28.00

项目类别：青年科学基金项目

虹膜特征表示结构与机器学习分类方法研究

批准号：60803110

批准年份：2008

负责人：古红英

学科分类：F0205

资助金额：19.00

项目类别：青年科学基金项目

基于弱指导机器学习技术的中文领域本体非分类关系自动学习研究

批准号：61300120

批准年份：2013

负责人：仇晶

学科分类：F0607

资助金额：23.00

项目类别：青年科学基金项目

机器学习在基因功能分类中的应用研究

批准号：30240026

批准年份：2002

负责人：林魁

学科分类：C0608

资助金额：8.00

项目类别：专项基金项目

分类体系不确定的机器学习研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于国产化替代环境下高校计算机教学的研究

多能耦合三相不平衡主动配电网与输电网交互随机模糊潮流方法

基于综合治理和水文模型的广西县域石漠化小流域区划研究

带有滑动摩擦摆支座的500 kV变压器地震响应

新型树启发式搜索算法的机器人路径规划

罗平的其他基金

基于图像属性和深度学习的大规模物体检测研究与应用

LOX-1介导内皮祖细胞功能损伤在高血压发生发展中的作用及机制研究

RhNAC32调控月季单萜醇类花香物质合成的分子基础

多体接触问题的非匹配网格的区域分解算法

基于整数格的短公钥、长私钥指数RSA算法的密码分析

高海拔暴露对工作记忆的影响及其脑机制

相似国自然基金