Rank data is a common data type, where people rank the items according to some criterion. It is widely used in various disciplines, such as medical science, economics and psychology. For the same problem under investigation, due to the personal preference or the distinct samples different research groups study, we may obtain not the same but highly correlated rank data. Since those rank data provide complementary information, how to integrate them to get an accurate consensus rank is the focus of this project. Existing methods do not handle well the varying reliability, the position-dependent uncertainty and the heterogeneity of the data together. To fix the above problems, we attempt to propose a new statistical model for rank data, whose parameters could explicitly characterize the data features as well as being robust. Besides, we try to incorporate the covariate information of the items into the model, and the covariates that influence the rank of the items is of interest. At last, in the big data scenario, we discuss using the variational Bayes method to approximate the proposed model, by which we improve the efficiency of model estimation.
排序数据是一种常见的数据类型,表现为人们根据某种衡量标准,对一组研究事物作出由高到低的排序,在医学、经济学和心理学等各个领域中均有广泛的应用。针对同一个研究问题,由于评判者有个人偏好或者不同的研究小组选取的样本不一样,我们通常得到不完全相同但高度相关的排序数据。这些排序数据集提供了交叉互补的信息,如何整合它们从而得到一个准确度高的综合排序是本项目的研究重点。现有的研究方法没有很好地考虑多重排序数据集的可靠性不一致、波动性和异质性等特点。针对其缺陷,我们从实际问题出发,探索提出一个新的统计模型,要求模型具有良好的统计解释性和稳健性,其模型参数能直观反映排序数据的特征。此外,我们进一步考虑把样本的解释变量信息加入模型中。事物的哪些解释变量影响了排序,也是我们感兴趣的问题之一。最后,在大数据的情况下,我们探讨用变量贝叶斯方法近似逼近原模型,提高模型的估计效率。
排序数据是一种常见的数据类型。根据某种衡量标准,人们对事物做出从高到低的排序。排序数据在经济学、医学、社会研究和心理学等领域均有广泛的应用。针对同一个研究问题,不同的信息来源导致不同但相关的排序结果。如何整合这些多重排序数据从而得到一个准确度较高的综合排序是本项目的研究重点。本项目主要研究内容包括以下三方面:(1)基于Mallows模型,提出新的统计模型来拟合多重排序数据,要求模型能刻画数据的波动性,同时具有稳健性;(2)当样本数目量比较大时,提出有效算法来估计模型参数;(3)在新模型中加入样本的解释变量信息,通过变量选择方法,筛选影响排序的重要变量。. 本项目按照计划书来执行,基本完成了预期目标。项目申请人已经完成新模型的构建和其统计性质的推导,提出有效算法估计模型参数。在应用方面,相比其他方法,新模型在基因数据和体育数据上的表现更好,表明其有良好的应用前景。项目申请人已经把研究成果整理成论文形式,投稿到统计学国际高水平杂志Journal of the American Statistical Association。目前,论文已得到良好的审稿意见,处于修改阶段。. 本项目丰富了排序数据的统计理论和有利于在实践中进一步对排序事物进行分析,比如对跟疾病相关的基因进行临床验证。本项目的研究成果方便了科研工作者和从业人员对多重排序数据进行整合分析,具有很强的应用价值。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
论大数据环境对情报学发展的影响
粗颗粒土的静止土压力系数非线性分析与计算方法
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
用多重组学数据整合分析策略解析猪血液T淋巴细胞多样性的遗传调控机制
排序问题的博弈分析和多目标排序
基于多重关系整合的专利综合网络分析方法与应用研究
多组学数据整合分析癌症细胞生存必需基因