This project mainly focuses on developing the theories and algorithms related to the message importance measures in big data based on information theory, estimation theory and statistics learning, and analyzing anomaly detection, data dimension reduction and storage, the maximal relations among the data. The key idea is trying to propose a new theoretical framework and using it to explore and evaluate some policies in big data application. In particular, its research points include the following three aspects: 1) Define some new “message importance measure” and use them to the small probability event detection. 2) Investigate reduced dimensional data compression and effective recovery as well as parallel processing of high efficiency by using the statistical estimation theory and “message importance measure”. 3) Analyze the event relation and propose some new methods on data relation analysis by combing information theory and statistical learning theory. This study belongs to the frontier of cross fields and is of importance in both of information theory and big data engineering.
本课题基于信息论、估计理论和统计学习理论等重点研究大数据分析技术中关于“事件重要性”相关的理论与算法,分析海量数据中异常事件检测、数据降维存储以及数据之间内在关联度等,旨在提出新的理论架构,从理论层面解读大数据分析与应用的策略,给出评估方案。具体研究内容包括:定义新的“信息重要性”度量,用于小概率事件检测;结合统计估计理论和“信息重要性”度量,讨论高维数据集降维压缩与解压缩恢复及其高效处理算法;结合统计学习理论,研讨基于数据之间内在关联度,提出新的数据关系分析方法。该研究属于交叉前沿课题,在信息理论的拓展和大数据工程应用上均有重要意义。
本课题基于信息论、估计理论和统计学习理论等重点研究大数据分析技术中关于“事件重要性”相关的理论与算法。.主要研究内容包括:.(1)针对可利用离散变量描述的事件,提出了新的事件重要性度量,从度量的数学形式上,可以看作香农信息熵的推广,并且附加了一定的语义信息特征,认为小概率事件更加重要;讨论了其数学性质,并证明了它推广了关于信息熵的Fadeev准则的第4条,将对独立随机变量的求和等式变为不等式;.(2)针对可利用连续随机变量描述的事件,给出了微分形式的事件重要性度量,并将它应用于大数据分析中,给出了事件重要性损失,柯尔莫格若夫统计量与数据样本之间的理论关系式,完善了事件重要性在大数据分析中的理论体系;.(3)提出了新的非参数形式的事件重要性度量,讨论了在数据压缩和数据传输中的应用,得到了类似于香农信息论中信源编码和信道编码可独立设计的结果;.这些研究属于交叉前沿课题,在信息理论的拓展和大数据工程应用上均有重要意义。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
论大数据环境对情报学发展的影响
跨社交网络用户对齐技术综述
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
面向工业应用的大数据分析理论与关键技术
基于认知计算的大数据分析方法
基于认知计算的大数据分析方法
大数据背景下的特征选择算法及其在结肠癌数据分析中的应用