Big data has been a focus in sciences and technology. It is recognized as a strategic resource by companies and governments. The core of big data is intelligent data analysis and forecasting, and the studies on big data mainly concern the vital demand from governments. Conventional algorithms in machine learning and data mining deal with small amounts of data, solving problems related to generalizing extrinsic knowledge to the true nature. The challenges posed by big data to traditional techniques from machine learning and big data include not only the quantity of data, but also how to learn the nature of data. The latter task is essential for learning strategy design. To solve these problems, we propose novel theories and methods that benefit the national strategic interests. This proposal cuts in the multi-source and heterogeneous characteristics with big data, investigating the presentation, inter-semantic aggregation, evolutionary pattern recognition based on time-variant traits, efficient dividing mechanisms and methods, online sparse learning, interconnection mining and boosting properties analysis, noise handling, sensitive content assessment, privacy protection and other methods concerning with learning and mining of chaotic big data. Our project team has gained a solid foundation in this research topic, and aims to develop a series of innovative breakthroughs.
大数据研究是企业和国家的重要战略方向。大数据的核心是智能分析与预测,传统的机器学习与数据挖掘方法属于小数据里的算法和理论,解决认知中的“质”的问题。大数据研究不仅需要解决质的问题,而且需要解决量的问题。本课题以大数据的多源异构性为切入点,围绕三个关键科学问题,即大数据的表示与演化规律、大数据的学习与拓扑融合机理,以及大数据的敏感内容挖掘,以个性化普适医疗为应用验证研究平台,分别研究大数据知识表示、大数据的跨语义聚合方法、基于时序特性的大数据演化规律发现、大数据的高效分拆机制与方法、大数据的在线稀疏学习、大数据关联挖掘与涌现特性分析、大数据的噪音数据处理机制、大数据的敏感内容评估理论,以及大数据的隐私保护机制与方法等一系列面向大数据学习与挖掘的新理论与新算法。课题组在所涉及领域均具有深厚的研究基础,预期将取得一系列具有创新性及突破性的研究成果。
大数据的特性使传统的机器学习与数据挖掘的方式方法同时面临数据处理“量”和“质”的问题。数据“量”的激增是大数据区别于传统数据的最显著特征,涉及对多源、异构的数据的存储和表示问题;同时,大数据的“量”的动态性,衍生出大数据的演化规律与特征涌现等问题;大数据的知识获取,也即如何从多源、异构、价值密度低,且包含噪音、错误等的大数据中挖掘出有价值或感兴趣的知识,是实现大数据从“量”转变到“质”的核心问题。针对这些问题,本项目以(1)大数据的表示与演化规律,(2)大数据学习与拓扑融合机理,以及(3)大数据的敏感内容挖掘,三个关键科学问题为核心;以碎片化家谱知识服务系统(华谱系统)为应用载体,重点研究了大数据的分布式计算及图数据划分技术、表示学习模型、演化与分类问题、学习算法、因果特征选择、信息提取与分析、子图挖掘与搜索、推荐与决策,以及大数据应用与治理框架等一系列面向大数据处理与信息挖掘的新理论与新算法。同时,我们基于所提出的大数据应用与治理框架,进行了碎片化家谱知识服务系统(华谱系统)的研究与系统开发。以上研究成果为管理与决策大数据平台的知识获取与处理、知识组织与表示、数据分析与挖掘等方面提供了一系列的基础理论与方法,为管理与决策大数据的应用前景奠定了基础。.在本项目实施过程中,项目组取得了丰硕的阶段性成果。已发表SCI期刊论文62篇(包括ACM和IEEE Transactions 31篇),国际会议论文31篇(包括SIGKDD、AAAI、WWW、ICDM顶级国际会议论文8篇),国内核心期刊论文6篇(其中,软件学报3篇,其中2篇获选为高影响力论文,自动化学报1篇),获批授权专利3项,在申请专利21项,培养博士生11名、硕士生33名。在此项目研究工作的基础上,项目负责人成功获批1项国际(地区)合作与交流项目(No.62120106008),入选俄罗斯工程院外籍院士。项目参与人李磊成功获批1项国家基金面上项目(No.62076087)。题为“Knowledge Graph for China’s Genealogy”的论文获2020年国际知识图谱会议最佳论文奖。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
基于多模态信息特征融合的犯罪预测算法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
混杂数据的模式识别及敏感内容挖掘理论与方法
证券管理决策大数据挖掘云服务平台研究
面向大数据的媒体内容分析与关联语义挖掘研究
数据挖掘技术与通信网的故障管理