In research of Big Data, the object of Big data integration is not only simple data records but the complexes of data and knowledge in which entity is as the core. By integrating entities in miscellaneous data effectively, accurate information and knowledge about entities can be achieved. However, it also increases new challenges for ensuring the precision and efficiency of entity integration. To transform miscellaneous into precise, it requires a set of theories and techniques for big data. This project researches on the key techniques of precision integration for entities in big data environment. In the project, the research contents are proposed based on three major factors for precision which are losing schema of entities, semantic heterogeneous, and data evolving. Therefore, the research contents include data sources management for entity integration, techniques of precision entity integration based on semantic cognition, techniques of precision entity integration based on data evolving cognition, and strategy of efficient processing for entity integration. The research technology of this project will be proposed based on the three important steps of big data integration, which includes schema alignment, entity linkage and entity fusion. With analyzing requirements of medical information integration, the project will propose theories and key techniques for precision of data integration, and verify the performance of them based on experiments. Moreover, this project will develop a platform of precision integration for applications. The achievement of this project will provide the solution for addressing the science problems on big data integration, and will also improve the development of big data management in data integration.
在大数据研究中,大数据集成的对象已经不仅仅是简单的数据,而是以实体为核心的数据和知识的复合体。通过对混杂数据中实体对象进行有效整合能够获得精准的实体信息与知识,这也为保证实体集成结果的精准性和高效性带来了新的挑战。要实现大数据中实体信息由混杂到精准的转变需要一系列的理论和技术。本项目研究大数据环境中面向实体的精准集成关键技术。项目的研究内容围绕实体模式缺失、语义异构和数据演化三个影响精准性的主要因素提出,包括面向实体精准集成的数据源管理,基于语义认知的实体精准集成技术,基于演化认知的实体精准集成技术,并结合高效处理策略保证实体集成的高效性。项目的研究方案基于模式匹配、实体链接和实体融合三个大数据集成的主要环节进行设计,结合医疗健康数据集成应用,提出相关理论模型、研究关键技术和进行实验验证,并构建数据精准集成平台。本项目的成果将解决大数据集成的多种科学问题,推动大数据管理技术的发展。
大数据集成能够将各种混合数据进行有效整合。数据集成的精准性是保障集成结果的可用性和可靠性的关键。然而,数据源中数据实体的低质性、语义异构性和时效性等因素,为保证集成结果的精准性带来了新的挑战。本项目研究面向数据实体的精准集成关键技术。项目的研究内容包括面向实体集成的精准模式管理,基于语义认知的实体精准集成技术,基于数据演化认知的实体精准集成技术和实体集成的高效处理策略研究。在4年期间,本项目重点在数据源管理、精准实体集成和高效集成处理三个方面开展应用研究。在数据源管理方向中,主要研究的结构化数据抽取与标注、数据一致性修复、数据模式检测与融合、海量数据源选择技术,以保证集成数据源的质量。在精准实体集成方向中,主要研究了跨网络实体对齐、演化数据的实体模型与识别、实体行为与链路预测、多方安全实体匹配等关键技术。在高效集成处理方向上,研究了渐进式实体识别和并行实体识别技术。本项目成果在国内外各类学术期刊和会议上发表了论文51篇,其中包括重要国际会议ICDE、WISE、BigComp等和国际学术期刊IJDMB、JIFZ、JCST、JBI、FCS等,国内计算机领域顶级期刊“计算机学报”、“软件学报”、“计算机研究与发展”,其中SCI收录6篇次,EI收录17篇次。邀请国外专家来华交流4人次,参加国内外学术会议22人次。撰写著作2部,申请发明专利14项(其中4项已授权),取得软件著作权2项。协助培养博士研究生6人(3人已毕业,3人在读),培养硕士研究生12人(10人已毕业,2人在读)。项目研究成果已应用于教育大数据领域,支撑辽宁省招生考试数据档案管理平台的建设工作,用于对历年招生考试数据进行集成整合。基于本项目成果建设的辽宁省招考办成绩证明系统支持在线成绩证明开具与验证服务。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
监管的非对称性、盈余管理模式选择与证监会执法效率?
宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响
基于多模态信息特征融合的犯罪预测算法研究
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
面向大数据的实体解析方法及关键技术研究
面向数据空间内多模式查询和数据集成的关键技术研究
云计算环境中面向数据多维隐私保护的关键技术研究
面向精准教学的教育大数据关键技术研究-以大气科学专业为例