The ability of science discovery and technology innovation has become an important indication of the nation's or facility's competitiveness. As the booming of information technology, both of the science discovery and technology innovation have entered the era of data intensive computing. This project focuses on the researches in both the theories and methods for the massive Intellectual Property (IP) data management, including patents, related technical documents and experimental datasets as well as the other multi-sourced, heterogeneous, dynamic and complex data, so as to support the technology innovations. Considering the limitations existing in current IP management platforms, such as using single source, lack of complete information, providing simple services, having low scalability and so on, it emphasizes on: 1) designing a distributed intensive architecture for this kind of massive data management,on which it studies schema normalization theories and requirement reduction methods for data spaces as well as dynamic bidirectional data maintenance strategies to achieve the on-demand data management with low redundancy. 2) designing unstructured information extraction and integration methods based on formatted datasets, distributed offline analyzing algorithms and real time in-memory requirement scheduling rules to guarantee timeliness, completeness and effectiveness of data services. 3) designing query processing based on semantics and providing visualized services on hot spot analysis, citation analysis and patent alerting to help technology innovations and improve IP management. It is expected that this project can efficiently assist the work for IP management facilities in patent examination, research departments in patent search, technology practitioners in patent alerting and so on.
科学发现和技术创新能力已成为一个机构乃至一个国家竞争力的重要标志。随着信息技术的迅猛发展,科学发现和技术创新也进入了数据密集型时代。本课题旨在研究支持技术创新的海量数据管理理论和方法,聚焦于与知识产权相关的专利及关联的文献资料和科学实验数据等多源异构动态复杂的数据对象。针对现有产权知识管理平台数据单一、不完备、服务简单且系统扩展性差的局限性,本课题重点研究:1)海量数据分布式集约化管理架构,数据空间模式规范化理论和需求规约化方法、动态双向一致性维护策略,实现数据动态管理与按需维护;2)基于规范的非结构化信息抽取和融合方法及分布式离线分析、内存式需求实时调度,保证数据服务的及时性、完整性和有效性;3)基于语义关联的查询处理方案,实现可视化的热点分析、引证分析和专利预警,辅助技术创新和完善产权管理。期望研发的平台能有效辅助管理部门的专利审查、研发部门的专利查询以及应用部门的专利预警等应用。
科学数据、科技文献和设计文档等海量复杂数据中包含大量有价值的信息,管理、查询和挖掘这些信息具有重大意义。本项目针对这些复杂数据,研究分层管理体系架构,实现基础数据集群化管理、语义数据集约化管理、用户数据个性化管理,并通过复杂关联可计算方面的研究,以可视化方式为政府部门、科技人员和企业单位提供技术热点分析、引证分析、预警分析等技术创新服务。.项目从系统体系架构,海量数据存储研究,复杂数据处理研究,数据空间管理研究,技术创新服务研究五个方面开展了研究工作。在系统体系架构设计方面,设计了三层体系架构,集成大规模集群存储、先进数据库和个性化数据空间管理技术,实现海量复杂数据分层管理。在海量数据存储研究方面,本项目对科学数据、科技文献、设计文档进行分布式关联化存储,降低处理时网络开销,实现了对复杂数据的准确语义分析与关联项挖掘功能。在复杂数据处理研究方面,本项目采用对象代理模型管理复杂数据,实现了海量复杂数据关联计算,数据按需获取优化调度等算法。在数据空间管理研究方面,基于对象代理数据库创建数据空间,建立对象代理数据库规范化理论,设计新的范式和转换算法,消除异常信息。从数据空间中抽取个性化需求,实现公共需求归约化,数据空间动态划分等功能。在支持技术创新服务研究方面,采用聚类发现研究主题,采用自然语言处理方法挖掘科技文献的技术关键词,采用关联规则挖掘企业用户与竞争对手的研发方向,结合提取的信息,制定企业技术研发策略,回避技术风险。.本项目以专利数据为典型示范应用,为企事业单位、研究院所、知识产权管理部门等提供一个辅助技术创新的平台,实现个性化数据管理和智能信息服务,提高了技术创新的能力。在创新成果方面,在国内外高水平期刊、会议上发表论文共95篇,被SCI收录24篇,EI检索81篇,其中包括CCF列表A类会议、期刊论文共6篇,CCF列表B类会议、期刊论文共12篇。此外,还出版专著2部,专利授权12项。培养博士生12名,硕士生32名。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
涡度相关技术及其在陆地生态系统通量研究中的应用
论大数据环境对情报学发展的影响
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
海量位置数据管理的基础理论与关键技术
海量众包数据管理的关键技术
低能耗海量数据管理理论与关键技术研究
大图数据管理与分析的基础理论与关键技术研究