Linked data will be more and more represented by the Internet as Linked Open Data, thus information retrieval from Linked Data has practical significance. This research will solve the key technology problems of information retrieval based on Linked Data. Aiming at the natural language query interface, many natural language query types are analyzed, and their query intents are identified, and their semantic structures are expressed, then the mappings between the query semantic structures and the resources of knowledge base are formed, lastly the translation of natural language query to SPARQL is completed. Aiming at the efficiency of joint query, data source selection method and joint query optimization and execution strategies are researched based on distributed ontology data, and then the joint query optimization model is constructed and completed. Aiming at the ontology data source ranking of query results, the results of various ontology ranking algorithms are as features, then ‘learning to rank’ is implemented by various ranking learning algorithms based on these features, and the machine learning approaches are used to optimize the weights of these features and ranking learning algorithms, lastly a general model of ontology ranking is constructed. On the basis of the above research, an information retrieval prototype system based on Linked Data is constructed. The research will be of great significance on the accurate retrieval based on Linked Data and the development of semantic web technology .
以关联开放数据为代表的关联数据将越来越多的出现在互联网中,因此面向关联数据进行信息检索的研究具有现实意义。本项目将解决面向关联数据进行信息检索的关键技术问题。针对自然语言查询接口问题,分析各种查询类型,识别查询意图,结构化表示问题语义,然后将结构化问题语义与知识库中的资源形成映射,进而完成自然语言-SPARQL语句之间的转换;针对联合查询的效率问题,基于分布式结构化本体数据源,研究数据源选择方法、联合查询优化和执行策略,进而构建联合查询优化模型;针对查询结果的本体数据源排序问题,以多种本体排序算法的结果作为特征,以这些特征为数据源使用各种排序学习算法进行排序学习,使用机器学习的方法优化各种排序算法和排序学习算法的权重,进而构建本体排序通用模型。本项目将对基于关联数据的精准检索和语义网技术的发展具有重要意义。
以关联数据为代表的开放数据将越来越多的出现在互联网中,因此面向关联数据进行信息检索的研究具有现实意义。本项目将解决面向关联数据进行信息检索的关键技术问题。针对自然语言查询接口问题,分析各种查询类型,识别查询意图,结构化表示问题的语义,然后将结构化问题语义与知识库中的资源形成映射,进而完成自然语言-SPARQL语句之间的转换;针对联合查询的效率问题,基于分布式结构化本体数据源,研究数据源选择方法、联合查询优化和执行策略,进而构建联合查询优化模型;针对查询结果的本体数据源排序问题,以多种本体排序算法的结果作为特征,以这些特征为数据源使用各种排序学习算法进行排序学习,使用机器学习的方法优化各种排序算法和排序学习算法的权重,进而构建本体排序通用模型。.项目完成了自然语言-SPARQL语句之间的转换技术,在非监督的技术研究中效果最好;在联合查询效率方面,我们改进了数据源的选择方法,优化了联合查询策略,效率具有明显提高;在本体排序方面,我们使用集成学习的方法对本体排序技术进行研究,取得了比国际著名本体排序算法Swoogle更好的结果;面向关联开放数据的信息检索关键技术对知识库的构建起到重要作用,我们把研究成果应用于中英文作文知识库的构建,进而应用于中英文作文的智能评测,获得了2017年北京市科学进步二等奖和2019年吴文俊人工智能一等奖,为国家的智能教育事业做出了重要贡献。.项目共发表和录用学术论文17篇,其中包括7篇SCI论文,2篇CCF C类会议论文;授权发明专利6项,登记软件著作权5项;培养硕士研究生15名,博士研究生2名;项目主持人晋升教授和博士生导师,并于2019年获选为中国人工智能学会理事, 获得省部级科技奖2项,北京市教学成果奖1项。.综上所述,项目超额完成了预期任务,取得了丰硕的成果。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
论大数据环境对情报学发展的影响
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
基于分形维数和支持向量机的串联电弧故障诊断方法
中外学术论文与期刊的宏观差距分析及改进建议
面向数据的英汉双向跨语言信息检索关键技术研究
面向多媒体信息检索的语音处理关键技术研究
面向大规模多模态媒体信息检索关键技术研究
关系数据库对象级别信息检索关键技术研究