Mining entity knowledge (entities, categories and the relationships) will produce significant impact on many applications, such as text content understanding, information retrieval and question answering systems. This application studies the technologies of mining Chinese entity knowledge from the massive, uncertain, multi-source heterogeneous, dynamic and noisy Web data. The main tasks include: (1) Aiming at demands about diversification of relations and the probabilistic description for the knowledge representation, we study the multi-layer semantic graph based knowledge presentation and the automatic construction method of knowledge framework. (2) Making full use of the differences, complementarity and correlation between the Web information, we study the collabrative methods of mining and verifying entity knowledge from the Web. (3) We study the method of new knowledge acquisition from the view of the large-scale probabilistic logic reasoning. (4) We construct the experimental entity knowledge base and test the above key techniques on the existing Chinese Encyclopedia QA platform. The achievements of this project will provide some valuable suggestion for natural language understanding and deep web information computation
从复杂多变的网络数据中挖掘实体、实体类别以及实体关系等知识并进行组织,建立知识间的语义关联,对于文本内容理解、信息检索和问答系统等都具有重要的支撑作用。本申请针对互联网数据"海量不确定"、"多源异构"、"动态变化"、"含噪"等特点,研究互联网环境下的中文实体知识挖掘技术,具体研究内容包括:(1)面向 "关系多样化、可计算、概率化描述"的知识表示需求,研究基于多层语义图的实体知识表示及其知识体系自动构建方法;(2)充分利用网络信息间的差异性、互补性和相关性,研究基于网络信息关联的中文实体知识协同挖掘和验证方法;(3)研究大规模概率化逻辑推理方法,从知识推理的角度探索网络新知识的获取方法;(4)构建实验性实体知识库,并在课题组已有的百科知识问答系统平台上,对以上关键技术进行验证与测试。本申请课题的研究成果将为自然语言理解、互联网信息深度计算等提供参考。
从复杂多变的网络数据中挖掘实体、实体类别以及实体关系等知识并进行组织 建立知识间的语义关联,对于文本内容理解、信息检索和问答系统等都具有重要的支撑作用。本课题针对互联网数据“海量不确定”、“多源异构”、“动态变化”、“含噪”等特点,研究互联网环境下的中文实体知识挖掘技术,具体研究内容包括:(1)面向“关系多样化、可计算、概率化描述”的知识表示需求,研究基于多层语义图的实体知识表示及其知识体系自动构建方法;(2)充分利用网络信息间的差异性、互补性和相关性,研究基于网络信息关联的中文实体知识协同挖掘和验证方法;(3)研究大规模概率化逻辑推理方法,从知识推理的角度探索网络新知识的获取方法;(4)构建实验性实体知识库,并在课题组已有的百科知识问答系统平台上,对以上关键技术进行验证与测试。主要研究成果包括:国际顶级期刊和会议论文29篇,国内核心期刊以及重要学术会议上发表论文8篇,章节1部,申请国家发明专利7项,国际学术奖励一项(COLING 2014 Best Paper Award),获得2015年度Google Focused Research Award 、2014年度中国中文信息学会“钱伟长中文信息处理科学技术奖-汉王青年创新奖”一等奖、2014年“CCF-腾讯犀牛鸟基金卓越奖”等奖项。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于细粒度词表示的命名实体识别研究
面向工件表面缺陷的无监督域适应方法
环境信息披露会影响分析师盈余预测吗?
基于关系对齐的汉语虚词抽象语义表示与分析
国际比较视野下我国开放政府数据的现状、问题与对策
自适应的中文网络意见挖掘关键技术研究
基于Web知识挖掘与融合的命名实体消歧技术研究
面向网络知识服务的中文动态语义分析关键技术研究
面向大规模知识图谱的弱监督中文实体关系抽取研究