文本语言表达到概念关系的映射方法研究与资源建设

基本信息
批准号:61375074
项目类别:面上项目
资助金额:79.00
负责人:穗志方
学科分类:
依托单位:北京大学
批准年份:2013
结题年份:2017
起止时间:2014-01-01 - 2017-12-31
项目状态: 已结题
项目参与者:袁毓林,彭炜明,葛涛,沙磊,李新良,王璐璐,田野,张星星,李文杰,李文杰
关键词:
语言资源信息提取语言知识自然语言理解概念关系
结项摘要

With the urgent needs of enhancing the intelligence of the internet, Knowledge engineering is attracting high attention from both industry and academia. In comparison with the knowledge engineering (such as DBpedia, Knowledge Graph, YAGO, etc.) mined from structured knowledge resource, textual knowledge engineering suffers from the gap between unstructured natural language texts and conceptual knowledge. Using binary conceptual relations and their language expressions as the research focus, we aim to conduct systematic research on establishing the mapping resources between conceptual relations and their language expressions under the guidance of the theories of linguistics and cognitive linguistics. (1) Using qualia structure and thematic structure to respectively model the conceptual semantics of nouns and verbs, we establish the mapping framework of language expressions and conceptual relations; (2) Based on the semantic connectivity of nouns and verbs, we extract the meaning of knowledge expressed by languages, link language knowledge base with world knowledge base, in order to establish the basic set to map conceptual relations and language expressions; (3) Through the semantic clustering of verbs and the classification of conceptual relations, we explore the following two corresponding problems (i.e., How do language expressions reflect conceptual knowledge? How is conceptual knowledge expressed in languages?), and conduct interactive learning between language and knowledge, so that to expand the mapping resources. The achievements of the research will be expected to lay technological and resource foundation for Chinese textual knowledge engineering.

互联网的智能化需求使知识工程日益受到工业界和学术界的高度关注。与DBpedia、Knowledge Graph、YAGO等基于结构化资源的知识工程相比,文本知识工程的困难在于:在非结构化的自然语言文本与概念知识之间存在鸿沟。如何从文本的语言表达映射到概念知识?本申请在语言学和认知语言学理论的指导下,研究语言表达到概念关系之间的映射方法,并建立映射资源。主要内容包括:(1)用物性结构和论旨结构分别建模名词和动词的概念语义,研究建立语言表达到概念关系的映射框架;(2)基于名词语义和动词语义的相互关联,挖掘语言蕴含的知识含义,链接语言知识库和世界知识库,建立语言表达-概念关系映射基础集;(3)通过动词语义聚类和概念关系归类,研究语言表达如何反映概念知识以及概念知识在语言中如何表示这两个相互对应的问题,实现语言-知识互学习,扩大映射资源规模。本研究将为中文文本知识工程提供关键技术与基础资源。

项目摘要

自然语言理解的一项突出困难是:在非结构化的自然语言文本表示与认知层面的概念知识之间存在鸿沟。自然语言理解迫切需要建立从表层语言单位到深层认知概念层面的映射关系。本项目围绕自然语言文本表达与概念关系的映射进行深入研究。主要研究工作包括:融合语言表达与概念关系的中文深层语义描述体系设计,基于多源异构信息的知识获取方法研究、基于多策略的异构知识映射方法研究、融合语言表达与概念关系的中文深层语义知识资源构建。课题组按项目预订的计划进行,并圆满完成了课题任务书预订的各项指标,在理论模型、关键技术、核心软件、基础资源等方面取得了一系列研究成果。在方法层面:提出了从自然语言文本表达映射到概念关系的系列方法,包括基于多源异构信息的知识获取系列方法和多策略的异构知识映射系列方法,共发表高水平学术论文32篇,其中,在自然语言处理领域顶级会议(ACL,IJCAI,EMNLP,COLING)发表学术论文17篇,申请专利1项。在资源层面:制订了融合语言表达与概念关系的中文深层语义描述体系,构建了融合语言表达与概念关系的中文深层语义知识资源,形成了12万字的精加工深层语义标注资源。突破了浅层语义分析的局限性,实现了从表层语言单位到“概念—框架—情境”的认知层面的映射。在人才培养方面:培养博士研究生4名,硕士研究生8名,其中多位学生获国际会议最佳论文奖及多个学术机构的学术创新奖等奖励。本课题骨干教师袁毓林教授获聘教育部长江学者特聘教授、国家万人计划领军人才。本项目研究成果为中文自然语言理解及文本知识工程提供关键技术与基础资源。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

黄河流域水资源利用时空演变特征及驱动要素

黄河流域水资源利用时空演变特征及驱动要素

DOI:10.18402/resci.2020.12.01
发表时间:2020
2

服务经济时代新动能将由技术和服务共同驱动

服务经济时代新动能将由技术和服务共同驱动

DOI:10.19474/j.cnki.10-1156/f.001172
发表时间:2017
3

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

DOI:10.12202/j.0476-0301.2020285
发表时间:2021
4

卡斯特“网络社会理论”对于人文地理学的知识贡献-基于中外引文内容的分析与对比

卡斯特“网络社会理论”对于人文地理学的知识贡献-基于中外引文内容的分析与对比

DOI:10.13249/j.cnki.sgs.2020.08.003
发表时间:2020
5

基于5G毫米波通信的高速公路车联网任务卸载算法研究

基于5G毫米波通信的高速公路车联网任务卸载算法研究

DOI:10.11896/jsjkx.211100198
发表时间:2022

穗志方的其他基金

批准号:61772040
批准年份:2017
资助金额:60.00
项目类别:面上项目
批准号:60503071
批准年份:2005
资助金额:23.00
项目类别:青年科学基金项目
批准号:60873156
批准年份:2008
资助金额:32.00
项目类别:面上项目
批准号:61075067
批准年份:2010
资助金额:37.00
项目类别:面上项目

相似国自然基金

1

文本情绪分类的资源建设及关键技术研究

批准号:61672366
批准年份:2016
负责人:李寿山
学科分类:F0211
资助金额:63.00
项目类别:面上项目
2

汉语文本推理的资源建设和统计分析研究

批准号:61173062
批准年份:2011
负责人:姬东鸿
学科分类:F0211
资助金额:58.00
项目类别:面上项目
3

基于推理现象的中文文本推理资源建设和自动分析研究

批准号:61402341
批准年份:2014
负责人:任函
学科分类:F0211
资助金额:26.00
项目类别:青年科学基金项目
4

中文文本概念分析通用接口的理论和方法

批准号:69083301
批准年份:1990
负责人:姚天顺
学科分类:F0211
资助金额:5.00
项目类别:专项基金项目