This proposal devotes to key technique development for text semantic analysis in terms of general domain background, and further better serve specific-domain required text analysis by alleviating the drawbacks in the current work. .In detail, three key techniques are the focus of the study initialized by this proposal. 1) Multiple grained, multiple contextualized training for word embedding are started for study to enhance neural semantic analysis model input representation. 2) To explore better syntactic input for semantic model, we study better syntactic input encoding scheme and develop syntax-agnostic semantic model at the meantime. 3) Integrating the results of discourse parsing, introducing discourse context, discourse relationship for better semantic analysis, eventually we reach a unified semantic representation and analysis model for deep text understanding and realize accurate semantic presentation and fast and good analysis in terms of different granularities from character, word, sentence until discourse..The resulting semantic model will be applied to specific-domain oriented information extraction such as named entity, event detection, entity relationship recognition tasks for being a demonstration application. Furthermore, the model will be also considered to benefit to other deep text processing tasks such text entailment and automatic question-answering and so on.
本项目申请致力于通过通用领域背景下的文本语义分析的关键技术研发,进而更有效地服务于特定领域的文本分析处理,克服已有工作的不足。.具体而言本项目拟重点探索研究三个相关的关键技术:一、从多粒度、多种上下文训练学习方法着手强化现有的词嵌入表示以全面改进现有深度语义分析模型输入形式;二、充分探索句法结构输入对于语义分析性能的影响,发展出更有效的句法编码方式提升语义分析性能,同时研发高效率的无句法输入语义分析器;三、结合既有的篇章级的分析结果,引入篇章上下文、句间篇章关系信息进一步改进语义分析,最终发展出符合自然语言文本深层理解的句子-篇章的统一语义表示和分析模型,实现从词、句、篇的不同层次粒度的语义精确表示和高效率高性能的分析。.所研究的语义分析模型将服务于特定领域急需的实体和事件抽取、实体关系抽取等信息抽取任务作为示范性应用,并进一步考虑惠及其他文本处理任务如文本蕴含检测、自动问答等多种
本项目针对一般到特定文本的语义分析所面临的技术挑战和关键科学问题,从基本语言分析单元表示、句法结构编码及篇章关系三个不同角度及侧面研究现代深度(表征)学习背景下语义分析的关键技术,并在理论、方法、实验上进行了全流程论证和验证,以高水平论文发表和基准测试集评估、排行榜夺冠方式全面超额完成预定研究指标。具体而言,我们在面向语义分析的基本语言单元表示方法、面向语义分析的句法结构编码方法、句子-篇章一体化的文本语义分析模型及基于语义分析的文本信息提取应用四个方面进行了研究,发展出更有效的句法编码方式服务于语义分析性能提升以及高效的无句法输入语义分析器,发展利用句子级解析来提升篇章级分析性能的层层递进方法,最终发展出符合自然语言文本深层理解的句子-篇章表示的一体化语义表示和分析模型(其中的典型代表是SG-Net和SemBERT)。工程验证效果上,我们所提的创新模型帮助我们在基准的语义角色标注数据集(含英语和多语种)均达到国际领先(SOTA)性能,在语义理解的国际知名排行榜(如RACE、SQuAD2.0和hotpotQA等)长期保持第一名或首次超越人工成绩。我们在语言层次上由浅到深、由基础到应用、由处理到理解,将语义分析深化推进到语义理解的新高度,初步实现了一个完整的词-句-篇一体化层次上的自然语言的语义分析和语义理解研究体系。.本项目的研究成果被应用于特定领域的信息抽取任务(特别是其中的实体识别、事件抽取、实体关系分类等),并将语义分析和相关任务作有机结合,并以成功服务应用于多个国内知名企业和事业单位。本项目相关的研究成果通过论文、专著、专利的方式进行了发表,本项目资助下,培养硕士博士学位学生28名,完成专著1本(入选清华大学高校计算机专业教材),论文100篇(其中包括CCF-A类论文36篇,CCF-B类论文36篇,CCF-A/B类72篇,SCI索引论文23篇,含三篇TPAMI),均大幅超额提前完成原定的CCF-A/B类12篇(6倍)和SCI索引论文4篇(约6倍)的预期研究指标。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
基于概念的面向特定领域的高性能文本检索
面向特定领域文本的知识元及其关联挖掘方法研究
面向特定领域的谱聚类分析技术研究
面向特定领域的知识图谱构建与应用关键技术研究