Emergent event extraction is an important task in the field of public opinion analysis. Cross-language emergent event extraction is an interdisciplinary science among event extraction, opinion analysis and bilingual knowledge learning and application. The traditional methods are unable to fulfill the emergent event extraction task for multi-language event mentions of diverse types and different grains, especially under the precondition that they were trained by small-scaled closed-domain relation types and samples. They have never been proved to be capable of determining new types of event attributes. In order to solve the problems, we in this project concentrate on the issues of open extraction of emergent events, including the cases under unlimited types, attributes and languages. In particular, we focus on developing the technologies of automatic event type discovery and expansion, assertion method of urgency, the methods of extracting event-event relation and realis types, as well as the bilingual resource mining technologies for the condition that there is few prior translation knowledge in specific scare languages. In addition, we respectively propose scenario reproducing and analysis method for event-event relation detection, parallel and comparable recourse mining with the image-image search as bridge, realis detection clued by uncertainty scope detection, etc. Our goal is to implement a steady multi-language and multi-task oriented emergent event discovery and extraction system. The system is specially used for public opinion analysis and monitoring.
敏感事件的自动抽取是舆情分析领域一项重要的研究任务。跨语言敏感事件抽取是事件抽取、舆情分析和双语知识学习与应用的交叉学科。传统方法由于受封闭域有限事件类型与样本的限制,无法实现类型多样粒度不一的多语种敏感事件的抽取任务,对新型的事件属性也缺少有效的判别手段。为了有效解决上述问题,本课题集中研究开放域敏感事件抽取技术,包括开放类型、属性和语言环境条件下的抽取任务。重点研究事件类型的自动发现与扩展技术、面向敏感度、外延关系和真伪等新型属性的抽取技术,以及针对稀疏语种中敏感事件缺少先验翻译知识这一问题的双语资源挖掘技术。此外,本课题提出了面向事件关系检测的场景还原与分析、以图搜图为桥梁的平行和可比较语料发现、不确定性覆盖域为线索的真伪判别等新技术。目标是实现多任务和多语种条件下稳定的敏感事件发现与属性抽取系统,辅助舆情分析与监控。
本课题以事件抽取为核心任务,并面向信息处理的敏感性需求,研究事件真伪、否定和关系的特性检测方法。尤其,本课题围绕事件抽取的多语种适应性问题,开展了多模态机器翻译和跨语言信息处理研究。攻关过程中,课题组成员研究并形成了如下关键技术:1)结合生成对抗网络和卷积图模型的事件抽取技术;2)基于回收机制的开放域属性抽取优化技术;3)结合主动学习、交互注意力学习和平滑损失惩罚机制的语义关系检测技术;4)基于焦点和感知域识别的事实性和否定性检测技术;5)利用端对端架构和模态鸿沟退化的语言生成技术,以及6)多模态翻译技术和跨语言关系识别技术。其中,事件抽取核心技术性能在国际权威数据集ACE上达到前言水平,在预训练语言模型的支撑下,测试效果逼近80%的F指标,并在TAC-KBP数据集上的适应性检测中,达到领先水平。属性抽取研究中的回收机制能够普遍集成于不同深度学习模型,并形成技术优化。关系识别技术在PDTB上不断取得性能提升,并支撑了事件多元关系图模型的初步形成,支撑了大规模数据中关联事件的系统挖掘。事件真伪和否定特征的判别技术也取得了较为显著的性能优化,其对于实用过程中推荐可靠的事件信息源提供了重要依据。多模态机器翻译和跨语言技术的创新与实践,对稀缺小语种事件抽取中的标注数据匮乏问题,提供了快速实用的解决手段。总体上,课题组针对计划研究内容实现了全覆盖研究,形成了多项特色鲜明的关键技术,并通过实践过程中的多模块系统化集成,形成了“军事科技知识卡片生成和事件轨迹追踪”的应用系统。相关技术在CCF A和B类会议、中文一级核心期刊和SCI检索期刊中,发表论文13篇,其它核心和EI检索论文近四十篇,授权专利6项。
{{i.achievement_title}}
数据更新时间:2023-05-31
敏感性水利工程社会稳定风险演化SD模型
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
基于图卷积网络的归纳式微博谣言检测新方法
肝癌多学科协作组在本科生临床见习阶段的教学作用及问题
SRHSC 梁主要设计参数损伤敏感度分析
跨语言文本自动分类关键技术研究
维、哈、柯跨语言内容过滤关键技术研究
面向汉语-泰语跨语言新闻事件检索方法研究
基于篇章特征的越南语新闻事件信息抽取关键技术研究