基于叙事模式分析的无监督新闻事件语义抽取研究

基本信息
批准号:61202233
项目类别:青年科学基金项目
资助金额:25.00
负责人:冯岩松
学科分类:
依托单位:北京大学
批准年份:2012
结题年份:2015
起止时间:2013-01-01 - 2015-12-31
项目状态: 已结题
项目参与者:赵东岩,陈立玮,陈翼冬,许坤,饶俊阳
关键词:
无监督新闻事件语义要素抽取核心事件识别叙事模式分析多媒体事件语义事件模板生成
结项摘要

As an area in information extraction, news event extraction is of great importance for the research of large scale real-time news data management, recommendation, automatic knowledge acquisition and other information retrieval related applications. Traditional news event extraction models rely on hand crafted data to recognize key events and further extract event semantic elements. In this project, we propose a novel automatic event extraction framework which mines event patterns from raw news texts and meanwhile attempts to include multimedia news resources in the same unsupervised learning paradigm. In this proposed project, we will put our emphasis on the following aspects: modeling news events by learning narrative schemas; key event recognition and extraction by using narrative event chains; unsupervised news event extraction and event template induction and modeling event semantics for multimedia news resources.

新闻事件语义抽取是信息抽取研究中的热点问题之一,是大规模实时新闻数据管理研究中的关键一环。本课题针对传统新闻事件抽取工作对于人工标注数据的依赖问题提出建立一种针对新闻事件语义要素的自动分析模型,并尝试借助概率统计方法将多媒体语义信息融入到新闻语义要素中。贯穿本课题的一个中心思想是如何减少人工参与,更多地利用新闻资源庞大的数据规模来挖掘新闻事件的叙事模式,进而抽取核心事件的语义要素。本课题的主要研究内容包含以下四个方面:基于叙事模式的新闻事件分析研究、基于事件语义链的核心新闻事件识别研究、无监督新闻事件语义要素抽取研究以及针对多媒体新闻语义要素融合的研究。本项目通过对新闻进行事件语义层次上的重构实现对实时新闻数据的自动事件语义要素抽取,为自动构建知识库、基于事件的信息检索等高级应用打下坚实基础。

项目摘要

面向开放域的新闻事件语义抽取是信息抽取研究中的热点问题之一,是海量新闻数据管理研究中的关键一环,是基于内容的个性化、知识库自动更新及智能检索等高级应用的重要基础。传统新闻事件的表示与抽取方法通常依赖大量的手工标注数据,且事件的类别模板通常由专家制定,在面对现今发展迅速的新媒体时代时,缺乏足够的灵活性。本课题针对这一问题,提出建立一种新的新闻事件语义要素的表示与自动分析模型。这一模型主要基于叙事模式分析理论,从海量新闻语料中自动归纳出某类事件的常用叙述方式,并借助于结构化知识库和无监督机器学习方法从中总结出新的事件类别及其要素,从而促进新闻事件抽取、新闻语义分析与挖掘、及新闻个性化推荐等多种应用。贯穿本课题的一个中心思想是如何减少人工参与,更多地利用新闻资源庞大的数据规模和目前网络上已有的结构化、半结构化知识资源来挖掘新闻事件的叙事模式及其相关的事件元素,进而自动归纳出核心事件的语义要素。.. 在三年的项目执行期间,课题组首先从数据出发,构建了海量开放域新闻数据语料库,并借助于现有网络百科的半结构化知识资源,构建了大规模开放域新闻知识资源库,以便对新闻的事件要素进行归类。在此基础上,课题组基于叙事模式分析理论,将新闻事件的分析与结构化新闻知识资源紧密结合,抽取新闻实体及其语义关系,挖掘新闻事件及事件要素的常见模式;同时,利用结构预测和深度神经网络模型对核心新闻事件的检测和抽取过程进行优化,从而实现对海量新闻资源的高效分析与挖掘。此外,课题组还基于结构化新闻内容表示研究了基于内容的新闻报道个性化推荐技术,从实际应用角度印证了新闻事件抽取研究的价值。.. 基于上述研究工作,课题组在国际权威文本分析技术评测(NIST TAC KBP 2015)的新闻事件检测任务中取得了第四名的好成绩;并基于上述研究工作,申请国家发明专利2项,发表高水平学术论文21篇,其中5篇发表在人工智能、自然语言处理领域重要国际会议上(如ACL、AAAI、EMNLP等)。本项目的实施实现了对新闻进行事件语义层次上的重构,为大规模实时新闻分析系统、结构化知识库自动更新等前沿技术的研发打下坚实基础。.

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

监管的非对称性、盈余管理模式选择与证监会执法效率?

监管的非对称性、盈余管理模式选择与证监会执法效率?

DOI:
发表时间:2016
3

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
4

黄河流域水资源利用时空演变特征及驱动要素

黄河流域水资源利用时空演变特征及驱动要素

DOI:10.18402/resci.2020.12.01
发表时间:2020
5

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018

冯岩松的其他基金

相似国自然基金

1

无监督新闻视频语义分割与标注算法研究

批准号:60202004
批准年份:2002
负责人:高新波
学科分类:F0108
资助金额:20.00
项目类别:青年科学基金项目
2

基于篇章特征的越南语新闻事件信息抽取关键技术研究

批准号:61562049
批准年份:2015
负责人:周枫
学科分类:F0211
资助金额:38.00
项目类别:地区科学基金项目
3

因特网中文金融新闻中抽取事件及其相关时间信息的研究

批准号:69975008
批准年份:1999
负责人:苑春法
学科分类:F03
资助金额:12.00
项目类别:面上项目
4

基于深度无监督分簇的混合监督图像语义分割方法研究

批准号:61906121
批准年份:2019
负责人:周雷
学科分类:F0604
资助金额:21.00
项目类别:青年科学基金项目