There is lots of event information in web data, in the form of web news. But the event information in web data has high redundancy, poor accuracy and discrete characteristic. So it is hard for using the information. How to get the integrated and accurate event information from the web data and use it in areas such as market intelligence analysis, online public opinion analysis, and business intelligence, is of important research value.Considering the event coreference appearance widely in the Internet, we study the task of information fusion for event coreference in web data. Firstly, in order to address the backward dependency of event type recognition on event argument recognition, we considered the event extraction task as a sequence labeling, and proposed a new strategy based on Hidden Markov Model, in order to label the event type and event argument simultaneously. After this step, we proposed a strategy for resolving event coreference based on the event type and the event argument with heterogeneous data types, and considering both the similarity between arguments and the weight of each argument. At last, we proposed to resolve conflicts among multiple sources of heterogeneous data types. We model the problem using an optimization framework where truths and source reliability are defined as two sets of unknown variables. Our work is not only a useful complement to existing research in the field of web data integration, but also with important application value, for getting event information which is unity, high accuracy, and completeness.
如何获取web数据中的事件报道信息,以满足市场情报分析、舆情分析、商业智能等应用的需求,是当前的研究热点之一。然而web数据的冗余度高、准确度差、数据离散等特点,限制了这些报道信息的获取。针对此问题,本课题开展面向web数据的共指事件信息融合模型的研究。本课题基于隐马尔科夫模型构建联合标注框架,研究事件报道中事件类型和元素的同步标注问题;同时研究如何依据事件的类型信息和事件元素数据的多维异构特性,综合事件之间对应元素相似度以及各元素权重值,设计相应的共指事件识别策略;本课题还考察web中各数据源的可信度和事件各元素取值的可信度,利用优化框架解决共指事件信息融合过程中的数据冲突问题。本课题的研究工作一方面是对web数据集成领域现有成果的补充,具有重要的理论价值;另一方面有助于从web数据中获取具备统一性、准确性、完整性的事件信息,具有相当的应用价值。
web数据中包含着大量的事件报道,如何从这些事件报道中获取信息,以满足市场情报分析、舆情分析、商业智能等应用需求,是当前的研究热点之一。.然而,互联网中广泛存在着事件共指现象,即有关同一事件的不同表象出现在互联网中的不同数据源。一方面,这种现象增加了web数据的冗余度;另一方面,只有融合来自不同数据源的表象语句,才能准确获取事件完整信息。.其次,web数据中可能存在错误的信息,在不同数据源中,针对同一事件的表述之间可能存在冲突。为了获取有关事件的准确信息,需要对这类数据冲突进行处理。.本课题将共指事件信息融合模型研究任务划分为以下子任务并分别展开研究:.1)事件抽取。课题组事件抽取视为序列标注任务,提出基于最大熵模型的事件类型及元素的同步标注方法。同时,为降低语句中与事件抽取任务无关词汇的影响,该文还引入组块分析技术,进一步将事件抽任务视为对语句中各组块核心词的序列标注问题。.2)识别共指事件。课题组基于新闻报道语料的特点,一方面针对词级别同义表述模式的抽取,设计了同义词知识库的自动构建策略,并考虑了缩略语、同位语等情况的处理;另一方面在词级别同义表述模式抽取的基础上,设计了语句级别同义表述实例的识别策略。以此可以抽取的词级别和语句级别的同义表述模式,且模式抽取数量可随着语料库扩充而增加。以同义表述模式规则可以完成共指事件的识别。.3)解决共指事件表象之间的数据冲突问题。课题组基于事件表象之间的相似度,构建事件表象之间的信任网络;进而基于信任网络计算各表象的可信度。基于该方法,可以为数据冲突解决领域的投票法设定每一票的权重,改善数据冲突的解决效果。.4)融合各共指事件表象。基于共指事件表集合,课题组构建了Opinosis图结构,从图结构中抽取可能的表象融合结果,并综合考虑了融合结果的全面性、准确性、可读性,设计相应评价规则来筛选最适合的融合结果。.针对上述各子任务,课题组都通过相应的实验,验证了所提出策略的有效性。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于国产化替代环境下高校计算机教学的研究
基于LS-SVM香梨可溶性糖的近红外光谱快速检测
智能煤矿建设路线与工程实践
二维FM系统的同时故障检测与控制
信息熵-保真度联合度量函数的单幅图像去雾方法
面向Web信息的知识融合关键技术研究
语义Web中对象共指的消解方法与技术
面向Web数据挖掘的用户动机定性推理模型研究
面向非常规突发事件预警的Web信息流监控和传播研究