基于语义的汉语新闻文本的零形回指消解研究

基本信息
批准号:61602044
项目类别:青年科学基金项目
资助金额:18.00
负责人:蒋玉茹
学科分类:
依托单位:北京信息科技大学
批准年份:2016
结题年份:2019
起止时间:2017-01-01 - 2019-12-31
项目状态: 已结题
项目参与者:张仰森,陈若愚,黄改娟,尤建清,郭正斌,郑佳,王建,张耀荣,张凯
关键词:
句子语义零形回指消解词汇语义篇章结构
结项摘要

Zero anaphora is a typical phenomenon of Chinese text. Research on zero anaphora resolution would have a great impact on text analysis, summarization, information retrieval and machine translation. The current researches on zero anaphora resolution classify whether the antecedent and anaphora are consistent on syntactic and some semantic features and highly depend on Penn Chinese Treebank. This is the limitation of the current methods. In this research we propose two novel features for choosing antecedents. The first feature is the combination probability of each word pair that formed by candidate antecedents and words appeared in the punctuate-segmented sentence. The second feature is the semantic rationality of the simple sentence combined by candidate antecedents and the punctuate-segmented sentence that zero anaphora exist. This research would construct a hybrid methods of word semantic computing which base on several current semantic knowledge base or ontology resources and also construct a statistical method or deep learning method to compute word semantic relatedness based on big data. We would construct models to evaluate the word pair’s semantic combination probability and the simple sentence’s semantic rationality. A practical system would be built to test and demonstrate the research result. This work would promote the development of relevant research area such as machine learning etc.

零形回指是汉语的一种典型现象,零形回指消解的研究对篇章分析、自动文摘、信息抽取、机器翻译等应用领域都将产生重要贡献。现有的零形回指消解研究大多利用先行词和回指词句法特征的一致性进行消解,一般需要依赖人工标注的句法树库。这是现有零形回指消解方法的局限。本项目将基于广义话题理论,在以往对话题句识别研究工作的基础上,提出两个基于语义的特征:一是候选先行词和回指词所在标点句的词汇语义组合可能性,二是候选先行词和回指词所在标点句构成的简单句的语义合理性,并将它们作为筛选候选先行词的两项重要指标。本研究将构建融合现有语义知识库和本体的词汇语义关系计算方法和基于大数据的基于统计的词汇语义相似度计算方法,并基于此构建词汇语义组合可能性评价模型;然后从大规模语料中抽取句子语义关系模式库,构建句子语义合理性评价模型;最后建立面向汉语新闻文本的零形回指消解研究系统,为机器翻译等与语篇理解相关的应用奠定基础。

项目摘要

零形回指是汉语的一种典型现象,零形回指消解的研究对篇章分析、自动文摘、信息抽取、机器翻译等应用领域都将产生重要贡献。现有的零形回指消解研究大多利用先行词和回指词句法特征的一致性进行消解,一般需要依赖人工标注的句法树库。这是现有零形回指消解方法的局限。本项目按照计划,围绕汉语零形回指消解问题,根据预定的方案、路线开展研究,调研、梳理了国内外对汉语零形回指消解研究的情况,形成综述报告;搭建了大数据和深度学习研究平台;研究了词汇语义表征和相似度(相关度)计算方法,提出了一种基于语义关系图的词语语义相关度计算模型,提出了一个基于TF-IDF和CNN的汉语词汇语义关系分类模型,提出了一种利用类别标签对词汇关系抽取进行优化的方法;提出了一个CNN-LSTM-Attention协同模型用于表征句子的语义信息,在文本情感分类中应用此方法,取得了超越现有模型的实验结果;研究了各种深度学习模型,并提出了针对分词、微博情感分析、阅读理解等问题的优化模型,在此基础上,提出了一种基于LSTM和注意力模型的中文话头自足句构建方法,提出了基于语言模型的中文话头自足句识别方法,他们都能够提高汉语标点句首零形回指消解的性能。在本项目实施过程中,课题组取得了较好的阶段性成果。受本课题资助,已发表SCI检索论文4篇,EI会议检索论文3篇,EI期刊检索论文1篇,北大中文核心期刊论文5篇,另有5篇论文已经录用(3篇北大中文核心期刊论文,2篇EI检索国际会议论文)。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

演化经济地理学视角下的产业结构演替与分叉研究评述

演化经济地理学视角下的产业结构演替与分叉研究评述

DOI:10.15957/j.cnki.jjdl.2016.12.031
发表时间:2016
2

基于分形L系统的水稻根系建模方法研究

基于分形L系统的水稻根系建模方法研究

DOI:10.13836/j.jjau.2020047
发表时间:2020
3

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
4

基于分形维数和支持向量机的串联电弧故障诊断方法

基于分形维数和支持向量机的串联电弧故障诊断方法

DOI:
发表时间:2016
5

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

DOI:10.19596/j.cnki.1001-246x.8419
发表时间:2022

蒋玉茹的其他基金

相似国自然基金

1

汉语指代消解与多文本交叉共指研究

批准号:60173005
批准年份:2001
负责人:王厚峰
学科分类:F0211
资助金额:18.00
项目类别:面上项目
2

语义Web中对象共指的消解方法与技术

批准号:61003018
批准年份:2010
负责人:胡伟
学科分类:F0203
资助金额:20.00
项目类别:青年科学基金项目
3

面向文本推理的汉语语义计算模型研究

批准号:90920011
批准年份:2009
负责人:李素建
学科分类:F03
资助金额:50.00
项目类别:重大研究计划
4

基于语义分析的汉语文本错误自动侦测与纠错方法

批准号:61070119
批准年份:2010
负责人:张仰森
学科分类:F0211
资助金额:33.00
项目类别:面上项目