基于汉语话题的句际关系自动分析研究

基本信息
批准号:61371129
项目类别:面上项目
资助金额:80.00
负责人:吴云芳
学科分类:
依托单位:北京大学
批准年份:2013
结题年份:2017
起止时间:2014-01-01 - 2017-12-31
项目状态: 已结题
项目参与者:袁毓林,邵艳秋,张文贤,宋洋,王菲,万富强,徐艺峰,张博,周蜜
关键词:
语料库句际关系LDA模型句法分析语义分析
结项摘要

Topic and unmarked complex sentence are two kinds of mighty categories within the framework of linguistic typology, and topic identification and discourse relation recognition have wide and important application usages in natural language processing. This project proposes that topic is the marked form to generate Chinese complex discourse structure, and then exploits topic information for the computer automatic understanding of Chinese parataxis subsentence. (1) Topic identification: Topic subsentence identification will classify Chinese common from a new perspective, and topic element identification will verify the fitness of candidate topic sentences by computing semantic similarity after semantic generalization in a large-scale corpus. (2) Discourse structure analysis: It will segment complex sentences by using topic, connective and similarity score. (3) Discourse relation recognition: It will employ a SVM classifier using different semantic category features including Event, Polarity, Negation, Modality and Structure. It will use LDA model to transform lexical features into topic space with three types of features, and it will use LinkLDA to jointly model the two arguments of a semantic relation. (4) A test system: It will automatically train the weights of different relations in accordance with their importance to improve the performance of text sentiment analysis. (5) Language knowledge base: We will construct a large-scale high quality corpus annotated with Chinese topic and discourse relations.

话题和无标记的主次复句是语言类型学上汉语的两个显赫范畴,话题识别和句际关系分析有着重要的应用价值。本项目论证了话题是复杂的句际结构生成的形式标记,将利用话题来实现意合性小句的计算机自动理解。(1)汉语话题自动识别,话题小句识别将在全新视角下对逗号进行分类,话题成分识别将基于大规模语料库语义泛化后进行语义相似度计算来验证候选话题句的合格性。(2)句际层级结构分析,利用话题、关联标记、句间相似度自顶向下对文本进行分隔。(3)句际逻辑关系判定,利用小句的事件义、情感义、否定义、时态义、结构义等不同语义范畴特征进行SVM分类,将利用LDA模型将词汇特征转换为主题空间中的三类特征,将利用LinkLDA模型来捕捉逻辑关系对两个论元的协同语义制约。(4)验证系统,基于大规模语料来拟合不同句际关系的权值来提升文本情感计算的性能。(5)语言资源建设,将构建100万字、15万句的汉语话题和句际关系标注语料库。

项目摘要

无标记的主次复句是语言类型学上汉语的显赫范畴,篇章层面汉语文本句际关系的自动分析与问-答句际关联度计算具有重要的理论意义与应用价值。1) 针对汉语语言特点,制定了汉语句际关系标注规范,构建了约200万字的汉语句际关系标注语料库,可作为汉语篇章关系研究的训练和测试的基准数据。2) 研究了汉语句际关系自动分析的方法,提出了“类排序SVM句际层级结构分析方法”与“基于一体化标签的篇章树构建方法”。3) 将篇章信息和句际信息融入到深度神经网络,在答案选择、答案判断、对话行为识别等任务上显著提升了系统性能。4) 研究了问-答句际关联度计算方法,提出了“去噪张量自编码器”,高效地建模问答句复杂的语义关联并对张量网络进行有效的预训练;提出了“结合显式匹配信息的神经网络关联度计算方法”,能够同时捕捉深层语义关联与浅层显式匹配信息。5) 探索了基于维基百科的汉语词汇语义关联度计算方法,探究了深度学习中汉语字向量与词向量的结合方式。6) 在NLPCC会议上,组织了两项汉语语义计算评测任务。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

涡度相关技术及其在陆地生态系统通量研究中的应用

涡度相关技术及其在陆地生态系统通量研究中的应用

DOI:10.17521/cjpe.2019.0351
发表时间:2020
3

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
4

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
5

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018

吴云芳的其他基金

相似国自然基金

1

基于广义话题的汉语篇章结构研究

批准号:61171129
批准年份:2011
负责人:宋柔
学科分类:F0113
资助金额:62.00
项目类别:面上项目
2

汉语特征结构的资源建设和自动分析研究

批准号:90820005
批准年份:2008
负责人:姬东鸿
学科分类:F0211
资助金额:50.00
项目类别:重大研究计划
3

基于语义依存图的汉语复杂名词短语资源建设与自动分析研究

批准号:61173095
批准年份:2011
负责人:萧国政
学科分类:F0211
资助金额:57.00
项目类别:面上项目
4

普通话叙述句F0的构建与汉语语调研究

批准号:60075011
批准年份:2000
负责人:林茂灿
学科分类:F0605
资助金额:14.00
项目类别:面上项目