基于在线百科和问答社区的中文文本蕴涵知识获取

基本信息

批准号：61163039

项目类别：地区科学基金项目

资助金额：47.00

负责人：张志昌

学科分类：

依托单位：西北师范大学

批准年份：2011

结题年份：2015

起止时间：2012-01-01 - 2015-12-31

项目状态：已结题

项目参与者：蒋芸,马慧芳,庞雅丽,秦红武,杨春风,王昌龙,何尔利

关键词：

蕴涵知识文本蕴涵自动获取在线百科在线问答社区

结项摘要

文本蕴涵，即一个文本（称为假设H）的意思可从另一个文本T中推断出来，称T蕴涵H，是自然语言处理研究中的难点和重点课题。文本蕴涵知识在蕴涵识别中有重要作用；相对英文，中文文本蕴涵方面的研究相对较少，积累的蕴涵知识资源不多。基于此，本项目提出利用在线百科和问答社区来获取中文文本蕴涵知识，主要特点和创新体现在：.（1）通过对中文各种在线百科和问答社区进行分析，提出利用这两种网络资源来获取词汇/短语蕴涵规则、模板蕴涵规则、蕴涵文本对；（2）借助这两种资源，用替换和统计方法，将获取到的短语、模板等已有的蕴涵知识用于新的蕴涵规则生成，进一步增加蕴涵知识规模；（3）为蕴涵规则获取上下文语义约束条件，并给出规则本身的类别信息，为规则的正确应用提供坚实基础；（4）针对文本蕴涵知识评测的难题，提出借助在线百科和问答社区，进行面向应用的文本蕴涵知识人工和自动性能评价，并分析蕴涵知识对实际应用的具体效用。

项目摘要

文本蕴涵识别是自然语言处理领域的重要研究内容之一，相关技术在信息检索、问答系统、机器翻译等方面都有重要应用。已有的研究表明，各种知识的不足、已标注的文本蕴涵对训练语料的规模限制，是影响文本蕴涵识别性能的关键因素之一。在有大量蕴涵规则知识和已标注训练语料的条件下，即使使用浅层的蕴涵识别方法，也能够得到不错的蕴涵识别性能。因此，本项目提出研究利用在线百科和问答社区来获取大量的中文文本蕴涵知识，包括词汇或短语蕴涵规则、模板蕴涵规则、“文本T-假设H”形式的蕴涵文本对。本项目的研究目标为：提出一套基于在线百科和问答社区的中文文本蕴涵知识获取的方法和模型，整合已有研究在文本蕴涵知识资源获取方面的研究成果，充分利用网上多种中文在线百科和问答社区的价值，挖掘和获取以下三类蕴涵知识：词汇或短语蕴涵规则、模板蕴涵规则、“文本T-假设H”形式的蕴涵文本。针对所设定的目标，我们进行了较为深入的研究。首先，通过对已有的词汇蕴涵规则进行分析，设计了区分不同形式蕴涵规则的分类体系，其中共包含10个大类。另外，提出了一种结合语境相似度特征和布朗聚类相似度特征的词汇蕴涵关系聚类验证方法，该方法在模式匹配抽取结果的基础上对词汇蕴涵关系进行验证过滤；同时也提出利用词向量技术，基于中文维基百科语料来训练词汇的词向量表示，并设计基于词向量的各种词汇蕴涵关系分类特征，来进行名词词对之间的蕴涵关系分类识别。最后，对获取到的词汇蕴涵知识，在文本蕴涵识别和微博主题建模中进行了应用和性能验证，表明获得的词汇蕴涵知识对文本蕴涵关系分类具有重要价值。构建了用于评测词汇蕴涵关系的数据集，可为其他研究者共享使用。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.1360/SSM-2020-0035

发表时间：2020

DOI：10.11897/SP.J.1016.2018.00886

发表时间：2018

DOI：10.7507/1672-2531.202012076

发表时间：2021

DOI：CNKI:SUN:YGXB.0.2018-01-012

发表时间：2018

DOI：

发表时间：2017

张志昌的其他基金

批准号：61762081

批准年份：2017

资助金额：39.00

项目类别：地区科学基金项目

相似国自然基金

基于深度学习的中文文本蕴涵关系识别技术研究

批准号：61762081

批准年份：2017

负责人：张志昌

学科分类：F0211

资助金额：39.00

项目类别：地区科学基金项目

基于多维度文本特征的社区问答答案质量评估研究

批准号：61305089

批准年份：2013

负责人：苏祺

学科分类：F03

资助金额：24.00

项目类别：青年科学基金项目

基于在线问答社区的智能信息服务方法及其用户决策影响研究

批准号：71772177

批准年份：2017

负责人：张瑾

学科分类：G0209

资助金额：47.00

项目类别：面上项目

面向中文指称概念的知识获取方法研究

批准号：61203284

批准年份：2012

负责人：王石

学科分类：F0607

资助金额：25.00

项目类别：青年科学基金项目

基于在线百科和问答社区的中文文本蕴涵知识获取

{{i.achievement_title}}

暂无此项成果

其他相关文献

现代优化理论与应用

WMTL-代数中的蕴涵滤子及其应用

口腔扁平苔藓研究热点前沿的可视化分析

GF-4序列图像的云自动检测

区块链技术:从数据智能到知识自动化

张志昌的其他基金

基于深度学习的中文文本蕴涵关系识别技术研究

相似国自然基金