统计学习中文问句分类方法研究

基本信息
批准号:61365010
项目类别:地区科学基金项目
资助金额:46.00
负责人:苏磊
学科分类:
依托单位:昆明理工大学
批准年份:2013
结题年份:2017
起止时间:2014-01-01 - 2017-12-31
项目状态: 已结题
项目参与者:线岩团,吴丽萍,杨彬,孔迎春,邵佳,潘华山,李磊
关键词:
半监督学习多标记学习迁移学习问句分类问答系统
结项摘要

Question Classification, an important module of Question Answering system, is the foundation of answer extraction and answer location. A correct result of question classification could contribute to the strategy of answer extraction. To solve the problem of how to classify the questions based on statistical learning, this project does a series of research which revolves data sparse and dimenstion reduction in vector space model,utilization of the large amount of unlabeled training examples, domain adaptation and multi-label classification. A method of Chinese feature extraction based on the semantic similarity of words could be used to tackle the problem of key feature extraction and data sparse in vector space model.A semi-supervised learning combining the tree kernel and the graph method coulde be employed to utilize the abundant unlabeled questions which coulde be easily collected. In domain adaptation for question classification, the similarity of questions coulde be computed and used for label propagation between the different domains. The multi-instance and multi-label frame could be used to solve the problem of the multi-label questions. Research on Chinese question classification based on statistical learning has important theoretical mearning and practical value.

问句分类是问答系统的关键部分,是制定答案抽取策略和精确定位答案的依据,问句分类准确性直接影响问答系统的性能。课题针对统计学习问句分类所面临的"数据稀疏"、"维数灾难"、"无标记数据利用"、"领域可移植"和"多标记分类"难点问题开展研究。在问句特征提取及高维降维方面,基于词汇语义相似度计算方法进行特征提取,基于有监督的局部线性嵌入非线性流形问句特征降维,可有效处理特征向量空间"数据稀疏"和"维数灾难"问题;在利用无标记类别问句样本方面,结合句法结构特征的树核函数,采用图上半监督学习方法问句分类,可有效处理"无标记数据利用"问题;在分类器领域适应性方面,融合问句相似度计算和标记传播方法,可有效解决"领域可移植"问题;在问句多标记分类方面,采用多示例多标记框架解决"多标记分类"问题。课题研究成果有非常重要的理论意义和实用价值。

项目摘要

问句分类是问答系统的一个重要组成部分,是答案抽取和答案定位的基础,问句分类结果直接影响答案抽取的准确率。本课题围绕中文问句分类展开研究和探讨,主要在中文问句分类特征提取、半监督学习问句分类、问句分类器的领域适应性,以及多标记问句分类方法等方面开展研究,取得了以下特色和成果。.(1) 针对问句分类特征提取困难和特征向量空间数据稀疏的问题,提出基于语义相似度计算的中文问句特征提取方法;利用Wikipedia知识库进行问句语义知识扩展;采用联合特征提取法CEFA进行问句特征降维。实验结果表明,提出的问句特征提取方法,与传统的Bag-of-words和TFIDF等方法比较,获得了更好的分类效果。.(2) 针对问句分类模型训练中如何利用大量未标记问句样本,提出半监督学习问句分类方法。提出采用基于集成半监督分类方法Semi-Bagging对问句进行分类;提出基于图的标签传播半监督问句分类方法。实验结果表明,提出的半监督学习方法,能够有效利用大量的未标记样本,提高问句分类准确率。.(3) 针对提供新的目标领域分类模型训练的问句样本不足时,如何利用旧的源领域中大量问句样本进行学习的问题,提出基于核函数映射的问句分类器迁移学习方法。实验结果表明,提出的问句迁移学习方法能有效利用不同数据分布下的辅助数据,提高目标领域的分类准确率。.(4) 针对问句的多义性问题,提出采用多标记学习框架MQ-LIFT进行多标记问句分类。首先利用Word2Vec进行词特征向量处理,然后以多标记问句分类方法进行分类。实验结果表明,提出的多标记问句分类方法能有效解决问句的多义性问题,提高问句分类准确率。.(5) 共发表论文16篇,其中SCI已检索论文3篇,EI已检索论文9篇;软件著作权6项;培养毕业硕士研究生7名,目前在读硕士生9名。.课题研究成果可广泛应用于不同领域问答系统的问句分析和理解,可在一定程度上降低统计学习问句分类对语料的依赖问题,为开发实用的领域问答系统奠定技术基础,研究有着非常重要的理论和实际应用价值。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于分形L系统的水稻根系建模方法研究

基于分形L系统的水稻根系建模方法研究

DOI:10.13836/j.jjau.2020047
发表时间:2020
2

主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究

主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究

DOI:10.13465/j.cnki.jvs.2020.09.026
发表时间:2020
3

温和条件下柱前标记-高效液相色谱-质谱法测定枸杞多糖中单糖组成

温和条件下柱前标记-高效液相色谱-质谱法测定枸杞多糖中单糖组成

DOI:10.3724/ SP.J.1123.2019.04013
发表时间:2019
4

拥堵路网交通流均衡分配模型

拥堵路网交通流均衡分配模型

DOI:10.11918/j.issn.0367-6234.201804030
发表时间:2019
5

基于多模态信息特征融合的犯罪预测算法研究

基于多模态信息特征融合的犯罪预测算法研究

DOI:
发表时间:2018

苏磊的其他基金

批准号:21273206
批准年份:2012
资助金额:80.00
项目类别:面上项目
批准号:20705034
批准年份:2007
资助金额:18.00
项目类别:青年科学基金项目
批准号:81701367
批准年份:2017
资助金额:20.00
项目类别:青年科学基金项目
批准号:31700022
批准年份:2017
资助金额:20.00
项目类别:青年科学基金项目
批准号:81071529
批准年份:2010
资助金额:32.00
项目类别:面上项目
批准号:21175010
批准年份:2011
资助金额:60.00
项目类别:面上项目
批准号:41807158
批准年份:2018
资助金额:25.00
项目类别:青年科学基金项目

相似国自然基金

1

基于弱指导机器学习技术的中文领域本体非分类关系自动学习研究

批准号:61300120
批准年份:2013
负责人:仇晶
学科分类:F0607
资助金额:23.00
项目类别:青年科学基金项目
2

基于学习排序模型的中文智能提问方法研究

批准号:61502397
批准年份:2015
负责人:刘明
学科分类:F06
资助金额:20.00
项目类别:青年科学基金项目
3

中文领域本体学习及半自动构建方法研究

批准号:71201032
批准年份:2012
负责人:于娟
学科分类:G0112
资助金额:19.00
项目类别:青年科学基金项目
4

基于特征联想的中文短文本分类方法研究

批准号:60703010
批准年份:2007
负责人:樊兴华
学科分类:F0211
资助金额:21.00
项目类别:青年科学基金项目