基于多粒度表示学习的文本可读性评估技术研究

基本信息
批准号:61906085
项目类别:青年科学基金项目
资助金额:25.00
负责人:蒋智威
学科分类:
依托单位:南京大学
批准年份:2019
结题年份:2022
起止时间:2020-01-01 - 2022-12-31
项目状态: 已结题
项目参与者:
关键词:
可读性评估分类模型深度学习表示学习文本分类
结项摘要

This project proposes to study the text readability assessment technology based on multi-granularity representation learning. The objective is first to study the representation learning algorithm, which can encode the factors affecting text readability into text representation during the process of word representation learning, sentence representation learning and passage representation learning. Then, it needs to explore an effective and automated text readability assessment technology based on the representation learning algorithm. Finally, through the experimental evaluation and analysis, the representation learning algorithm and the readability assessment technology can be verified and improved. Specifically, this project proposes to study: (1) readability assessment technology based on the capture of vocabulary difficulty, (2) readability assessment technology based on the capture of grammatical complexity, and (3) readability assessment technology based on the capture of semantic coherence. By combining machine learning technology and the domain knowledge of readability, this project proposes to solve two problems, one is how to capture readability related information such as vocabulary difficulty, grammatical complexity, and semantic coherence during the process of text representation learning, and the other is how to effectively assess text readability based on the multi-granularity text representation.

本项目研究基于多粒度表示学习的文本可读性评估技术,其目标是通过在单词表示学习、句子表示学习、篇章表示学习三个粒度层面充分考虑影响文本可读性的因素,开展相关的文本表示学习算法的研究,进而探索高效而自动化的文本可读性评估技术,最后通过实验评估和分析对表示学习算法以及可读性评估技术进行验证与改进。具体而言,本项目的研究内容包括:(1)研究基于词汇难度捕捉的可读性评估技术;(2)研究基于语法复杂度捕捉的可读性评估技术;(3)研究基于语义连贯度捕捉的可读性评估技术。本项目拟结合机器学习技术和可读性领域知识,重点解决如何在文本表示学习过程中捕捉词汇难度、语法复杂度、语义连贯度等可读性信息,以及如何基于多粒度文本表示进行有效可读性评估的问题。

项目摘要

可读性评估技术作为教育领域阅读分级的重要支撑技术,吸引了研究者的广泛关注,它通过综合衡量文本各方面的因素对文本被读者理解的难易程度进行评估,可以用来为用户提供个性化的分级阅读推荐服务。本项目围绕基于多粒度表示学习的文本可读性评估技术展开,从文本表示粒度角度出发,分别研究单词粒度表示学习、句子粒度表示学习、篇章粒度表示学习、多粒度表示融合的文本分类技术。针对单词粒度,提出基于单词粒度表示学习的文本分类技术,并具体研究了基于难度敏感词嵌入的可读性评估技术、基于词嵌入构图的文本质量评估技术。针对句子粒度,提出基于句子粒度表示学习的文本分类技术,并具体研究了基于句级样本生成的开放意图识别技术。针对篇章粒度,提出基于篇章粒度表示学习的文本分类技术,并具体研究了基于局部上下文搜索的情感原因配对技术、基于统一序列标注的情感原因对标注技术、基于机器阅读理解形式的情感原因对查询匹配技术。针对多粒度融合,提出基于多粒度表示融合的分类技术,并具体研究了基于帧-片段-骨骼序列图的视频编码技术、基于单偏光-正交偏光的双输入图像编码技术。在上述研究工作中,文本分类模型的准确率均高于同期最优方法,表示学习算法均能为分类提供足够的决策信息。此外,考虑到标注受限、开放类别等实际需求,上述研究工作进一步对样本生成、标签增强、模型训练等方面进行了改进设计,以适应标注受限、开放类别等实际场景,并在更符合实际环境需求的开放设置下进行了实验验证,有望推动其走向应用。基于上述研究,项目执行期间共发表论文11篇,其中CCF-A类论文3篇,CCF-B类论文4篇,申请发明专利4项。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
2

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
3

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
4

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
5

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018

蒋智威的其他基金

相似国自然基金

1

基于泛化多标记学习的监控视频多粒度表示机理研究

批准号:61573259
批准年份:2015
负责人:卫志华
学科分类:F0603
资助金额:64.00
项目类别:面上项目
2

基于结构化数据表示学习的文本生成技术研究

批准号:61906053
批准年份:2019
负责人:冯骁骋
学科分类:F0606
资助金额:25.00
项目类别:青年科学基金项目
3

基于多源语义表示学习的社交媒体文本属性情感分类研究

批准号:61772135
批准年份:2017
负责人:廖祥文
学科分类:F0211
资助金额:16.00
项目类别:面上项目
4

基于文本表示学习的金融市场行情预测方法研究

批准号:61702137
批准年份:2017
负责人:丁效
学科分类:F0211
资助金额:25.00
项目类别:青年科学基金项目