基于可比语料的多语言文本聚类研究

基本信息
批准号:70903032
项目类别:青年科学基金项目
资助金额:19.00
负责人:章成志
学科分类:
依托单位:南京理工大学
批准年份:2009
结题年份:2012
起止时间:2010-01-01 - 2012-12-31
项目状态: 已结题
项目参与者:颜端武,薛春香,刘明岩,许应楠,王雪芬
关键词:
主题提取多语言信息资源多语言文本聚类可比语料跨语言文本相似度
结项摘要

随着全球一体化进程加快、多语言信息资源激增,针对多语言文本聚类的研究尤为迫切。当前多语言文本聚类方法主要依赖于双语词典、多语主题词表或平行语料,由于这些资源获取成本高、常与聚类文本所属领域不兼容,限制了多语言文本聚类的发展,需要探索有效的多语言文本聚类方法。鉴于可比语料易获取、易与领域兼容,且多语言相似词在可比语料上有相似语境分布,本项目将可比语料用于多语言文本聚类,拟以申请者已开发的主题聚类原型系统为基础,进行如下三方面研究:1.结合短语分析和机器学习,提取多语言文本主题;2.生成可比语料,用可比语料计算跨语言文本主题间相似度,进而计算跨语言文本间相似度;3.在上述基础上,以平行语料为约束实现多语言文本聚类。本项目难点是紧扣多语言文本聚类需求,有效解决以上问题,核心问题是基于可比语料的跨语言语言文本主题间相似度计算。本项目旨在探寻提高多语言文本聚类性能的方法,有效解决多语言文本聚类问题。

项目摘要

随着全球一体化进程加快、多语言信息资源激增,针对多语言文本聚类的研究尤为迫切。当前多语言文本聚类方法主要依赖于双语词典、多语主题词表或平行语料,由于这些资源获取成本高、常与聚类文本所属领域不兼容,限制了多语言文本聚类的发展,需要探索有效的多语言文本聚类方法。鉴于可比语料易获取、易与领域兼容,且多语言相似词在可比语料上有相似语境分布,本项目将可比语料用于多语言文本聚类,以申请者已开发的主题聚类原型系统为基础,进行如下几个方面的研究。.1. 结合短语分析和机器学习,提取多语言文本主题; .2. 生成可比语料,用可比语料计算跨语言文本主题间相似度,进而计算跨语言文本间相似度;.3. 在上述基础上,以平行语料为约束实现多语言文本聚类。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

涡度相关技术及其在陆地生态系统通量研究中的应用

涡度相关技术及其在陆地生态系统通量研究中的应用

DOI:10.17521/cjpe.2019.0351
发表时间:2020
2

跨社交网络用户对齐技术综述

跨社交网络用户对齐技术综述

DOI:10.12198/j.issn.1673 − 159X.3895
发表时间:2021
3

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

DOI:10.19701/j.jzjg.2015.15.012
发表时间:2015
4

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

DOI:10.12054/lydk.bisu.148
发表时间:2020
5

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022

章成志的其他基金

相似国自然基金

1

基于谱聚类的文本聚类集成方法研究

批准号:60975042
批准年份:2009
负责人:卢志茂
学科分类:F0603
资助金额:32.00
项目类别:面上项目
2

基于图论模型的文本重叠聚类研究

批准号:61202312
批准年份:2012
负责人:吴秦
学科分类:F0605
资助金额:23.00
项目类别:青年科学基金项目
3

高性能基于主题的文本聚类研究

批准号:60703058
批准年份:2007
负责人:赵颖
学科分类:F0201
资助金额:20.00
项目类别:青年科学基金项目
4

基于语义的中文文本聚类研究

批准号:60772081
批准年份:2007
负责人:施水才
学科分类:F0113
资助金额:30.00
项目类别:面上项目