随着全球一体化进程加快、多语言信息资源激增,针对多语言文本聚类的研究尤为迫切。当前多语言文本聚类方法主要依赖于双语词典、多语主题词表或平行语料,由于这些资源获取成本高、常与聚类文本所属领域不兼容,限制了多语言文本聚类的发展,需要探索有效的多语言文本聚类方法。鉴于可比语料易获取、易与领域兼容,且多语言相似词在可比语料上有相似语境分布,本项目将可比语料用于多语言文本聚类,拟以申请者已开发的主题聚类原型系统为基础,进行如下三方面研究:1.结合短语分析和机器学习,提取多语言文本主题;2.生成可比语料,用可比语料计算跨语言文本主题间相似度,进而计算跨语言文本间相似度;3.在上述基础上,以平行语料为约束实现多语言文本聚类。本项目难点是紧扣多语言文本聚类需求,有效解决以上问题,核心问题是基于可比语料的跨语言语言文本主题间相似度计算。本项目旨在探寻提高多语言文本聚类性能的方法,有效解决多语言文本聚类问题。
随着全球一体化进程加快、多语言信息资源激增,针对多语言文本聚类的研究尤为迫切。当前多语言文本聚类方法主要依赖于双语词典、多语主题词表或平行语料,由于这些资源获取成本高、常与聚类文本所属领域不兼容,限制了多语言文本聚类的发展,需要探索有效的多语言文本聚类方法。鉴于可比语料易获取、易与领域兼容,且多语言相似词在可比语料上有相似语境分布,本项目将可比语料用于多语言文本聚类,以申请者已开发的主题聚类原型系统为基础,进行如下几个方面的研究。.1. 结合短语分析和机器学习,提取多语言文本主题; .2. 生成可比语料,用可比语料计算跨语言文本主题间相似度,进而计算跨语言文本间相似度;.3. 在上述基础上,以平行语料为约束实现多语言文本聚类。
{{i.achievement_title}}
数据更新时间:2023-05-31
EBPR工艺运行效果的主要影响因素及研究现状
基于铁路客流分配的旅客列车开行方案调整方法
信息熵-保真度联合度量函数的单幅图像去雾方法
基于暂态波形相关性的配电网故障定位方法
骨外器官来源外泌体对骨骼调控作用的研究进展
基于谱聚类的文本聚类集成方法研究
基于图论模型的文本重叠聚类研究
高性能基于主题的文本聚类研究
基于语义的中文文本聚类研究