文本分类是文本挖掘的关键性和基础性问题之一。日益加快的全球一体化进程对跨语言的文本分类技术提出了迫切的需求。虽然目前研究者们已经进行了大量的文本分类相关研究工作,但是针对的跨语言文本分类问题的研究比较匮乏,限制了跨文本挖掘的发展和应用。本项目将针对多语言环境下跨语言文本分类的关键问题进行深入研究。具体研究内容包括:(1)基于特征概念的文本表示方法和特征概念的提取方法;(2)跨语言的文本相似度计算方法和类别判定方法;(3)中英跨语言分类测试语料集合的建立,实现原型系统,对算法进行评价和改进。通过本项目的研究,不仅能突破跨语言文本分类的难题,还可为跨语言的信息检索和文本挖掘提供有效的基础算法,使更大范围和更深层次的跨语言应用成为可能。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于LS-SVM香梨可溶性糖的近红外光谱快速检测
信息熵-保真度联合度量函数的单幅图像去雾方法
高分五号卫星多角度偏振相机最优化估计反演:角度依赖与后验误差分析
骨外器官来源外泌体对骨骼调控作用的研究进展
城市生活垃圾热值的特征变量选择方法及预测建模
中文文本自动分类关键技术研究
面向英汉双向跨语言图像检索的文本分析关键技术研究
跨语言文本复制检测研究
跨语言敏感事件抽取关键技术研究