文本自动分类在文本信息检索、Web搜索引擎、数字图书馆、知识管理、文本信息安全、个性化服务等现实应用中占有重要位置,前景十分广阔,因而成为当前自然语言处理与信息检索的研究前沿与热点之一。本项目将进行以下几方面的研究:一、以半自动的方式,建立一个世界上规模最大的文本分类用中文文本集(训练集和测试集)。二、在所建立的文本集上,对现有主流方法在训练集扩大1-2个数量级条件下的性质进行深入的实验研究。三、基本解决汉语自动分词在文本分类中的地位这一中文文本分类的最大困惑问题。四、对特征基本单元这一文本分类的最大困惑问题进行深入研究,探讨基于"适度理解"策略,即基于半结构化语言信息的方法在提高文本分类精确率上的效用。五、设计并实现一个中文文本分类系统,在本项目所建立的大规模中文文本集上的开放测试中,其F1值应达到90%以上,或者比通行的方法性能有显著提高。
{{i.achievement_title}}
数据更新时间:2023-05-31
主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究
自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例
Identification of the starting reaction position in the hydrogenation of (N-ethyl)carbazole over Raney-Ni
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
One-step prepared prussian blue/porous carbon composite derives highly efficient Fe-N-C catalyst for oxygen reduction
跨语言文本自动分类关键技术研究
中文文献自动分类技术研究
基于特征联想的中文短文本分类方法研究
中文情感资源自动构建的关键技术研究