短文本分类就是对长度短的文本(通常文本长度小于160字符)进行自动分类。短文本分类技术在手机短信息过滤和客户评论自动分类等方面具有重要的应用前景。本项目将进行以下几个方面研究:(1)以半自动方式,建立由15个不同领域的50万篇中文短文本构成的150个文本集(训练集和测试集)。(2)研究利用"知网"等专家构造资源中的可用信息来扩展短文本所描述概念,建立词语对之间关系的技术和方法。(3)研究词语对之间关系的选择方法。(4) 研究有效利用概念扩展后的短文本所包含的有效信息进行分类的分类模型和分类方法。(5)设计并实现一个中文短文本分类原型系统,其性能基本达到实用水平。本项目的完成也对其它自然语言处理问题(例如二次信息检索等)具有推动作用。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于多模态信息特征融合的犯罪预测算法研究
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
高压工况对天然气滤芯性能影响的实验研究
多空间交互协同过滤推荐
多源数据驱动CNN-GRU模型的公交客流量分类预测
中文社交化短文本情感分析与话题挖掘研究
统计学习中文问句分类方法研究
基于多源特征学习的中文查询纠错方法研究
短文本的精确语义感知与多分类研究