中文文献自动分类系统是一个智能软件系统。我们采用语料库和人工智能相结合的方法。首先抓住中文文本自动分词中的岐义切分和专有名词识别的研究。建立了岐义字段库,近8万条。填补了国内空白。在国内,首次使用了中国姓氏和中国地名用字使用度,采用基于统计信息和基于词汇/词性规则的算法,使自动分词的正确率达到96%左右,达到了实用化要求。其次,我们提出了一种基于词的三维加权自动分类方法。该方法基于《中国档案分类法》的分类体系,在对文本的归类判定中,考虑了类别词的频度、出现位置和专指度等因素,并辅以规则进行控制和调整。开发了“金融档案自动分类系统”和“财政公文自动分类系统”,分类正确率达到85%,正在向实用化过渡。
{{i.achievement_title}}
数据更新时间:2023-05-31
栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究
气载放射性碘采样测量方法研究进展
基于全模式全聚焦方法的裂纹超声成像定量检测
基于混合优化方法的大口径主镜设计
瞬态波位移场计算方法在相控阵声场模拟中的实验验证
中文文本自动分类关键技术研究
基于多样化特征表达的生物文献自动分类研究
中文自动口语摘要技术研究
中文新闻广播故事自动分割技术研究