With the rapid growth of electronic book information resources, the contradiction between coarse-granularity status of book topic indexing and fine-granularity trend of information users' needs becomes increasingly serious. Combining book topic structure partition and book hierarchy topics extraction to index book hierarchical topics(BHT) is an effective way to resolve the contradiction. On the basis of theoretical inspection and needs analysis, this project makes efforts to build an automatic indexing model for BHT and its methodologies with the help of artificial intelligence and data mining theories and methods. First, an algorithm combining machine-learning and semantic analysis for table of contents (TOC) recognizing is designed to mine characteristics and marking rules of TOC. Then, the structure of BHT is partitioned within two steps. The first step is book coarse structure partition following fuzzy retrieval model and results of TOC recognition, and the second step is that, by applying hierarchical topic model and clustering analysis, the lowest level text fragments from the former one are partitioned their hierarchical topics structure out and indexed. At last, topic extraction and indexing for book coarse structure are done with an algorithm based on probabilistic topic model. So, automatic indexing of BHT is accomplished, which will surely refine the granularity of book information research, widen the content of book information research, and promote the development of managements and applications of book information resources.
随着电子图书信息资源的迅速增长,图书主题自动标引的粗粒度现状与信息用户需求的精细化趋势之间的矛盾日趋严重,进行图书层次主题自动标引是解决这一矛盾的有效方法。本项目在理论梳理与需求分析基础上,着力于构建图书层次主题自动标引模型及其方法体系,首先,设计图书目次识别算法,该算法融合机器学习及语义分析,从图书中提取目次特征与标记规则,接着,研制图书层次主题结构划分方法,利用目次识别和模糊检索划分出图书主题粗结构,利用层次主题模型和聚类分析,对图书主题粗结构划分得到的最小逻辑单元进行层次主题结构划分及主题标引,然后,通过基于概率主题模型的主题信息抽取方法,抽出图书主题粗结构中各逻辑单元的主题信息,实现图书层次主题自动标引,以细化图书信息研究粒度,拓展图书信息组织研究内容,推进图书信息资源管理与应用发展。
随着电子图书信息资源的迅速增长,图书主题自动标引的粗粒度现状与信息用户需求的精细化趋势之间的矛盾日趋严重,进行图书层次主题自动标引是解决这一矛盾的有效方法。.本项目主要研究内容为:厘清图书层次主题自动标引的理论基础与应用需求;在构建图书目次识别模型的基础上,首先对基于目次的图书主题粗结构划分研究,然后进行基于层次主题模型的文本层次主题结构划分,接着,研究了图书层次主题信息抽取模型,以生成文档层次主题树。在模型研究的基础上,设计与开发图书层次主题自动标引原型系统,并通过实证对理论模型和方法进行验证与优化。.研究结果包括:探讨了图书层次主题自动标引项目研究所需的各学科基础知识及理论,, 并分析了主题挖掘的研究热点与前沿;构建了图书层次主题自动标引语料库,为图书主题研究及用户细粒度阅读研究提供语料素材;开发了中文图书目次自动解析系统CBTOC Hierarchier及图书层次主题自动分析系统THC-DAT;实证了THC-DAT系统的可行性与优越性,更从客观衡量的角度探讨了用户细粒度阅读的用户认知负荷、认知模式等,不仅从实证上解决了图书主题自动标引的粗粒度现状与信息用户需求的精细化趋势之间的矛盾,同时,为图书用户细粒度阅读和检索研究提供了新的视角——认知视角。
{{i.achievement_title}}
数据更新时间:2023-05-31
演化经济地理学视角下的产业结构演替与分叉研究评述
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
圆柏大痣小蜂雌成虫触角、下颚须及产卵器感器超微结构观察
资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据
基于和合思想探究调和气血法调控VEGF-Ang-Notch通路及miRNA干预COPD肺血管重构机制
基于语义分析和统计的自动主题标引研究
基于本体的专利自动标引研究
基于短语信息和领域概念的主题标引关键技术研究
基于hLDA层次主题模型的中文多文档摘要研究