The Re-flowable document is a kind of important data resources because of its wide application, rich information and high value. Aiming at the requirements in re-flowable document optimization, this research seeks for an intelligent way to analyze the document semantics. It tries to draw on the methods used in the areas of natural language processing and machine learning to understand the semantics of the document expressed by the composing elements. It intends to utilize different characteristics comprehensively including those existed in the low level format, the text characteristics as well as structural characteristics to build a statistical model with rules in order to recognize the logic components and the whole document structure, laying the foundation for various key applications such as typesetting verification, layout reconstruction and so on. The research is focused on the specification of typesetting rules, ontology based document partition, machine learning based document component identification, hierarchical method for document semantic analysis and corpus construction, etc. The major innovations include: the composing elements are taken as the research object to study the document semantics thus expanding the scope of text understanding; the advantage of re-flowable document is played fully in the information extraction process thus making up the shortage in the traditional information extraction; a hierarchical semantic analysis method is applied thus reducing the domain dependency of components and simplifying typesetting rules. This project is of much significance to the normalization of document typesetting, as well as to the proper presentation and efficient use of the document big data.
流式文档因其用途广、信息量大、价值高,是一类重要的数据资源。本项目针对流式文档格式优化的要求,探索智能化的文档语义分析方法。试图借鉴自然语言处理和机器学习的研究方法,理解排版元素所表达的语义,综合利用流式文档中蕴含的低层格式信息、文本特征和结构特征,构建统计模型和规则,识别文档的逻辑构件和整体结构,从而为文档排版格式检验和格式重排等关键应用奠定基础。本项目重点研究文档排版规则的构造方法、基于本体的文档构件划分方法、基于机器学习的文档构件识别方法、文档语义的层次化分析方法以及基础语料库建设。主要创新之处是,以流式文档的排版元素为研究对象,研究流式文档的语义,以扩展文本理解的范围;信息提取中充分发挥流式文档的优势,可弥补传统方法的不足;采用分层的语义分析方法,可降低构件的领域相关度,简化排版规则的描述。本项目对于规范文档的格式、合理展现文档,高效利用文档,发挥文档大数据的作用具有重要意义。
流式文档因其用途广、信息量大、价值高,是一类重要的数据资源。本项目针对流式文档格式优化等应用需求,探索智能化的文档语义分析方法,结合机器学习和自然语言处理技术,识别文档结构,进而进行格式查错和优化,很好地完成了项目的预期目标。具体工作包括:1)文档语料库的建设。针对机器学习的需要,采集加工多种类型的文档,并对部分语料进行加工标注,用作学习和测试样本,开发了半自动化的标注工具;2)对文档进行层次结构划分,分解为具有独立语义的构件,并使用排版规则表示文档层次上的构件组成;3)采用基于规则的方法和基于机器学习的方法对构件进行容错识别,在此基础上使用排版规则对文档的结构进行分析;4)利用文档结构识别的结果,通过排版规则验证文档结构的正确性,发现错误并加以纠正。本项目的重点是对文档构件和文档结构识别算法的研究,深入研究了内容特征、格式特征和位置特征等的提取,尝试将基于语法规则的方法、基于统计分析的方法和基于深度学习的方法用于文档构件和文档结构识别,均取得了良好的效果。此外,本项目还对相关的领域开展了研究,包括文字表格的逻辑结构识别,参考文献的著录项识别和参考文献格式查错,文字字体的识别和字体替代,以及书后索引的自动构建等等。本项目在以下方面具有创新性:1)结合流式文档中的文本和式样信息研究文档语义,扩展了自然语言处理文本理解的研究方法。2)信息提取中综合利用内容、格式和结构等特征,获取构件的逻辑标签和文档结构信息,充分发挥了流式文档的优势,提高了文档语义信息提取的能力。3)采用分层的语义分析方法,建立文档结构到文档构件,以及文档构件到排版元素的关联,将相对稳定的构件识别交由机器学习完成,将可变的逻辑结构识别通过排版规则来判定,降低了构件的领域相关度,以及文档结构理解的难度。本项目的研究具有广泛的理论研究与实际应用价值。其意义包括:提高出版物特别是学术出版物的质量;促进文档信息的有效利用和传播;充分发挥文档数据的价值,有效利用文档中的语义信息;节省文档排版和格式检验的人工成本。此外,本项目也有助于丰富和拓展其他相关领域的研究工作。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
lncRNA PRDM11抑制直肠癌同步放化疗敏感性的机制及其联合影像组学建立新疗效评估模型的研究
图文混合笔输入文档分析与识别的理论与方法研究
流式计算模型中新的下界分析方法的探索
乌金体藏文古籍文档分析与识别研究
图象分析的智能化方法研究