Retrieval and searching engine technology could not yet treat with the searching requirements expressed in mathematical expressions currently, which hindered the sharing and exchange of the information resources of science and technology which majorly contain mathematical expressions. Facing at the special attributes of mathematical expressions that the symbols are arranged in two dimensions and the calculating relations are expressed with special distributions of symbols implicitly which is different from one dimension normal text, we research the topic of searching, processing and retrieval of mathematical expressions which are the major components of science and technology documents, and establish the acquasition and retrieval model of mathematical expression resources.. First of all, we proposed a method of processing the coded formula resources and the imaged formula resources to plan as a whole in the searching and processing of mathematical expression information to ensure their integrity and lay a foundation for the retrieval feature extraction which transforms these two kinds of resources into FDS(Formula Description Structure) defined by us with different methods.. Then, in mathematical retrieval which is a special retrieval question of complex two dimensions patterns, we put forward a weighted expression retrieval feature vector extraction method based on FDS which integrates the information of spatial, syntax and semantics characteristics of mathematical experissions. Furthermore, we research and construct a hierarchical model of mathematical expression indexing and matching.. The acquisition and retrieval model of mathematical expression resources proposed in this project will build a theory and application foundation on mathematical searching engine with high performance.
目前的检索技术还无法进行数学表达式内容的检索,阻碍了以数学表达式为主要成分的科技信息资源的共享与交流。针对数学表达式符号二维分布且频繁利用空间关系隐含表达运算关系等不同于一维普通文本的特殊属性,对含有数学表达式的科技文献资源的搜集、整理与检索问题展开研究,建立数学表达式资源获取与检索模型。. 首先,在数学资源搜索与整理中,提出将搜集、检测到的代码型和图像型资源统筹处理的方法,将两种资源分别采用不同的方法规范化为自行研究定义的数学表达式描述结构FDS(Formula Description Structure),以保证资源收集的完整性,并为检索特征提取奠定基础。. 其次,针对数学表达式检索这一复杂二维模式的特殊检索问题,提出基于FDS的,融合空间、语法和语义特征的表达式加权检索特征提取方法,研究与构建数学表达式索引与匹配的层次模型。. 本课题研究提出的数学表达式资源获取与检索模型将为实现高性能的数学搜索引擎打下理论和应用基础。
由于科技文献中数学表达式这一关键成分的特殊属性,现有的面向文本的检索技术还难以实现以数学表达式为查询关键词的科技信息检索,这无疑给与日俱增的科技信息交流带来不便。目前,数学表达式检索理论和技术尚处于研究阶段。研究获取含有数学表达式的科技信息资源,建立数学表达式索引匹配模型,实现数学表达式检索,是目前信息检索领域亟待解决的重要理论和应用问题。主要研究内容和重要结果包括:.1.在数学表达式资源获取研究中,对科技文献中数学表达式资源的检测、采集与规范化进行了研究,定义了数学表达式描述结构FDS,分别提出了代码型公式资源CFR和图像型公式资源IFR规范化为FDS的方法和算法,实现了主流数学资源的获取和规范化。.2.研究、建立了面向数学表达式检索需求的数学检索特征提取方法和算法,提出了基于FDS的数学表达式符号、语法和语义特征提取算法,为实现数学检索打下了基础。.3.在数学表达式检索模型的研究中,分别提出了基于FDS、基于层次结构特征、基于Trie树和基于互关联后继树的数学表达式检索模型,建立了适应数学表达式特点的索引结构和查询模式,设计了数学表达式及其文档的匹配算法,并实验验证了模型和算法的有效性。.4.在数学表达式检索结果排序研究中,提出了基于犹豫模糊集的数学表达式检索结果相似度排序方法,利用犹豫模糊集在多属性模式评价方面的优势,定义犹豫模糊隶属度评价查询公式与结果公式的相似度,实现检索结果的有序输出,使其更好地满足查询需求。.本项目面向数学表达式这一特殊二维模式,有针对性地将新理论应用于数学检索问题,研究数学表达式资源获取和检索模型,所取得成果丰富了信息检索理论和应用,对于科技信息检索、数学搜索引擎等领域有着重要、广泛的理论和应用价值。
{{i.achievement_title}}
数据更新时间:2023-05-31
粗颗粒土的静止土压力系数非线性分析与计算方法
黄河流域水资源利用时空演变特征及驱动要素
中国参与全球价值链的环境效应分析
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于细粒度词表示的命名实体识别研究
专家检索资源获取与学习排序方法研究
知识获取与信息融合的数学理论及其应用模型集成研究
基于位置服务的多维度空间信息获取与检索
基于社区的P2P信息资源的语义检索策略与模型研究