With the explosion of information nowadays, the patent documents boosted in a geometric level, which has caused a seires of problems, such as the difficulty of massive information retrieval, the increasing cost of artificial deep indexing of patent documents, etc.Thus this project proposes an automatic indexing method of patent based on domain ontology. According to the research of the mining of patent terms, the construction of the Domain Ontology Base, the presentation of patent text and the discovery of indexing words, this project focus on the construction of the domain ontology base and automatic indexing. From the user retrieval information in the patent logs and the structural features of patent text, this project proposes a terminology discovery method based on query feature, a term mining method based on domain coupling, and a patent text representation model based on structure-register nets and concept-word space. Constructing patent ontology by mining the domain concept, then achieving the measure of conceptual similarity, this method would further improve the integrality and accuracy of the description of patent by indexing word. By the research of the project, patent-based ontology can be constructed to make the patent text more comprehensive in semantics and more affluent in essence, so that more efficient patent automatic indexing can be implemented. This research can also provide the support of indexing theories, methods and resources for a new generation of patent information retrieval, and promote national economic and social development.
在信息爆炸的今天,专利文献以几何级数量暴增,社会面临着海量信息检索困难、人工深度标引专利文献的成本日益增高等问题。本项目提出一种基于领域本体的专利自动标引方法。通过对专利术语挖掘、领域本体库构建、专利文本表示和标引词发现等关键技术的研究,重点解决专利自动标引中领域本体库构建、自动标引两大问题。本项目从专利查询日志用户检索信息和专利文本内容结构特征等方面入手,提出了基于查询特征的术语发现方法、基于领域耦合度的术语挖掘方法、基于结构-语域网和概念-词结构的专利文本表示模型。通过挖掘领域概念构建专利本体库,基于本体库实现概念相似度度量,达到专利自动标引的目的,进一步提高了标引词对专利文本描述的完备性、准确性。通过本项目的研究,可构建基于专利的本体库,实现内容更完整、语义更全面的专利文本表示,提高专利自动标引效率,为新一代专利信息检索提供标引理论、方法和资源的支持,促进国民经济和社会发展。
专利是创新技术的产物,在信息爆炸的今天,专利文本数据已几何级数据暴增。2016年国家知识产权局发明专利受理量为133.9万件,同比增长21.5%,连续6年世界首位,因此社会面临着海量专利信息检索的困难、人工深度标引专利文本的成本增加等问题,所以本项目开展了专利自动标引的研究。. 本项目从专利文本出发,研究专利术语抽取方法。通过对术语上下文边界的分析,提出了基于边界标记集的专利术语抽取方法;通过对专利术语词语成分的分析,提出了基于词典的过滤术语抽取方法;通过对专利术语无效词串的特征分析,提出了基于层次过滤的专利术语方法抽取;通过对相邻术语影响力的分析,提出了基于多策略融合的专利术语抽取方法;研究专本体构建方法,通过对概念间规则的分析,提出了基于修饰度的上下位关系识别方法;通过构建等同建关系模板识别语素同义词对,提出了基于语素和语义的等同概念识别方法;通过对专利文本的句法分析,提出了基于支持向量机的概念间SAO结构关系抽取方法;通过对概念节点间的多路径分析,提出了基于冗余消除和冲突消除的概念语义层次关系构建方法;研究专利的知识抽取方法,通过对专利主题分布特点的分析,提出了基于主题度技术主题获取方法;通过对功效短语的构词特征分析,提出了基于CRFs的功效短语识别方法;通过对功效短语所在的句子的分析,提出了基于句法分析的功效短语识别方法;根据已提取的功效短语并进行规范,提出了基于规范化的专利功效矩阵构建方法;研究专利文本的自动标引方法,综合考虑关键词的位置信息、跨度信息等,提出了基于带权复杂图模型的专利关键词标引方法;综合考虑关键词的主题特征,提出了基于主题词的专利标引方法;. 在上述研究的基础上,本项目构建了专利信息处理平台,并开发了专利功效矩阵分析系统,该系统可以有效地分析某一项专利技术的来龙去脉,为专利申请和分析提供重要的数据支撑;开发了专利本体构建系统,该系统可自动的完成对专利术语的识别,在已构建的专利类目体系下完成对专利本体的构建,为专利的标引、专利检索、专利相似性计算提供服务;开发了专利标引系统,该系统可自动的完成对专利文本的标引,并且可以给出每一个标引词的权重,用户可以根据需求进行设定。. 综述所述,本项目的研究不仅为专利本体构建工作提供理论基础,而且为专利的标引工作提供了服务,为国家的社会发展做出了贡献。
{{i.achievement_title}}
数据更新时间:2023-05-31
演化经济地理学视角下的产业结构演替与分叉研究评述
水氮耦合及种植密度对绿洲灌区玉米光合作用和干物质积累特征的调控效应
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
圆柏大痣小蜂雌成虫触角、下颚须及产卵器感器超微结构观察
空气电晕放电发展过程的特征发射光谱分析与放电识别
图书层次主题自动标引研究
基于语义分析和统计的自动主题标引研究
基于本体的公差指标自动生成方法研究
基于主动学习的半监督领域本体自动构建