This project is based on data mining and natural language processing to do research on theory and algorithms of sci-tech entity recognition and relation extraction in sci-tech trends analysis. We propose a unified learning algorithm to incorporate different features. Based on deep language theory, we chose semantic relation sub-tree based on HPSG and use kernel method to learning and computing the similarity between sub-trees, which is to help producing better relation extraction performance. We also propose a bootstrapping algorithm, which uses small annotated corpus as seeds to yield a primary annotation model, which help to analyze relation extraction pattern and features and produce more annotated corpus from raw corpus. The new corpus with high confidence will be added in training, which will produce a better relation extraction model through a iteration process. The work of this project will be a fundamental part of large-scale text mining in sci-tech trends analysis.
本项目主要面向科技监测这一实际应用,基于数据挖掘和自然语言处理技术,研究不同类型科技文献中的科技实体识别和实体关系抽取理论和关键技术,并实现一个高性能、高适应性的科技实体识别和实体关系抽取系统。本项目通过多特征融合训练进行科技领域关键实体的识别;联系深层语法理论,基于中心语驱动语法(HPSG)的多层次句法语义信息选择语义关系树,并通过树核函数计算子树相似度,实现基于支持向量机的关系抽取算法;以自举(bootstrapping)算法为基础,通过在小规模标注语料训练生成原始抽取模型,进一步对大规模未标注语料进行标注,自动分析和归纳新的关系抽取模板、总结相应的特征,迭代生成准确率更高、覆盖面更广的抽取模型。本项目的研究成果能够为科技监测中大规模文本信息挖掘奠定基础。
传统的科技监测主要依赖于人工检索,科技政策制定依赖专家意见,具有一定的主观性,近年来随着计算机技术和互联网技术的发展,更多的数据挖掘相关研究方法被引入科技监测研究中,基于文本内容和大数据分析的方法受到越来越多的关注。.本项目主要开展面向科技监测的机器学习和自然语言处理关键技术研究,研究的核心为科技实体的识别和科技实体之间关系的自动抽取。项目执行过程中,一方面考虑到科技监测相关文本分析涉及的不同文本粒度、语种差异,另一方面结合最前沿的人工智能、深度学习技术,开展了基本的科技词汇构词理论、基于双向LSTM-CRF模型的实体识别与关系抽取、专利文献的长尾术语识别、基于LSTM-CRF的英汉双语术语识别、基于汉语主题词表和日语二维词汇化知识的机器翻译领域自适应、基于两步转换的依存篇章关系分析等课题的研究,取得了丰富的研究成果。.本项目研究对提升科技监测工作的自动化,实现基于大数据分析的科技决策具有重要意义。部分研究成果已经应用于面向科技的机器翻译应用服务和日本环保领域科技监测应用示范。
{{i.achievement_title}}
数据更新时间:2023-05-31
涡度相关技术及其在陆地生态系统通量研究中的应用
拥堵路网交通流均衡分配模型
内点最大化与冗余点控制的小型无人机遥感图像配准
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
基于细粒度词表示的命名实体识别研究
面向专利文本中实体关系抽取的远程监督方法研究
面向开放域知识网络的实体语义关系抽取方法研究
藏文实体语义关系抽取理论与方法研究
非结构化数据中威胁本体构建、实体识别与关系抽取方法研究