With the movement of information explosion, information extraction, which can extract structured information out of semi-structured and unstructured text data, is becoming a significant technology of many research areas including database, World Wide Web, knowledge discovery, semantic web, information retrieval etc. The analysis on current research development shows that one of the key problems of information extraction is to design a cross domain extraction procedure that can adapt different domain topics and text formats. The research of this project is to give a corresponding solution to this problem by breaking down domain relevant features and establishing an extraction method based on multi-level feature model. Based on the feature model, the research of the project will also implement a system with a feedback mechanism to optimize the feature selection and combination. Additionally, by using book metadata and the feature model, the research will aim to improve the extraction performance by locating more representative samples through domain similarity calculation with respect to digital books. Hopefully, this research is going to form a theory on the feature modeling of cross domain information extraction, and to implement an information extraction method that can adapt domain variations and a effective extract system as well. Besides, the research on applications for digital books will also become an important support for the development of knowledge service based on them. It will have great significances on both theoretical research and information extraction applications.
在信息爆炸的背景下,利用信息抽取从半结构化和非结构化文本中抽取结构化信息已经成为数据库、互联网、知识发现、语义网以及信息检索等多个领域的重要支撑技术之一。 根据国内外研究现状,信息抽取技术研究的核心问题之一是如何设计抽取方法,使其能快速适应知识主题和文本形式的变化,实现跨领域抽取。课题的研究将针对该问题,通过分解领域相关特征,构建多层次特征模型,实现一种跨领域信息抽取方法。基于该方法,实现一种以反馈方式迭代优化特征选择和组合的信息抽取系统。在此基础上,课题还将以数字图书为应用对象,结合图书元数据和多层次特征模型,通过领域相似度计算获取更多具有代表性的样本,提高抽取效果。 课题的研究有望在信息抽取特征模型理论研究方面取得突破,实现一种能快速适应领域变化的信息抽取方法以及一个有效的信息抽取系统。同时,研究应用面向数字图书,促进基于数字图书的知识服务的发展。在理论和应用两个方面均有显著的意义。
利用信息抽取从半结构化和非结构化文本中抽取结构化信息已经成为多个领域的重要支撑技术之一。.项目组根据研究方案,尝试分解领域相关特征,获取领域弱相关的子特征,并构建多层次特征模型。这个特征模型中大多是领域无关或领域弱相关特征,这在一定程度上可以解决当前信息抽取中的领域依赖性问题。同时,我们基于该特征模型提出了特征领域适应性评价标准和特征组合的形式化表示方式。.基于多层次特征模型的跨领域信息抽取的核心是特征选择与组合。项目组通过研究提出了一种基于遗传算法的特征选择算法。该算法结合遗传算法的迭代思路,对于不同的抽取任务,为了得到能够快速适应不同抽取任务的信息抽取模型,采用特征选择的方式迭代自动得到最终的特征组合,并构建相应的抽取推理模型。同时,在迭代的过程中引入反馈机制来不断修正特征的领域初始适应度值。.项目组针对特征选择算法在特征向量空间初始化阶段的冷启动问题,探讨了三种特征向量初始化优化的方法,并围绕如何保留最优特征向量的问题进行了详细的分析,提出了有效的特征向量保留方法。.针对互联网数据几何级增长的问题,研究并提出了改进特征选择算法的提速的可行性方法。我们研究了特征向量空间的群体规模减半问题和尝试了两种特征向量规模减半的方法。对于最优特征保留的选择上进行了相应的改进,目的是使最后留下的最优特征向量组合是最小特征组合。这不仅可以使特征选择算法的速度得到提升,同时更重要的是在实现信息系统抽取时,用尽可能少而精的特征组合向量来做推理模型,可以在一定程度上降低信息抽取过程的时间复杂度。.除此以外,项目组还在自然科学基金的支持下,研究了面向聚焦的web网页获取和信息抽取方法,面向稀疏样本的聚焦式Web信息抽取技术研究和系统实现以及基于词向量计算的关键词提取方法研究。.目前已经在国内外学术会议和期刊上发表论文6篇,均被EI检索;申请了专利2项,并已获受理;培养硕士生6人,协助培养博士生2人。
{{i.achievement_title}}
数据更新时间:2023-05-31
跨社交网络用户对齐技术综述
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
环境信息披露会影响分析师盈余预测吗?
国际比较视野下我国开放政府数据的现状、问题与对策
水文水力学模型及其在洪水风险分析中的应用
面向信息茧房困境的跨领域推荐方法研究
计算机遥感图象空间信息抽取和综合分析系统
光在金属/介质界面传播特性及其在信息和能源器件领域的应用研究
文本中信息的自动抽取方法研究