从非结构化的文本中抽取出结构化的特定信息是信息抽取技术研究的重要课题。目前,系统性能和系统可移植性两大关键问题严重制约着信息抽取技术的广泛应用。本项目将在前期研究的基础上,重点解决信息抽取领域的几个关键技术,通过研究机器学习方法,提高信息抽取系统的整体性能,解决系统可移植性问题,开发出适合于中英文的基于机器学习的高性能的自适应信息抽取系统。主要研究内容有:提出一个新颖的互信息依存模型,有效集成不同特征,进一步提高命名实体识别的性能,并具有较好的可扩展性;利用网络挖掘技术和弱指导机器学习方法,减轻命名实体识别和关系抽取对大规模手工标注语料库的依赖,解决信息抽取系统的可移植性问题;通过建立多层学习策略,探索相关类之间的共性,解决关系抽取小类的训练数据不足问题;研究基于机器学习的多代理策略和全局优化方案,深化指代消解的研究;并通过跨文本的指代消解研究,解决多文本中的相关信息的融合问题。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于分形L系统的水稻根系建模方法研究
粗颗粒土的静止土压力系数非线性分析与计算方法
基于SSVEP 直接脑控机器人方向和速度研究
拥堵路网交通流均衡分配模型
中国参与全球价值链的环境效应分析
基于迁移学习的自适应信息抽取技术研究
医疗对话文本中的信息抽取关键技术研究
情感信息抽取的资源建设及关键技术研究
基于篇章特征的越南语新闻事件信息抽取关键技术研究