基于弱监督学习的水果品种信息自动抽取方法研究

基本信息
批准号:61503386
项目类别:青年科学基金项目
资助金额:20.00
负责人:陈瑛
学科分类:
依托单位:中国农业大学
批准年份:2015
结题年份:2018
起止时间:2016-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:程新荣,赵明,朱佳佳,李静,季烜
关键词:
图模型弱监督学习深度学习信息抽取话题结构
结项摘要

The information services for fruit variety information need a complete set of fruit variety names. However, it is high-cost to construct and maintain a knowledge base of fruit variety names. Therefore, we determine to use the technology of information extraction to populate the current knowledge base of fruit variety names..There are two types of texts used in our project: online advertisements and an online encyclopedia. The two types of texts not only provide large-scale information about fruit varieties, but also reflect the real expressions of fruit varieties. Based on the two types of texts, we propose a weakly-supervised information extraction method. Firstly, because Chinese word segmentation cannot work well for agriculture-based texts, we propose a linguistic-structure-based word extraction method which uses topical structures to extract pairs of words. Secondly, because the coverage of current knowledge base of fruit variety names is low, we propose a relation induction method based on a graph-based model,which uses the redundant information in structured texts and free texts. Thirdly, because of the noisy features in a long-distance relation detection method, we propose a document-level feature extraction method which uses topical structures to extract position features and then uses convolutional deep neural network to aggregate features. .Overall, our project can not only can provide an important basis for the development of agricultural information, but also can promote the development of the theoretical research on information extraction technologies.

中国水果种质资源信息服务需要完整的水果品种名称知识库,而人工构建和维护这种知识库费时费力。本项目拟采用信息抽取技术自动扩充已有的水果品种名称知识库。考虑到网络百科和电商广告提供了大量的水果品种信息,本项目选择对这两种文本展开深入研究,提出了一种基于弱监督学习的水果品种信息抽取方法。首先,针对面向农业领域的中文分词性能不足问题,提出了一种基于语言结构的词项对提取方法,其根据话题结构理论进行词项对的提取,避开了中文分词问题。其次,针对已有知识库覆盖率低的问题,提出了一个基于图的关系推理方法,其通过基于图的推理技术有效利用不同结构文本中的冗余信息进行关系识别。最后,针对远距离关系识别中的特征信息高噪音问题,提出了一种基于卷积神经网络的特征提取方法,其利用话题结构从篇章角度有效进行特征提取。本项目的深入研究将为农业信息化发展提供重要基础,同时能够促进基于弱监督学习机制的信息抽取技术理论研究的发展。

项目摘要

中国水果种质资源信息服务需要完整的水果品种名称知识库,而人工构建和维护这种知识库费时费力。本课题针对网络百科和电商广告这两种文本提出了一种基于弱监督学习的水果品种信息抽取方法,自动扩充已有的水果品种名称知识库。首先,针对面向农业领域的中文分词性能不足问题,提出了一种基于语言结构的词项对提取方法,避开了中文分词问题。其次,针对已有知识库覆盖率低的问题,提出了一个图模型,其能够利用列举结构中的冗余信息进行水果品种关系推理。最后,针对远距离关系识别中的特征信息高噪音问题,提出了一种基于卷积神经网络的特征提取方法,其利用话题结构从篇章角度进行特征提取。.根据研究需要,本课题标注了一个中文水果品种名称语料库,其规模如下:水果文档100篇,其中,列举结构~2800个,水果品种名称列举结构~500个。基于该语料库,本课题提出的一个弱监督信息抽取方法,由此开发了一个高性能的水果品种信息抽取系统。同时,本课题将该信息抽取技术应用于食品安全领域,自动从中文新闻中提取食品安全事件相关信息。通过本课题的研究,我们在国内外著名会议或刊物上发布了4篇论文,申请了4项专利。.总之,本课题提出的基于弱监督的特定领域信息抽取方法为农业信息化发展提供重要基础,同时促进了基于弱监督学习机制的信息抽取技术理论研究的发展。.

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

演化经济地理学视角下的产业结构演替与分叉研究评述

演化经济地理学视角下的产业结构演替与分叉研究评述

DOI:10.15957/j.cnki.jjdl.2016.12.031
发表时间:2016
2

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
3

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
4

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
5

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018

陈瑛的其他基金

批准号:31471950
批准年份:2014
资助金额:84.00
项目类别:面上项目
批准号:11102110
批准年份:2011
资助金额:25.00
项目类别:青年科学基金项目
批准号:11472174
批准年份:2014
资助金额:90.00
项目类别:面上项目
批准号:30873164
批准年份:2008
资助金额:30.00
项目类别:面上项目
批准号:30200348
批准年份:2002
资助金额:20.00
项目类别:青年科学基金项目
批准号:41671118
批准年份:2016
资助金额:60.00
项目类别:面上项目
批准号:81671473
批准年份:2016
资助金额:57.00
项目类别:面上项目
批准号:30901598
批准年份:2009
资助金额:20.00
项目类别:青年科学基金项目
批准号:11872247
批准年份:2018
资助金额:63.00
项目类别:面上项目
批准号:31101613
批准年份:2011
资助金额:23.00
项目类别:青年科学基金项目
批准号:39570760
批准年份:1995
资助金额:7.00
项目类别:面上项目

相似国自然基金

1

基于简标注和弱监督学习的开放的信息抽取研究

批准号:61103077
批准年份:2011
负责人:周德宇
学科分类:F0211
资助金额:25.00
项目类别:青年科学基金项目
2

基于自适应弱监督学习的自动乳腺容积图像肿瘤检测方法研究

批准号:61701312
批准年份:2017
负责人:王毅
学科分类:F0125
资助金额:25.50
项目类别:青年科学基金项目
3

基于弱监督学习和深度信息的目标跟踪算法研究

批准号:61202299
批准年份:2012
负责人:钟必能
学科分类:F0605
资助金额:23.00
项目类别:青年科学基金项目
4

文本中信息的自动抽取方法研究

批准号:69375016
批准年份:1993
负责人:张永奎
学科分类:F03
资助金额:6.00
项目类别:面上项目