In AAAI 2010 and AAAI 2015, Prof.Tom M. Mitchell who is a member of the United States National Academy of Engineering proposed Never Ending Language Learning (NELL) and Never Ending Learning (NEL), respectively. It has been widely recognized by the international academic field. The proposed project aims to study some key algorithms of NELL including: 1. With complex network analysis, extract the deep knowledge from hundreds of thousands webpages and introduce new knowledge with the proposed Meta-knowledge extractor for NELL. 2. To solve the curse of dimension problem approached from big webpage data, present an incremental clustering algorithm and a center feature selection method. For the lack of new-predicates discovery, construct a novel predicates mining algorithm by the combination of the feature selection algorithm, morphological classifier and path rangking algorithm. 3. Analyze the melange of multi-source knowledge and multi-strategies learning and develop a novel feature extraction and classification model based on deep neural network. 4. Analize the accuracy decrement of NELL, propose error-recovery learning algorithms and make it self-reflectable. The research result will solve the problem of “Semantic Change” and cut down the human guidance. It will provide new tools and methods for machine learning, knowledge engineering and information retrieval etc. It will also enlighten the Chinese Never-Ending Language Learning.
自从美国国家工程院院士Tom M. Mitchell教授在AAAI 2010和AAAI 2015上提出永恒语言学习和永恒学习之后,该领域受到了国际学术界的广泛关注。本项目将针对这一新兴领域的若干关键问题开展研究:1.利用复杂网络分析方法对海量网页中蕴含的深层知识进行提取,构建元知识抽取模型,为永恒语言学习提供新知识。2.为解决网页大数据带来的维度灾难问题,提出增量半监督聚类和中心特征选择算法;针对谓词发现能力较弱问题,构建基于特征选择、构词法特征和路径排序算法的协同谓词挖掘算法。3.分析多知识结构、多种学习策略的融合问题,构建基于深度神经网络的特征抽取和分类模型。4.分析影响永恒语言学习准确率的因素,提出纠错学习算法,使之具备自省能力。研究成果有望解决永恒语言学习的“语义漂移”问题,减少学习过程中的人工干预,为机器学习、知识工程和信息检索等领域提供新方法,为中文永恒语言学习研究奠定基础。
自从美国国家工程院院士Tom M. Mitchell 教授提出永恒语言学习和永恒学习之后,该领域受到了国际学术界的广泛关注。永恒语言学习研究拟解决的关键问题包括:(1)多源知识抽取模型构建;(2)基于增量半监督聚类的特征筛选和谓词发现算法;(3)基于深度神经网络模型的特征抽取和事实分类;(4)不同策略的有效融合及影响永恒语言学习准确率的理论分析。为解决上述问题,我们拟定的研究目标是丰富与发展基于永恒语言学习的理论与算法,使新理论和新算法能够快速的从海量数据中挖掘出更有意义和更有价值的知识,丰富其自身的知识库,提高推理判断能力。针对Tom M. Mitchell教授指出的永恒语言学习存在的不足之处(新知识的发现、更准确统计模型构建以及缺乏自省能力等),本项目开展的主要研究工作如下:.① 构建了一种领域知识图谱,设计了知识图谱补全算法,从知识图谱中抽取元知识增加了知识抽取视角。.② 提出了特征空间学习与无监督特征选择算法,基于表示学习和主题模型进行关系抽取、新谓词发现以及研究热点和研究趋势分析。.③ 提出了多标签堆栈去噪自编码器、双向语义Attention-LSTM以及深度卷积神经网络推荐等深度学习知识发现算法,大幅度提高了知识发现算法的准确率、效率以及自动化程度。.④ 在知识图谱和新提出算法的基础上,搭建了知识发现平台和推荐系统,为计算机科学、生物学、医学以及语言学等不同领域的科学家和研究者提供Web服务。.以上工作达到了项目申请书中的目标要求。相关成果发表在Journal of Medical Internet Research(医学信息学领域排名第一), Knowledge-Based System (中科院二区期刊),Neural Computing and Applications(中科院二区期刊)等知名国际期刊会议上。项目组累计发表学术论文32篇,SCI索引论文31篇,EI索引论文2篇,CCF B类会议IEEE BIBM 长文1篇,获ESI高被引论文1篇。获得国家发明专利授权3项,软件著作权3项。获2018年吉林省科技进步二等奖1项。培养了4名博士研究生和9名硕士研究生并获学位,其中王旭和林希珣同学获吉林大学优秀硕士论文并被学校推荐参加2019年吉林省优秀硕士论文评选。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
圆柏大痣小蜂雌成虫触角、下颚须及产卵器感器超微结构观察
第二语言学习焦虑影响语言产生的神经机制
基于深度学习和迁移学习的东盟跨语言查询扩展研究
深度学习算法可重构加速器关键技术研究
基于深度学习的早期肿瘤病灶高精度检测关键算法研究