基于信息融合的生物医学文本高性能聚类研究

基本信息
批准号:60903076
项目类别:青年科学基金项目
资助金额:17.00
负责人:朱山风
学科分类:
依托单位:复旦大学
批准年份:2009
结题年份:2012
起止时间:2010-01-01 - 2012-12-31
项目状态: 已结题
项目参与者:沙朝锋,董启文,袁伟,叶程广,吴智昊,陈益青
关键词:
生物医学文本挖掘和聚类语义相似度信息融合
结项摘要

生物医学文本聚类能够帮助生物医学研究人员迅速找到他们最感兴趣的文档,发现不同生物医学研究课题之间的潜在联系,为产生新的科学假设奠定基础。本项目的主要目标是开发出高性能生物医学文本聚类算法,为生物医学研究者浏览和查找所需信息提供便利。本课题主要基于信息融合的思想,针对当前生物医学文本聚类研究中利用单一信息(主要是内容信息)的缺陷,有机融合生物医学文本的三种重要信息:内容信息、生物医学文本所特有的语义信息(由人工标注的医学主题词MeSH)和文献引用信息,以提供最好的聚类性能。拟解决的科学问题包括(1)如何设置内容信息中标题、摘要和MeSH之间的权重。(2)如何计算生物医学文档之间的语义相似度。(3)如何有效融合不同种类信息提高聚类性能。本课题也可以为开发其他领域中需要融合不同种类信息的高性能聚类算法提供研究思路。

项目摘要

生物医学文本聚类通过将相似的文档聚在一起,不相似的文档尽量分开,能帮助用户有效的组织、概括、导航和定位生物医学文献信息,帮助生物医学研究人员解决信息过载的问题。本项目的主要目标是开发出高性能的聚类算法,从而为生物医学研究人员查找信息提供便利。项目顺利完成,基于信息融合思想,有机融合生物医学文本的多种重要信息如内容信息、生物医学文本特有的语义信息(人工标注的医学主题词)和文献引用信息等,从而提高聚类性能。本项目尤其在设计有效的融合算法方面取得了非常满意的研究成果。我们主要研究了三种融合策略:集成学习策略、全局相似度策略和半监督学习策略。在集成学习策略中,我们可以根据不同种类信息和算法计算聚类,然后在这些聚类结果基础上进行集成聚类,提高聚类效果的稳定性和健壮性。在全局相似度策略中,我们根据不同种类的信息计算各自的局部相似度,然后通过线性组合计算全局相似度,在此基础上进行聚类。在半监督聚类中,我们把文本内容信息作为主要信息,根据语义信息和全局内容信息作为附加信息生成约束条件,提出了一个新颖的半监督谱聚类算法SSNCut (Semi-Supervised Normalized Cut), 能够同时处理must-link和cannot-link,从而提高聚类性能。在从最大生物医学文本数据库MEDLINE产生的100个文本数据集上进行的实验表明,SSNCut在性能上不仅优于全局相似度方法,而且也优于多个常用的半监督聚类算法,如SS-NMF、Spectral Learning等。本课题研究成果也为其他领域中需要融合不同种类信息的各种应用提供了解决思路和启示。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

涡度相关技术及其在陆地生态系统通量研究中的应用

涡度相关技术及其在陆地生态系统通量研究中的应用

DOI:10.17521/cjpe.2019.0351
发表时间:2020
2

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

DOI:10.12054/lydk.bisu.148
发表时间:2020
3

基于多模态信息特征融合的犯罪预测算法研究

基于多模态信息特征融合的犯罪预测算法研究

DOI:
发表时间:2018
4

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
5

F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度

F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度

DOI:10.11999/JEIT210095
发表时间:2021

朱山风的其他基金

批准号:61170097
批准年份:2011
资助金额:57.00
项目类别:面上项目
批准号:61572139
批准年份:2015
资助金额:63.00
项目类别:面上项目
批准号:61872094
批准年份:2018
资助金额:65.00
项目类别:面上项目

相似国自然基金

1

高性能基于主题的文本聚类研究

批准号:60703058
批准年份:2007
负责人:赵颖
学科分类:F0201
资助金额:20.00
项目类别:青年科学基金项目
2

基于谱聚类的文本聚类集成方法研究

批准号:60975042
批准年份:2009
负责人:卢志茂
学科分类:F0603
资助金额:32.00
项目类别:面上项目
3

基于集成学习的生物医学文本信息抽取方法研究

批准号:61402099
批准年份:2014
负责人:王浩畅
学科分类:F0211
资助金额:24.00
项目类别:青年科学基金项目
4

基于图论模型的文本重叠聚类研究

批准号:61202312
批准年份:2012
负责人:吴秦
学科分类:F0605
资助金额:23.00
项目类别:青年科学基金项目