Micro-level entities refer to certain terms or concepts appearing in scientific documents. They represent the knowledge hidden in these documents, so the study of relationships between these entities is of significant importance to scientific research. However, a vast body of knowledge about entity relationships is buried in the flood of documents. An effective knowledge management approach is therefore needed to present this kind of knowledge to researchers in a more rapid way. In view of this, our research plans to carry out the evaluation of micro-level entities gradually by using multiple analyses: In the first analysis, machine learning is used primarily, combined with dictionaries and heuristic rules, to improve the existing micro-level entity identification theories, combined with dictionaries and heuristic rules; In the second analysis, brand-new micro-level entity relationship modeling theories are developed based on co-occurrence and citation relationships; In the third analysis, scientific micro-level entity evaluation theories are established through complex network analysis. Taking biomedical science as an example, we apply the abovementioned theories to the evaluation of four types of bio-entities, i.e., genes, proteins, diseases and drugs, appearing in the scientific documents in top nine disease research domains, in an attempt to categorize and predict biomedical entity relationships, and to tease out patterns of biomedical knowledge moving, transferring, diffusing and using. The results of this research will expand the boundaries of scientometrics theories, and make them applicable to the rapid and effective discovering of tacit knowledge, thereby accelerating the hypothesis generation and science progress.
文献微观实体是指科研文献中出现的专指某种事物的术语或概念,它代表文献的内含知识,了解其相互关系对于科学研究意义重大。然此类知识被大量淹没于文献海洋,亟需一种有效知识管理方式将之快速地展现给科研人员。鉴于此,课题拟基于多元分析逐步开展微观实体评价理论研究:第一元分析即以机器学习识别为主,并有机结合字典和启发式规则以完善现有微观实体识别理论;第二元分析即基于共现关系和引用关系开创全新的微观实体关系建模理论;第三元分析即基于复杂网络分析构建科学的微观实体评价理论。并以生物医学为例,运用上述理论对九大疾病研究领域科研文献中的基因、蛋白质、疾病和药物四种生物医学实体(微观实体)予以全面评价,试图实现生物医学实体关系的分类和预测及生物医学知识流动、转移、扩散和利用规律的梳理。研究成果将对科学计量学理论进一步扩展,使之适用于文献中隐含知识的快速有效挖掘,促进科学假说的生成,加快科学研究的进程。
科学计量学方法常被用于对科研文献中作者和机构等宏观实体所代表外显知识的评价,以及关键词和主题词等传统微观实体所代表内含知识的管理,而对于隐藏在科研文献中的概念、规律、领域实体等新型微观实体的评价确鲜有报道。本研究在对科研文献传统微观实体评价的基础上,进一步开展新型微观实体评价,为科研人员快速提供科学假说,加快科研进程。.本项目开展了五方面研究,实现微观实体的全面评价。在对科研文献中微观实体的评价研究方面:①对关键词和主题词等传统微观实体进行了传统计量评价研究;②对传统微观实体进行了补充计量评价研究;③对新型微观实体进行了评价研究。考虑到大量生物医学知识以非结构化数据的形式隐藏在非科研文献中,本项目在执行后期结合政策文本和生物信息数据等新型数据源,开展微观实体评价研究:④对卫生政策文本的计量研究:建立卫生政策数据库,基于科学计量、内容分析和自然语言处理等方法,对政策文献隐含实体进行挖掘和评价;⑤在科研文献实体识别的基础上,结合转录组学数据开展药物新适应症的发现研究。.课题研究期间,在SCI、CSCD和北大核心等收录的期刊上发表学术论文14篇;会议论文1篇;获得省部级科研奖励3项;获批软件著作权2项;申请发明专利10项;参与4项大会报告;合作译著1部;获批省部级项目9项;培养硕士生7名;培养青年教师2名。邀请印第安纳大学Ding Ying教授和鲁汶大学Wolfgang Glänzel教授进行学术交流;项目组成员吕艳华赴美国印第安纳大学访学1年;建立了卫生政策文本数据库、生物医学文献数据库和生物医学命名实体库。.本研究通过对隐藏在生物医学相关文献中的微观实体及其关系进行快速、有效挖掘,对生物知识的流动、转移、扩散和利用等规律进行深入探索,拓展了科学计量学的应用范围。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于细粒度词表示的命名实体识别研究
基于可拓学倾斜软岩巷道支护效果评价方法
优化研究生科研经历 提高研究生教育质量——基于陕西省高校2017年度毕业研究生的调查分析
基于语义分析的评价对象-情感词对抽取
以合作预测为特征的科技合作理论研究及实证--以生物医学为例
开放获取生物医学文献的实体关系抽取
“融合式研究”的评价理论与实证研究 ——以生命与健康领域若干重大问题的研究为例
婚检行为的理论和实证研究- - 以浙江省为例