For any work of literature, a fundamental issue is to identify the individual(s) who wrote it, and conversely, to identify all of the works that belong to a given individual. Attribution would seem to be a simple process and yet it represents a major, unsolved problem for information science. It is more difficult to identify the Chinese author's English name. This project focuses on Chinese author name disambiguation who wrote Chinese and English Papers. We analysis papers and authorship characteristics, combined with the nature of the characteristics of the existing algorithms, design of machine learning algorithms. Specific analysis include: based on the unique characteristics of author name disambiguation, propose the evolution of the field and co-author network of author name disambiguation, integrating existing Chinese information to assist the English of author name disambiguation, especially identify the different data sets but the author have the same name in English, to reduce the scale of same name in English. The project is the research focus of the field of information science, bibliometrics, web search, natural language processing and information extraction in recent years. Solution of the problem to the literature data retrieval and evaluation based on bibliometrics advance to the micro-individual level, can provide data to support the personnel evaluation, preventing the phenomenon of academic false and academic fraud, has a wide application background and development prospects.
作者姓名消歧是科技评价、科学计量学、数字图书馆、信息检索等领域当前急需但是尚未解决的基本问题之一。越来越多的中国学者同时发表中、英文论文,但是中国作者的英文姓名音译、简写后重名现象更加严重,中国作者中、英姓名消歧就更加复杂和困难。本项目提出寻找拥有共同中文姓名或共同英文姓名的中国作者所发表论文的真正作者智能算法。该算法主要包括中、英文论文中基于唯一性特征的作者姓名消歧算法,改进的合著网络和作者领域演化的姓名消歧算法等。在进行英文姓名消歧时,集成利用中文论文信息,减少英文同名数据集的规模,提高姓名消歧效率。这些问题大多数是对此领域的新探索,对于发展和完善作者姓名消歧的理论与方法有较大的意义。该问题的解决可以把基于科学计量学的评价和文献检索推进到微观的个人层面,可以为学科发展、科研评价、产出分析、机构测度、人才评价、成果管理、信息搜索等提供更准确的数据支撑,具有广泛的应用背景和发展前景。
作者姓名消歧是科技评价、科学计量学、数字图书馆、信息检索等领域当前急需但是尚未解决的基本问题之一。本项目定位于寻找拥有共同中文姓名或共同英文姓名的中国作者所发表论文的真正作者的自动算法。项目组首先基于自建的“中国科技论文统计与引文数据库”构建了发文最多的50位作者姓名的论文(863864篇)、引文数据库(5843292条)。针对论文作者这一固定、较为封闭的群体,设计中英文姓名对照辞典及中国人名汉语拼音字母拼写法,在语料库的基础上设计与实现论文作者姓名中英自动翻译模型,规避了复姓、多音字、生僻字等一些复杂情况。设计唯一性特征辨识法进行初步消歧形成论文种子集合,唯一性特征辨识法综合了单一性唯一性特征Email以及复合相对唯一性特征研究机构。针对论文元数据中各字段缺失情况非常严重,会导致算法失效现象,通过构建字段辨识度贡献度评价体系并设计组合的唯一性指标,建立了一个基于BP神经网络的作者重名辨识算法。构建了指标评价体系和优先级框架,建立了一系列合适的分类规则。在唯一性特征基础上,根据合作者、机构、摘要、关键词、标题的层次聚类进行姓名消歧。采用凝聚的层次聚类方法AGNES算法,设计聚类停止节点决策方法对合著、学科演化等进行聚类分析。分别利用作者的信息特征、文章主题、作者合作网络的聚类分析实现中英文数据的对接,然后通过综合模糊评价指标的设计实现对人员信息的有效融合和准确消歧。并在专家社会关系、人才评价、图书评价、国际科技合作、高校排行、期刊评价、科研诚信等领域开展实证研究。
{{i.achievement_title}}
数据更新时间:2023-05-31
复杂系统科学研究进展
基于LS-SVM香梨可溶性糖的近红外光谱快速检测
基于文献计量学和社会网络分析的国内高血压病中医学术团队研究
高分五号卫星多角度偏振相机最优化估计反演:角度依赖与后验误差分析
铁路大跨度简支钢桁梁桥车-桥耦合振动研究
英汉双向机器翻译词义消歧的研究
维语实体指代消歧关键技术研究
汉语篇章衔接性分析:指代、省略及其消歧研究
中国科学:数学 (中英文版)