Nowadays, it is difficult for scholars to determine the relative time points of important research output of a research domain, to find similar research topics with the same temporal dynamic patterns, and to locate the research stages of a literature directly from the content of its description words. Weak information exploration needs a lot of literature reviews and too many reading work because the query description of inquired information and knowledge is not easy to construct clearly. For partly resolving this kind of query problem, this project aims to organize the research output from the time-aware point of view. We try to build the searching and mining frameworks based on the implicated time information of document contents which come from difficult data resources and different research fields, and propose some methods to address problems such as semantic temporal expression extraction, time series similarity analysis, time-aware document sorting algorithm, and the similar temporal evolution pattern mining from the integration dataset. This project has significant practical value not only in helping scholar’s micro-knowledge needs, but also proves beneficial to fetch and understand the possible research trends, developing more accurate direction and evolution orientation faster when they need to make a strategic investigation into a certain research field.
当前科研人员难以通过学术搜索直接实现对重要研究成果的时间点判定、演化趋势相似的学术主题发现、某一研究工作的科研阶段判断等。对于查询问题结构模糊、知识范围不清晰、需要动态解构和探究大量文献内容才能部分满足的“弱信息”需求这一情况更是难以解决。本课题着眼于时间维度的学术研究资源,基于时间感知模型展开面向不同研究领域、不同数据来源,对文本内容隐含的时间知识进行检索与挖掘研究。主要通过学术主题中时间特征的抽取和标记、检索过程中时间相关性的计算和排序优化、多源数据的学术主题时间关联性分析等工作,探索学术主题相关的文本内容中时间信息在快速检索和分析 “更高层次所需要”的宏知识过程中的作用。本研究所提出的技术和方法以及构建的文本时间词汇语义框架,能帮助科研人员通过检索途径更快、更准确地获取学术主题可能的趋势、发展方向和演化路径。
基于时态语义的Web信息检索在动态时间信息挖掘、群体记忆、时间问答系统等检索情景中具有相对广泛的应用。在大数据和人工智能迅猛发展的这一大趋势下,对基于时态语义的Web信息检索从关键技术的角度进行系统而全面的综述不仅有利于了解该领域的研究整体状况而且有益于把握时态检索的未来发展趋势。在上述这一大的背景下,在对时态语义Web信息检索中所涉及到关键技术的系统总结、隐含时间意图类别的确定、文献隐含时间信息的挖掘过程和基于标签主题模型的实验验证等方面上进行了相应的探究。具体究内容、重要结果、关键数据及其科学意义如下:.首先,按照信息检索顺序步骤中各环节所用到的技术与方法,展开对整个时态语义检索的综述。在综述与时间相关的研究过程中,以技术为主线贯穿整个综述的研究始末,突出各种模型和算法在与时间相关的问题上的应用。.其次,通过自然语言处理手段,获取文献的时间信息,用以将文献检索潜在时间意图映射至具体时间类别。征优化Labeled LDA分类模型的标签选择过程。将所提算法与其他多标签分类算法进行对比实验,分析和评估文献检索潜在时间意图自动分类的准确率。结果表明,所提算法的AUC的值达到79.6%,较同类baseline算法ECC(Ensembles of Classifler Chains)提高约10.9%。.再次,归纳总结了学术文献常用时间词,并基于图书情报学题录信息完成文本时间词抽取。在此基础上利用标签主题模型labeled-LDA实现文本隐含时间标签的生成,以及基于时间维度的文本语义相似度计算。实验结果表明,本研究能较好地生成文献隐含时间信息,也能更有效地帮助用户提高弱信息检索结果的相关性。.最后,获取200-2009年的Nature,Science和Cell期刊上所有学术论文接受周期数据的基础上,整体分析了论文均接受周期、论文篇均被引的分布情况,并且从整体上揭示出了论文接受周期和论文的引用次数两者之间存在的规律,即如果论文接受周期短则论文引用次数高,论文接受周期长则论文引用次数低。
{{i.achievement_title}}
数据更新时间:2023-05-31
演化经济地理学视角下的产业结构演替与分叉研究评述
粗颗粒土的静止土压力系数非线性分析与计算方法
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
中国参与全球价值链的环境效应分析
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
稀疏双语主题检索模型及算法研究
基于潜在出行主题模型的民航旅客大数据挖掘与分析
面向事件时间感知的微博检索研究
基于语义科学引文索引的学术推荐与检索