The tremendous growth of text data has greatly increased the possibility of the users searching for useful information. How to effectively mine the big text data so that the users can accurately and comprehensively utilize it and make the search results more consistent with the users' information needs are a hot problem. In this project, we will study document content understanding and topical content expansion using the knowledge of complex networks, statistical analysis, machine learning and social network analysis. We mainly focus on three tasks, including document topic model, topic structure analysis of document content and document expansion. Firstly, we will explore to optimize topic model using transfer learning and title corpus. Secondly, we will develop a multi-level topical network, and through study of how its internal structure to influence and jointly realize the semantic interpretation to explore the internal structure semantic coupling relationship and carry out semantic purification and noise reduction so as to extract the characterization of the document content and association relationships. Furthermore, a document semantic pseudo representation space will be proposed to abstractly depict the text and structural features. Thirdly, consider the diversity and complexity of the users’ information needs, we will implement an unbiased document expansion of the semantic topical content of the document using document similarity based on graph model. Finally, we will use the actual text data to do the assessment. We believe that these works are helpful for document expansion and improve the user retrieval experience.
文本数据的海量增长,提高了用户搜索有用信息的可能性。如何对文本数据进行深入有效地挖掘,使用户能够准确、全面地利用这个巨大的资源,让搜索结果更加符合用户的信息需求是目前亟待解决的问题。本项目将利用复杂网络理论,结合统计分析、机器学习和社会网络分析方法,研究文档内容理解和文档主题内容扩展。主要工作包括文档主题建模、文档内容的主题结构分析和文档扩展三部分。首先利用迁移学习和标题语料优化文档主题建模结果;其次建立文档多级主题网络结构,分析其内部结构是如何影响并共同实现文本语义解释,挖掘其内在结构语义耦合关系,进行语义提纯、去噪,实现文本内容特征及关联关系抽取,并建立文档语义伪表达空间抽象刻画文本及结构特征;接着考虑用户信息需求的多样性和复杂性,通过基于图结构的文档相似度计算结果,实现文档主题语义内容的无偏差扩展。最后基于实际数据进行评估。诣在拓展文档扩展新思路,改善用户检索体验。
文本数据的海量增长,尤其是社交文本数据流的增加,极大地提高了用户搜索有用信息的可能性。然而,社交文本中关键信息少且噪声多,加剧了词项词频对文本主题内容建模的影响,给相关主题内容挖掘研究带来了前所未有的挑战。本课题立足分析网络结构和信息提取解决文本内容理解问题,力求让搜索结果更加符合用户的信息需求。研究并建立了文档多级主题网络结构,分析其内部结构影响机制来获取文本语义解释,建立了文档语义伪表达空间抽象刻画文本及结构特征,设计并实现了文本语义多样化的伪相关反馈方法,解决了文本内容理解优化问题,有效提升了反馈源质量和用户满意度;深入研究了词项词频对文本主题分析的影响,考虑各词项的内在多样性特征,筛选和增强更具代表性的词项来表征主题内容,提高了主题内容表达的质量;深入研究了文本关系抽取方法,主要针对因果关系抽取展开,提升了因果事件边界识别精度,进一步明确了文本特征表示;深入对无标注数据文本分析方法展开研究,保证了主题分类的可靠性;深入地对基于传播模型的社会网络分析方法展开研究,有效提升了选取的扩展节点质量。研究成果可用于诸多应用领域,如信息检索、信息推荐和生态大数据应用等,均具有潜在的应用价值和现实意义。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
无标度与小世界复杂网络的模型及同步研究
基于视觉显著性的图像内容分析与检索
基于生物药剂学无标度复杂网络模式的中药复方(血脂宁)配伍的分子作用机制研究
基于无标度网络理论构造新的非正则LDPC短码