传统的文本表示方法是建立在"词袋"(Bag-Of-Words)表示方法上的,即认为文档是一个关于词或短语的离散集合。经典的信息检索模型、文本分类方法和文献挖掘算法等无一不是建立在这种表示方法之上的。然而这种表示抹杀了文档内部描述单元之间的句法、语义上联系,抹杀了自然语言固有的内在本质。实际上,单词之间有句法、语义上互相依赖,句子之间有前后、篇章的依赖,只有图或树等复杂结构才能有效地表示。本项目将围绕这一基本问题,开展二个方面的研究:一,针对实际问题,如何利用图结构有效地表示文本;二,在图结构表示的基础上,如何有效地开展相关文献挖掘算法的研究,包括基于图结构的自动摘要、文本推理、评论信息的情感分析、文本分类的研究。项目研究的领域以生物文献挖掘为主,同时也利用TAC国际评测提供的数据,以验证算法的通用性。
{{i.achievement_title}}
数据更新时间:2023-05-31
演化经济地理学视角下的产业结构演替与分叉研究评述
玉米叶向值的全基因组关联分析
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
海量不确定图挖掘算法研究
基于概率图分类模型的潜在药物靶标挖掘算法研究
基于图挖掘的蛋白质功能预测算法的研究
基于多关系的模糊认知图挖掘模型、算法与评价机制研究