In the era of Web2.0, short text is one of the most important information carriers, and contains a wealth of valuable information. User generated metadata, such as tags, always co-occur with short text. It can accelerate the flow of information, convey common sense among text, and bring short text vital semantic network relations beyond a bag of unorganized and flat words. To model this type of documents which are called semi-structured documents, metadata information plays an important role in organizing, understanding, and summarizing text in many applications. The-state-of-the-art short text semantic models mainly focus on flat text. However, they can not handle and utilize such semantic-related structure information from the wisdom of crowds, and heavily suffer from problems raised by characteristics of short text. Inspired by this, the project introduces the network modeling ideology into probabilistic topic models, which considers both meta information network and text content to deal with the semi-structured short text topic modeling problem. To achieve this mission, we set up the following correlative research topics. 1. For the sparsity problem of short text, we introduce semantic path for semantic related but without co-occurrence text to construct topic models based on a meta information network. 2. For the loose semantics problem of short text, we study semantic constraints in a probabilistic framework for dependent semantic features to distinguish latent topic structures among meta information and short text. 3. For the noise problem of short text, we learn a stable core meta information network to reduce the structure prior noise in swarm intelligence. 4. We boost our models by feedback from knowledge access application tasks. The research will provide a strategy for boosting utilization efficiency of real-time and low-cost swarm intelligence, and greatly promote the ability of the computer to deal with short text automatically, and lay a solid foundation for the application of short text knowledge access.
在面向互动的Web2.0时代,富含价值的短文本是最重要的信息载体之一。与短文本频繁共生的元信息是加速信息流动的标配,为短文本带来重要的结构和共识语义网络关联信息。目前的短文本语义模型侧重考虑扁平内容,而未能充分利用这种群智语义信息,以致对短文本的复杂变化非常敏感。本课题拟综合考虑元信息关联网络和文本内容,在概率主题模型中引入网络模型思想解决半结构化短文本的主题语义建模问题。研究内容包括:1.针对特征稀疏,基于元信息网络构建主题模型,利用元信息网络中语义路径关联相关但未共现的文本;2.针对语义松散,研究概率框架下非独立特征的约束语义学习方法,约束元信息和文本主题潜在结构;3.针对语言高噪,学习元信息稳定核心网络,降低群智信息中的结构先验噪音;4.通过知识访问应用任务验证其有效性。研究成果将为低成本的群智高效利用提供策略,极大提升计算机自动处理半结构短文本的能力,为广泛的知识访问奠定基础。
在基于互联网进行的紧密且复杂的社会化交互与协作过程中,富含价值的短文本是最重要的信息载体之一。与之共生的元信息加速了信息流动,为短文本带来了重要的群智结构化语义背景和语义联想指南。本项目面向互联网文本建模表征任务,综合考虑元信息网络和文本内容,构建能从特征稀疏、语义松散、语言高噪的半结构短文本中获取有效知识表示的算法模型,为信息检索、推荐系统、数据挖掘等上层应用奠定易用的数据基础,并提供互联网文本的应用挖掘技术技巧。.项目联合语义模型和网络建模技术,充分利用群智标注元信息内涵语义和网络关联,构建具有结构化特征表达能力的特征学习模型。主研内容为基于元信息关联网络的半结构短文本语义建模和元信息稳定核心网络建模两方面的理论创新,以及相关算法技术在数据知识访问服务方面的应用实践。1)针对特征稀疏,项目构建基于元信息关联的半结构短文本语义模型,研究了四种元信息关联构建方法,并分别提出特定关联的信息引入技术方案。结合元信息语义表达和网络结构,设计了文本内容编码和元信息引导、元信息层级语义引导、基于元信息共现网络进行语义联合建模的短文本语义学习方法。2)针对语义松散,项目将文本与元信息建模为对等的异质模态数据,学习两者互约束的同变语义表示,设计了基于互约束概率主题模型的文本语义建模方法和神经网络框架下基于双向注意力的互约束文本标签语义建模方法,解决了建模过程中参数局部震荡、大数据上训练效率低和结果不稳定的问题。3)针对语言高噪,项目通过低秩稳定核心元信息网络过滤语言噪音,研究了基于网络结构和语义相关性度量的标签语义表示方法,提出了静态和动态下元信息稳定核心网络发现方法。4)在知识访问服务方面,开展了信息检索、推荐系统应用的研究,以及所提技术在其他数据领域的迁移应用研究。研究成果不仅可促进自然语言理解和处理领域的发展,而且可以为广泛存在的半结构数据分析提供理论思路和解决方案。
{{i.achievement_title}}
数据更新时间:2023-05-31
演化经济地理学视角下的产业结构演替与分叉研究评述
粗颗粒土的静止土压力系数非线性分析与计算方法
主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究
中国参与全球价值链的环境效应分析
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
面向短文本的主题建模研究
基于社会化短文本主题模型的社会网络用户心理健康分析
基于主题图的城市空间信息关联与知识整合研究
基于带有通配符序列模式和主题模型的短文本表示研究