基于概率度量空间的词表示及词语相关性度量研究

基本信息

批准号：61876074

项目类别：面上项目

资助金额：62.00

负责人：王明文

学科分类：

依托单位：江西师范大学

批准年份：2018

结题年份：2022

起止时间：2019-01-01 - 2022-12-31

项目状态：已结题

项目参与者：吴根秀,曾锦山,徐凡,王晓庆,罗文兵,张辰麟,颜为之,刘浩然,凌天放

关键词：

分布函数词表示概率度量空间表示学习词语相关性

结项摘要

The formal representation of words and the measure of correlation between words are fundamental problems in natural language processing (NLP). The distributed representation of words, especially word vectors trained by word2vec, has achieved good results in many NLP tasks. However, vector is a point in high-dimensional space, making it difficult to represent the semantic features of words. Moreover, the method of using vector distance to measure the correlation between words is too rigid. To address this problem, we intend to conduct the following studies under the framework of the probabilistic metric space theory. First, we will represent words using probability distribution functions and study the distribution functions of words, the conditional distribution functions of polysemy and synonymy by using the Bayesian learning method, and give the representation model and learning algorithm for word distribution structure. Second, we will research on probabilistic distribution function representation method for measuring correlation between words, integrate prior knowledge of correlation between words into the construction of correlation probability distribution function, and develop a learning model and algorithm for word correlation distribution functions. Third, we will investigate the probability distribution function method for sentences and the computation method of probability distribution function for measuring the correlation between sentences. Finally, we will apply the above theoretical research results to NLP tasks such as information retrieval, text categorization, and machine translation evaluation to test and optimize relevant models and algorithms. The research of this project will provide a new solution to word representation and the measure of correlation between words in NLP.

词的形式化表示和词语相关性度量是自然语言处理（NLP）研究的共性基础性问题。词的分布式表示，特别是word2vec训练获取的词向量在NLP许多任务中都取得了良好效果。针对高维空间点向量难以表示词的语义特征，且使用向量距离度量词语间相关性过于刚性的不足。本项目拟在概率度量空间理论框架下:（1）使用概率分布函数表示词，研究运用贝叶斯方法学习词的分布函数、多义词和同义词的条件分布函数，给出词分布构造的表示模型和学习算法；（2）研究词语相关性度量的概率分布函数表示方法，集成词语相关性的先验知识到相关性概率分布函数的构造中，给出词相关性分布函数的学习模型和算法；（3）研究句子的概率分布函数方法和句子相关性度量的概率分布函数的计算方法；（4）将上述理论研究成果应用到信息检索、文本分类和机器翻译性能评价等NLP任务中，以检验和优化相关模型和算法，从而为NLP中词表示和词语相关性度量提供一种新的解决思路。

项目摘要

词的形式化表示和词语相关性度量是自然语言处理（NLP）研究的共性基础性问题。针对高维空间点向量难以表示词的语义特征，且使用向量距离度量词语间相关性过于刚性的不足，本项目主要运用概率度量空间理论和最新的深度学习理论，重点研究了词语语义表示与学习、词语相关性度量，以及基于词项语义的自然语言处理问题。项目组成员共发表相关论文35篇，成功承办了CCMT2019、CCKS2020、CCL2022等学术会议，培养12名硕博士，在读博士2名，在读硕士4名，邀请加拿大蒙特利尔大学聂建云教授、中国科学院自动化研究所宗成庆研究员、清华大学孙茂松教授等知名学者来校讲学和交流。主要研究工作有：.1、中文词语语义表示和情感词表示研究：针对中文汉字本身特点及更好地捕获关于表示及其关系的不确定性，提出一种融入子汉字语义信息的基于密度分布式嵌入式表示及学习方法；引入普鲁契克情感轮心理学模型的基础上，提出基于情感轮和情感词典的情感分布标记增强方法以获得统一的情感分布表示。.2、社交媒体谣言检测研究：提出了一种新颖的层次化的语言知识驱动的虚假新闻检测框架。对于给定新闻进行实体链接操作和主题抽取，后通过外部知识库对实体词进行扩充，并利用知网的义原信息对主题词上下文进行扩充构建一个功能强大的语言-实体图结构以判别谣言。.3、基于细粒度视觉特征和知识图谱的视觉故事生成算法研究：提出了一种基于细粒度视觉特征和知识图谱的视觉故事生成算法。该算法设计了图像细粒度视觉特征生成器和图像语义概念词集合生成器。模块有效捕获了细粒度视觉信息和高层语义信息，同时综合外部知识图谱与相邻图像的语义关联信息，最终实现了对图像序列较为全面细致的表示。.4、基于视觉-语义中间综合属性特征的图像中文描述生成算法研究：提出了基于多层次选择性视觉语义属性特征的图像中文描述生成算法。通过结合目标检测和注意力机制，充分考虑了图像高层视觉语义所对应的中文属性信息，抽取不同尺度和层次的属性上下文表示。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.1051/jnwpu/20213920292

发表时间：2021

DOI：

发表时间：2016

DOI：

发表时间：2019

DOI：10.13634/j.cnki.mes.2022.05.020

发表时间：2022

DOI：10.1360/SSM-2020-0035

发表时间：2020

王明文的其他基金

批准号：61272212

批准年份：2012

资助金额：70.00

项目类别：面上项目

批准号：61373009

批准年份：2013

资助金额：58.00

项目类别：面上项目

批准号：60663007

批准年份：2006

资助金额：25.00

项目类别：地区科学基金项目

批准号：60963014

批准年份：2009

资助金额：22.00

项目类别：地区科学基金项目

批准号：61462045

批准年份：2014

资助金额：45.00

项目类别：地区科学基金项目

相似国自然基金

复杂网络在词语语义相关性度量中的应用

批准号：61070243

批准年份：2010

负责人：杨华

学科分类：F0211

资助金额：35.00

项目类别：面上项目

基于剩余格值逻辑的拓扑与概率度量空间

批准号：19101019

批准年份：1991

负责人：应明生

学科分类：A0112

资助金额：1.40

项目类别：青年科学基金项目

偏概率度量空间的模糊集方法

批准号：11201437

批准年份：2012

负责人：岳跃利

学科分类：A0112

资助金额：22.00

项目类别：青年科学基金项目

概率度量空间和随机算子理论及应用

批准号：18770441

批准年份：1987

负责人：张石生

学科分类：A0603

资助金额：0.50

项目类别：面上项目

基于概率度量空间的词表示及词语相关性度量研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

一种基于多层设计空间缩减策略的近似高维优化方法

基于MCPF算法的列车组合定位应用研究

基于主体视角的历史街区地方感差异研究———以北京南锣鼓巷为例

东太平洋红藻诊断色素浓度的卫星遥感研究

现代优化理论与应用

王明文的其他基金

文本自动分类中样本重要性模型及应用研究

可撤除生物特征签名关键技术研究

文本自动分类中维数约简方法研究

基于潜在语义对偶空间的跨语言信息检索理论和算法研究

基于潜在语义对偶空间的新词翻译自动识别方法研究

相似国自然基金