The formal representation of words and the measure of correlation between words are fundamental problems in natural language processing (NLP). The distributed representation of words, especially word vectors trained by word2vec, has achieved good results in many NLP tasks. However, vector is a point in high-dimensional space, making it difficult to represent the semantic features of words. Moreover, the method of using vector distance to measure the correlation between words is too rigid. To address this problem, we intend to conduct the following studies under the framework of the probabilistic metric space theory. First, we will represent words using probability distribution functions and study the distribution functions of words, the conditional distribution functions of polysemy and synonymy by using the Bayesian learning method, and give the representation model and learning algorithm for word distribution structure. Second, we will research on probabilistic distribution function representation method for measuring correlation between words, integrate prior knowledge of correlation between words into the construction of correlation probability distribution function, and develop a learning model and algorithm for word correlation distribution functions. Third, we will investigate the probability distribution function method for sentences and the computation method of probability distribution function for measuring the correlation between sentences. Finally, we will apply the above theoretical research results to NLP tasks such as information retrieval, text categorization, and machine translation evaluation to test and optimize relevant models and algorithms. The research of this project will provide a new solution to word representation and the measure of correlation between words in NLP.
词的形式化表示和词语相关性度量是自然语言处理(NLP)研究的共性基础性问题。词的分布式表示,特别是word2vec训练获取的词向量在NLP许多任务中都取得了良好效果。针对高维空间点向量难以表示词的语义特征,且使用向量距离度量词语间相关性过于刚性的不足。本项目拟在概率度量空间理论框架下:(1)使用概率分布函数表示词,研究运用贝叶斯方法学习词的分布函数、多义词和同义词的条件分布函数,给出词分布构造的表示模型和学习算法;(2)研究词语相关性度量的概率分布函数表示方法,集成词语相关性的先验知识到相关性概率分布函数的构造中,给出词相关性分布函数的学习模型和算法;(3)研究句子的概率分布函数方法和句子相关性度量的概率分布函数的计算方法;(4)将上述理论研究成果应用到信息检索、文本分类和机器翻译性能评价等NLP任务中,以检验和优化相关模型和算法,从而为NLP中词表示和词语相关性度量提供一种新的解决思路。
词的形式化表示和词语相关性度量是自然语言处理(NLP)研究的共性基础性问题。针对高维空间点向量难以表示词的语义特征,且使用向量距离度量词语间相关性过于刚性的不足,本项目主要运用概率度量空间理论和最新的深度学习理论,重点研究了词语语义表示与学习、词语相关性度量,以及基于词项语义的自然语言处理问题。项目组成员共发表相关论文35篇,成功承办了CCMT2019、CCKS2020、CCL2022等学术会议,培养12名硕博士,在读博士2名,在读硕士4名,邀请加拿大蒙特利尔大学聂建云教授、中国科学院自动化研究所宗成庆研究员、清华大学孙茂松教授等知名学者来校讲学和交流。主要研究工作有:.1、中文词语语义表示和情感词表示研究:针对中文汉字本身特点及更好地捕获关于表示及其关系的不确定性,提出一种融入子汉字语义信息的基于密度分布式嵌入式表示及学习方法;引入普鲁契克情感轮心理学模型的基础上,提出基于情感轮和情感词典的情感分布标记增强方法以获得统一的情感分布表示。.2、社交媒体谣言检测研究:提出了一种新颖的层次化的语言知识驱动的虚假新闻检测框架。对于给定新闻进行实体链接操作和主题抽取,后通过外部知识库对实体词进行扩充,并利用知网的义原信息对主题词上下文进行扩充构建一个功能强大的语言-实体图结构以判别谣言。.3、基于细粒度视觉特征和知识图谱的视觉故事生成算法研究:提出了一种基于细粒度视觉特征和知识图谱的视觉故事生成算法。该算法设计了图像细粒度视觉特征生成器和图像语义概念词集合生成器。模块有效捕获了细粒度视觉信息和高层语义信息,同时综合外部知识图谱与相邻图像的语义关联信息,最终实现了对图像序列较为全面细致的表示。.4、基于视觉-语义中间综合属性特征的图像中文描述生成算法研究:提出了基于多层次选择性视觉语义属性特征的图像中文描述生成算法。通过结合目标检测和注意力机制,充分考虑了图像高层视觉语义所对应的中文属性信息,抽取不同尺度和层次的属性上下文表示。
{{i.achievement_title}}
数据更新时间:2023-05-31
涡度相关技术及其在陆地生态系统通量研究中的应用
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
拥堵路网交通流均衡分配模型
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
钢筋混凝土带翼缘剪力墙破坏机理研究
复杂网络在词语语义相关性度量中的应用
基于剩余格值逻辑的拓扑与概率度量空间
偏概率度量空间的模糊集方法
概率度量空间和随机算子理论及应用