基于概率主题模型的词义计算及应用研究

基本信息
批准号:61373056
项目类别:面上项目
资助金额:73.00
负责人:金澎
学科分类:
依托单位:乐山师范学院
批准年份:2013
结题年份:2017
起止时间:2014-01-01 - 2017-12-31
项目状态: 已结题
项目参与者:夏云庆,任志萍,陈兴元,贾礼平,孙锐,项炜,唐国瑜,王琳琳,王俊俊
关键词:
词义消歧词义计算词相似概率主题模型新义发现
结项摘要

Word sense computing is a fundamental topic in computational linguistics. Current researches suffer the following three problems: (1) Researchers explore word sense disambiguation using the information on sentence and document level, but neglecting the knowledge about topic. (2) The distributional similarity is only as the proxy of word form similarity rather than the word sense. (3) Neologism and novel word sense are becoming more and more significant. Our study shows that probabilistic topic model, for example LDA, can help finding the latent topics knowledge in statistical manners, and topics have closely relationships with documents, words and word senses. Accordingly, we plan to carry out the following work: Firstly, the assumption of "one sense per topic" is proposed to reveal the relation between topic and word sense. What's more, a probabilistic topic model based on word sense, referred to as sLDA, will be designed. With the new topic model, we will establish new methods that are able to disambiguate words in the texts and obtain specific topics at the same time. Secondly, by introducing the concept "sensitive topic word" (i.e., a word who is sensitive to some topic), we propose to compute word similarity at the word sense level. Finally, an algorithm for finding novel word senses will be devised, which is able to find the contexts where the novel sense occurs by integrating the word's temporal and spatial distribution in corpus. By accomplishing the above work, this project will promote the research on word sense computing and establish the technical support for the applications such as information retrieval.

词义计算是计算语言学研究领域中最基础和最重要的问题之一,目前该研究面临三个重要难题:(1)已有词义消歧技术主要利用句子级和文档级信息,忽略了主题级信息的挖掘和利用。(2)基于语料库的词相似计算均在词形层面上进行,无法获得多义词在词义层面的相似词。(3)新词新义问题日益突出。研究发现,以LDA为代表的概率主题模型利用统计方法挖掘出语料中隐藏的主题,这些主题和文档、词、词义存在密切关系。据此,本项目拟开展如下研究:第一,提出"一个主题一个义项"假设,揭示主题、词、词义三者之间的关系。进一步地,设计并实现概率词义主题模型(sLDA),在获得更明确主题的情况下,更准确地完成全文词义消歧。第二,引入主题敏感词概念,使词义层面的相似度计算成为可能。第三,有效利用词在语料库上的时空分布信息,研究基于主题的新义发现算法。本项目将进一步推进词义计算研究的发展,并对信息检索等应用提供有效的技术支持。

项目摘要

词义计算是计算语言学研究领域最基础和最重要的问题之一。课题组全体成员紧紧围绕“词义计算”这一核心,既立足于概率主题模型开展基础理论研究并将其应用于事件表示、文档表示和文本分类;又结合机器学习的最新进展,引入深度学习,并有效改善了文本分类任务。主要研究成果如下:1)提出了一种新的概率主题模型-描述LDA(DescLDA)。该模型在已有主题模型的基础上,以更有效解决具体的自然语言处理任务为目的,增加一个控制装置,从而避免已有模型随机生成话题。该模型应用于文本分类,仅利用描述文本类别的词及和未标注类别的文本作为输入,获得了和需要大量人工标注作为输入的监督方法接近的效果。论文发表在AAAI2015,评审人的意见是“This paper makes progress in an interesting and new direction”。2)提出了一个新的词嵌入袋文本模型用于文本分类。基于“同一个词在不同文本类中应有不同的含义”假设,改进已有的词嵌入模型,然后在贝叶斯框架下完成分类任务。实验结果表明我们的模型都明显优于当时世界上最好的分类模型。论文发表在IJCAI2016。3)提出了在二项主题模型的基础上构建基于事件的主题模型。采用两种不同的方式将事件的语义知识融入到主题生成过程中,从共现和语义两个层面有效的解决了事件稀疏性问题。该成果发表在2017年4月的《计算机学报》。4)提出一种事件驱动模型应用于标题生成任务。模型通过构造由词汇链和事件组成的二部图,同时融入了短语和语句的重要度以习得显著性事件,然后在构造的有向无环的词图上搜索得到最终的标题。该成果发表在ACL2015。5)提出三个基于词义的Sense Clustering Model。在概率主题模型中用词义代替词,分别是独立词义LDA,点估计协同词义LDA,词义混合协同词义LDA。实验结果表明三种方法都优于LDA模型。在语言资源建设方面,和北京大学、鲁东大学合作,完成6.4万句的依存句法、短语结构两种视图标注;和北京大学合作,继续拓展全文粗粒度词义标注语料库,最终完成了总规模2000万词,涉及多义词73万词次的语料库建设工作。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
2

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
3

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
4

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018
5

基于FTA-BN模型的页岩气井口装置失效概率分析

基于FTA-BN模型的页岩气井口装置失效概率分析

DOI:10.16265/j.cnki.issn1003-3033.2019.04.015
发表时间:2019

金澎的其他基金

批准号:61003206
批准年份:2010
资助金额:7.00
项目类别:青年科学基金项目

相似国自然基金

1

基于词义的文档表示模型及多语亚文档主题分析研究

批准号:61272233
批准年份:2012
负责人:夏云庆
学科分类:F0211
资助金额:82.00
项目类别:面上项目
2

大规模概率主题模型的高性能求解

批准号:61003117
批准年份:2010
负责人:李文波
学科分类:F0211
资助金额:19.00
项目类别:青年科学基金项目
3

基于多模态概率主题模型的实体相关文本可视化

批准号:61172143
批准年份:2011
负责人:袁媛
学科分类:F0117
资助金额:60.00
项目类别:面上项目
4

基于PAM概率主题模型的本体概念及层次结构学习研究

批准号:61105047
批准年份:2011
负责人:王俊丽
学科分类:F0603
资助金额:24.00
项目类别:青年科学基金项目