Due to an ever increasing amount of document data and complexities involved with analyzing them in practice, traditional information retrieval system, which relied on shallow semantic analysis, cannot fulfill the demanding requirements of obtaining extremely accurate information. It requires that machine can deeply understand the really semantic meaning. Among various approaches, a topic modelling approach, which discovers semantically meaningful topics from a document corpus, has been gaining popularity in the fields of data mining, machine learning, NLP tasks. However, every word in the model is independently initiated, which is not the case in reality. In this way, similarity- and relatedness between words are neglected. Neural network language model can improve word embedding representation and it simplifies the semantic computation in terms of Addition and subtraction. Furthermore, semantic relatedness between words can be extracted through pattern mining techniques, and the various kinds of pattern can generate hierarchical structure of semantics. Therefore, in this proposal, we intend to integrate semantic similarity- and relatedness into topic modelling, and creatively give a definition of deep semantic modelling. Finally, the effectiveness and generalization of the proposed model will be evaluated in the application of NLP tasks such as automatic question answering system and summarization system.
在当今信息过剩的时代,传统基于浅层语义分析手段所得到的信息检索系统已逐渐难以满足人们获取精准信息的强烈需求,这就要求机器做能到深度准确地理解语义信息。主题模型的研究近年受到广泛的关注,在大数据环境下它能体现强大的语义类别属性,且系统扩展性很强,已成功运用于数据挖掘、机器学习和自然语言处理等领域。但其模型初始化假设为每个单词是独立分布存在的,这与实际情况不符,它忽略了词语之间的相似性和关联性。基于神经网路语言模型学习而成的词汇向量化表示可以将语义相似度简化为简单的加减运算,但是它在多义表达和全局分析能力较弱。此外,通过关联模式挖掘技术可以提取出语义的关联性,产生不同形式的模式集合可以形成语义层级结构。因此,本课题将综合考虑语义的主题类别性、相似性、关联性,创新性地定义基于主题的深层语义模型,最终将其应用于自然语言处理领域的自动问答系统和文摘系统,验证其有效性和普遍适用性。
传统基于浅层语义分析手段以无法满足当今海量数据下人们对精准信息获取的需求。本项目通过研究深度语义表示模型,提取重要信息的摘要系统以及关键信息引导的文本生成来满足用户对精准信息的需求。本项目研究主题增强的语义表示,深入挖掘突出类别性和关联性特征的统一联合语义表示框架和信息抽取技术。此外,该研究引入知识信息,提出一种新的结合知识结构聚散度的语义表示模型。这些模型在信息检索、问答系统以及文本摘要系统得到了有效的验证并达到国际先进水平。抽取式的信息获取方式仍然存在信息冗余,为了对海量信息进一步精简和重组,该项目还深入研究了基于文本自动生成的摘要技术,提出了融合全局概念主题的生成式摘要模型,并且提出了概念指针网络,将更具有概括能力的语言提炼出来完成摘要任务。生成式摘要的效果在通用的CNN/DailyMail、NYT、GigaWord数据上达到国际领先水平。项目整体从语义表示、信息抽取、文本生成三方面逐步挖掘深度语义信息,抽取用户所需并生成全新文本作为输出,具有重要的研究意义,并通过问答系统验证其可行性和应用价值。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
基于SSVEP 直接脑控机器人方向和速度研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于细粒度词表示的命名实体识别研究
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
语义约束主题模型的细粒度商品特征和情感词提取研究
语义主题与社交关系融合的特定群体发现关键技术研究
基于语义分析和统计的自动主题标引研究
基于词嵌入主题模型的语义稀疏型Web服务发现研究