面向汉语-泰语跨语言新闻事件检索方法研究

基本信息
批准号:61462054
项目类别:地区科学基金项目
资助金额:45.00
负责人:王红斌
学科分类:
依托单位:昆明理工大学
批准年份:2014
结题年份:2018
起止时间:2015-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:郭剑毅,汪淑娟,和玲,何黎扬,洪旭东,韩震,侯中熙,陈俊,秦广顺
关键词:
相似度计算信息检索汉语泰语图存储结构新闻事件
结项摘要

Since the exchanges of politic, cultural and economic between Thailand and China is becoming frequent, retrieving news events of Thailand and China is significantly helpful for understanding the attitudes of Thailand on politic, diplomacy, economic and military. This project will put the emphasis on extracting the characteristic elements and incidence relations from news events in Chinese and Thai. Our study also includes storage strategy of news events and computation of the similarity in cross-language news events retrieve. For the extraction of the characteristic elements and incidence relations, we will study document-level news features and entities' relations extraction method based on Multi-feature fusion, constructing the main news events chain of entities, verbs, and the incidence relations among them; For the news storage strategies, considering the characteristics of news events chain structures, we will construct a graph storage model of Chinese-Thai news events and study the retrieve strategies; For the computation of the similarity in cross-language news events retrieve, we will study it combining the features of news events, using the character representation methods based on the information such as Bilingual dictionary translation, event entity, entity relation, event structure, and so forth. The target of this project is solving information extraction, storage, and similarity computation on Chinese-Thai cross-language news events retrieve, which is valuable for both theoretical research and practical implement.

泰国与我国之间的政治、文化、经济交流越来越频繁,快速查询中泰之间新闻事件的发展和变化,有助于理解泰国在政治、外交、经济和军事等不同领域的政策和态度。本课题将围绕汉语-泰语新闻事件特征要素及关联关系抽取、新闻事件存储和跨语言新闻事件检索中的相似度计算进行研究。在新闻事件特征要素及关联关系抽取方面,研究基于多特征融合的篇章级新闻要素实体关系抽取方法,构建实体、动词及它们之间关联关系的新闻事件链;在新闻事件存储方面,考虑新闻事件链的结构特征,研究汉语-泰语新闻事件图存储模型和索引策略;在跨语言相似度计算方面,基于双语词典互译信息、事件实体、实体关系、事件结构等信息的特征表示方法,研究融合新闻事件特征的汉语-泰语跨语言新闻事件相似度计算方法。课题将解决汉语-泰语跨语言新闻事件检索中的信息抽取、存储和相似度计算等问题,具有重要的理论研究与应用价值。

项目摘要

汉语-泰语双语新闻事件检索有助于快速查询和了解中泰之间新闻事件的发展和变化。本课题围绕汉语-泰语双语新闻事件检索问题,开展汉语-泰语词法句法分析方法研究、汉语-泰语新闻事件特征要素及关联关系抽取方法研究、新闻事件存储方法研究和跨语言新闻事件检索中的相似度计算方法研究。课题研究取得了多项创新性成果:在国内期刊和会议上发表论文23篇,其中SCI 2篇,EI 4篇,北大中文核心期刊9篇,受理发明专利9项,登记软件著作权3项,培养毕业研究生7人。.(1)汉语-泰语词法句法分析研究方面:提出了基于条件随机场的泰语音节切分分词方法、融合上下文字符信息的泰语神经网络分词方法、融合迁移学习的中文命名实体识别方法、泰语句子切分方法、泰语人名、地名、机构名实体识别方法和基于特征加权重叠度的中文实体协同消歧方法,为开展汉语-泰语跨语言新闻事件相似度计算方法研究奠定了基础。.(2)汉语-泰语新闻事件识别及要素抽取方面:提出了基于中文事件触发词表自动抽取泰语触发词方法,提出跨语言信息投影的泰语新闻事件抽取方法,基于word2vec和依存分析的事件识别方法,基于词向量和依存分析的新闻事件识别方法和基于依存树与规则相结合的汉泰新闻事件要素抽取方法。.(3)汉语-泰语新闻事件要素关系抽取方面:针对泰语新闻事件句中新闻事件实体关系抽取研究中语料库较为匮乏的问题,使用汉泰双语平行句对作为中间桥梁,进而构建基础的泰语新闻事件实体关系训练语料库。在语料库的基础上,提出了基于最大熵的泰语新闻句子级实体从属关系抽取方法。.(4)新闻事件存储方面:提出了基于汉泰词汇链构建汉泰事件链方法和提出了基于Ne04j图模型的汉泰新闻事件链存储方法。.(5)汉语-泰语跨语言新闻事件相似度计算方面:提出了基于双语LDA 跨语言文本相似度计算方法,提出了基于语义向量空间和词性依存的泰语句子相似度计算方法,提出了融合新闻要素的新闻文本相似度计算方法,提出了融合新闻要素的汉泰跨语言新闻文本相似度计算方法。.课题的研究,为进一步开展汉语-泰语之间的跨语言新闻事件演化展现和检索奠定了基础。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

演化经济地理学视角下的产业结构演替与分叉研究评述

演化经济地理学视角下的产业结构演替与分叉研究评述

DOI:10.15957/j.cnki.jjdl.2016.12.031
发表时间:2016
2

涡度相关技术及其在陆地生态系统通量研究中的应用

涡度相关技术及其在陆地生态系统通量研究中的应用

DOI:10.17521/cjpe.2019.0351
发表时间:2020
3

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

DOI:10.12054/lydk.bisu.148
发表时间:2020
4

F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度

F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度

DOI:10.11999/JEIT210095
发表时间:2021
5

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

DOI:10.19596/j.cnki.1001-246x.8419
发表时间:2022

王红斌的其他基金

相似国自然基金

1

面向互联网的泰语-汉语双语语料获取及对齐方法研究

批准号:61363044
批准年份:2013
负责人:线岩团
学科分类:F0211
资助金额:45.00
项目类别:地区科学基金项目
2

面向资源不对等语言对的个性化深度跨语言信息检索研究

批准号:61876062
批准年份:2018
负责人:周栋
学科分类:F0606
资助金额:64.00
项目类别:面上项目
3

基于内容的跨语言语音检索方法研究

批准号:60776800
批准年份:2007
负责人:刘加
学科分类:F02
资助金额:28.00
项目类别:联合基金项目
4

面向特定领域基于Ontology的跨语言信息检索技术研究

批准号:60302021
批准年份:2003
负责人:于浩
学科分类:F0113
资助金额:20.00
项目类别:青年科学基金项目