Taking the China-ASEAN Expo cross-language information service as the research background and using methods such as data mining, artificial intelligence, machine learning ,linguistics and statistics, item-all-weighted negative pattern mining theory is researched and its highly effective mining algorithm is designed in the project, and then a novel cross-language query expansion based on item-all-weighted positive and negative pattern mining is studied and the cross-language query expansion efficient algorithms are presented to solve the bottleneck and difficulties of the current international prevailing query translation ambiguity and polysemy problem,which is urgent to solve in the cross-language information retrieval areas. At the same time, this project is carried out innovative scientific research for economic and social development needs of China and ASEAN countries ,the research results of which can be used for the China - ASEAN Expo cross-language information service to realize China - ASEAN Expo cross-language information retrieval prototype which will effectively provide cross-language information service for the China - ASEAN Expo.This project can solve the present key issues of query translation ambiguity and polysemy in cross-language information retrieval, and provide new trajectories and new methods that can be used for reference in practice for the improvement and enhancement of Web cross-language massive information retrieval system performance.
本项目以中国-东盟博览会跨语言信息服务为研究背景,综合运用数据挖掘、人工智能、机器学习、语言学以及统计学等学科知识,首先研究完全加权负模式挖掘技术,构建其挖掘理论框架和设计高效挖掘算法,然后,构建一种新的基于完全加权正负模式挖掘的跨语言查询扩展理论及其模型,设计和实现高效跨语言查询扩展算法,以解决当前国际上普遍存在的跨语言信息检索中查询项在翻译时的歧义和多义性问题的瓶颈与难点,也是目前跨语言信息检索研究的迫切需要。本项目将研究成果用于中国-东盟博览会跨语言信息服务,实现基于查询扩展的中国-东盟博览会跨语言信息检索平台原型,为中国-东盟博览会提供有效的跨语言信息服务,是针对我国及东盟国家经济社会发展需求而开展的创新性科学研究。本项目可解决目前跨语言信息检索中查询项翻译歧义和多义性的关键性问题,在实践上为海量Web 跨语言信息检索系统查询性能的改善和提高提供可供借鉴的新思路和新方法。
随着中国和东盟的交往日益频繁和密切,东盟跨语言信息检索研究显得迫切和重要。本项目以东盟语言(印尼语、越南语)为研究对象,综合运用数据挖掘、机器学习、语言学以及统计学等学科知识,深入研究了完全加权正负关联模式挖掘理论方法及其算法,重点研究基于完全加权正负关联模式挖掘的东盟跨语言查询扩展理论模型、方法和技术,设计和实现跨语言查询扩展算法,探讨基于该扩展方法的东盟跨语言信息检索系统,为跨语言检索系统性能的改善和提高提供可借鉴的新方法和技术支撑。.通过四年的攻关研究,完成了研究计划任务,达到了预期研究目标。主要成果包括发表论文18篇,其中,北大中文核心期刊论文13篇,期刊EI收录3篇,申请发明专利14件(其中已授权3件),登记软件著作权8件,培养骨干教师6人、硕士研究生2人,获得广西跨境电商智能信息处理重点实验室培育基地1个。具体研究工作有:.(1)建立了基于项权值变化的完全加权正负关联模式挖掘理论模型及其算法,解决了基于项权值变化的负模式挖掘问题:给出基于项权值变化的完全加权数据模型形式化表示;提出基于项权值变化的矩阵加权关联规则挖掘模型及其算法;提出四种基于项权值变化的完全加权正负关联模式挖掘模型及其算法(即基于SCPIRC、SRCCCI、SCCI和SPRMII评价框架的完全加权正负关联模式挖掘)。该成果丰富了数据挖掘中关联模式挖掘的理论成果,为基于项权值变化的模式挖掘提供了新方法,在文本挖掘、教育数据挖掘和信息检索具有重要的应用价值。.(2)研究了面向东盟语言的基于完全加权关联模式挖掘的跨语言查询扩展理论模型及其算法,即,提出了基于完全加权关联模式挖掘的印尼汉跨语言查询扩展模型及其算法、基于完全加权关联模式挖掘的越英跨语言用户相关反馈扩展模型和基于完全加权正负关联模式挖掘的跨语言查询扩展模型等。这些成果为解决跨语言信息检索中查询项在翻译时的歧义和多义性问题提供可借鉴的新思路和新方法,对促进跨语言信息检索理论研究及其实用化具有重要的理论意义和应用价值。.(3)集成提出的挖掘模型和跨语言检索方法,开发了一套文本关联模式挖掘和东盟跨语言信息检索原型系统,既是对提出的理论、方法及算法的检验,也是后续研究和已有成果拓展的实验平台。.(4)取得了一批发明专利和软件著作权。这些成果具有重要的应用价值和推广前景,可为中国-东盟博览会以及中国—东盟自由贸易区提供中国东盟跨语言信息服务。
{{i.achievement_title}}
数据更新时间:2023-05-31
监管的非对称性、盈余管理模式选择与证监会执法效率?
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响
基于全模式全聚焦方法的裂纹超声成像定量检测
Himawari-8/AHI红外光谱资料降水信号识别与反演初步应用研究
基于深度学习和迁移学习的东盟跨语言查询扩展研究
面向资源不对等语言对的个性化深度跨语言信息检索研究
高精度的跨语言信息检索查询词自动翻译技术研究
面向对象的多媒介数据/知识表示模型及其查询语言