数据流模糊关键字查询处理技术研究

基本信息
批准号:60903047
项目类别:青年科学基金项目
资助金额:18.00
负责人:王伟平
学科分类:
依托单位:中国科学院计算技术研究所
批准年份:2009
结题年份:2012
起止时间:2010-01-01 - 2012-12-31
项目状态: 已结题
项目参与者:赵晓芳,李小华,李慧,于雷,王洋,安明远,宋怀明
关键词:
模糊关键字数据流查询处理
结项摘要

数据流模糊关键字查询在信息内容安全、垃圾邮件过滤、实时新闻的订阅和发布等领域有着很好的应用前景。本项目拟对数据流模糊关键字查询处理问题进行深入研究。在符合应用需求的前提下,以最小化时间和空间复杂性和最优化查询结果质量为目标,提出一整套适合于数据流特点的模糊关键字查询处理的理论和技术。我们将提出适用于数据流的模糊关键字匹配的索引结构,探索高效的模糊关键字连续查询匹配算法和即时查询匹配算法。研究高质量的查询结果生成算法和高效率的查询处理算法,基于相似性距离、查询结果的生命周期、查询结果出现的频率等多元信息,研究查询结果的评价模型和评分算法,提出适用于数据流模糊关键字查询的负载脱落算法。并基于上述阶段性研究成果,开发数据流模糊关键字查询处理的原型系统。

项目摘要

海量数据流模糊关键字查询处理技术在信息内容安全、垃圾邮件过滤、商业智能分析领域有着很好的应用前景。我们针对数据流模糊关键字查询处理技术开展了深入的研究工作,取得了一系列的研究成果。首先,针对数据流实时模糊关键字查询处理问题,提出了一种基于滑动窗口的数据流模糊关键字查询的处理框架CSSQ,通过将滑动窗口组织成多个基本窗口,在每个基本窗口上创建高效的索引结构,有效地降低滑动窗口更新带来的索引重建代价。同时,提出了两种预裁剪筛选算法PPF和流计数筛选算法CFS,避免了多数不必要的文本相似性计算,有效提高了数据流模糊关键字查询处理的效率。其次,针对数据流历史数据的查询处理问题,开展了海量流数据存储技术和分布式查询处理技术的研究。在海量流数据的存储方面,设计并实现了一个面向海量流数据存储的分布式文件系统Clover。该系统采用基于目录划分和一致哈希映射的名字空间管理方法,解决了元数据扩展性问题;通过改进的两阶段提交协议,保证了多元数据服务器下分布式元数据操作的一致性;提出了基于共享存储池的高可用机制,通过建立模型分析了该机制下文件系统的可靠性。在海量流数据的数据组织方面,提出了适用于数据流历史数据存储的数据组织结构,利用列簇存储与块级索引技术,实现了流数据的快速加载和高效查询。提出了一种基于Hadoop的并行连接查询处理算法CHMJ。CHMJ设计了多副本一致性哈希算法,将具有连接关系的表根据其连接属性的哈希值在机群中进行分布,提升了连接查询处理的数据本地性,同时保证了系统的可用性。基于多副本一致性哈希数据分布,提出了HashMapJoin并行连接查询处理算法,有效地提高了Hadoop平台上连接查询的处理效率。相关研究成果发表在Ad hoc Network、IEEE Cluster等国际一流的期刊、会议上,部分研究成果还应用在腾讯分布式数据仓库TDW系统中,收到了良好的社会效益和经济效益。.

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

DOI:10.11821/dlyj020190689
发表时间:2020
2

城市轨道交通车站火灾情况下客流疏散能力评价

城市轨道交通车站火灾情况下客流疏散能力评价

DOI:
发表时间:2015
3

固溶时效深冷复合处理对ZCuAl_(10)Fe_3Mn_2合金微观组织和热疲劳性能的影响

固溶时效深冷复合处理对ZCuAl_(10)Fe_3Mn_2合金微观组织和热疲劳性能的影响

DOI:10.11868/j.issn.1001-4381.2018.001042
发表时间:2019
4

基于相似日理论和CSO-WGPR的短期光伏发电功率预测

基于相似日理论和CSO-WGPR的短期光伏发电功率预测

DOI:10.13336/j.1003-6520.hve.20201778
发表时间:2021
5

柔性基、柔性铰空间机器人基于状态观测的改进模糊免疫混合控制及抑振研究

柔性基、柔性铰空间机器人基于状态观测的改进模糊免疫混合控制及抑振研究

DOI:10.13465/j.cnki.jvs.2018.19.027
发表时间:2018

王伟平的其他基金

批准号:61672543
批准年份:2016
资助金额:63.00
项目类别:面上项目
批准号:31101349
批准年份:2011
资助金额:23.00
项目类别:青年科学基金项目
批准号:60403032
批准年份:2004
资助金额:25.00
项目类别:青年科学基金项目
批准号:60873265
批准年份:2008
资助金额:30.00
项目类别:面上项目
批准号:11671360
批准年份:2016
资助金额:48.00
项目类别:面上项目
批准号:61173169
批准年份:2011
资助金额:56.00
项目类别:面上项目
批准号:11001243
批准年份:2010
资助金额:17.00
项目类别:青年科学基金项目

相似国自然基金

1

大规模空间关键字数据流中查询和订阅技术研究

批准号:61802345
批准年份:2018
负责人:王潇杨
学科分类:F0202
资助金额:25.00
项目类别:青年科学基金项目
2

云环境下社交空间关键字查询处理与优化技术研究

批准号:61672145
批准年份:2016
负责人:赵相国
学科分类:F0202
资助金额:63.00
项目类别:面上项目
3

基于大规模XML数据的关键字查询处理关键技术研究

批准号:61073060
批准年份:2010
负责人:周军锋
学科分类:F0202
资助金额:33.00
项目类别:面上项目
4

基于事前约束的XML关键字查询处理技术

批准号:61472339
批准年份:2014
负责人:周军锋
学科分类:F0202
资助金额:80.00
项目类别:面上项目