The Web has been rapidly "deepened" by the tremendous Web databases (WDBs) online with the potentially unlimited high-quality information hidden behind each WDB only entry, searchable form/query interface. Since the Deep Web(most of the contents from WDBs) is an important yet largely-unexplored frontier, great attentions are being paid in the fields of Web information search and virtual Web Big Data etc. However, there remain two basic challenges in them, the Web-scale automatic discovery and integration for WDBs'query interfaces due to the non-structured query interfaces with the 4V properties of Big Data: Volume, Variety, Velocity and Value over the Web. To address the two challenging problems and overcome limitations with respect to their non-modeling,inefficiently heuristic serial algorithms, and infeasible or incomplete sulosions for the problems,we will deeply research on methods of optimal modeling and efficient distributed parallel algorithms based on cloud computating for the challenging problems with abstract and formal description and solving problems. More important, on this basis, some instructively basic theories and methods for the complex problems/Big Data analysis and processing are expected to by summarizing.
随着Web在线数据库(Web Database, WDB)的激增,Web正在迅速地"深化",其绝大部分高质量的海量信息隐藏在WDB对外提供的唯一入口--查询接口后而无法由传统的搜索引擎索引到,因此,研究在Web信息搜索和Web大数据集成领域的两个亟待解决的基本关键难题:"海量WDBs入口的自动发现与集成"具有重要意义。本项目针对已有研究缺乏对问题进行抽象建模,采用启发式的单机串行低效算法,没有给出问题可行的完整性解决方案等缺陷,采用抽象与形式化描述与求解问题的方法,创新研究上述两个领域关键问题的有效建模方法、高效分布式并行算法,以期突破这两个领域关键难题给出问题可行的完整性解决方案。在此基础上,通过概括总结,揭示出一般复杂/"大数据"问题分析处理时所蕴含的一些基础理论和方法,为该类问题的有效求解起到一定的推动和借鉴作用。
随着Web在线数据库(Web Database, WDB)的激增,Web正在迅速地“深化”,其绝大部分高质量的海量信息隐藏在WDB对外提供的唯一入口——查询接口后而无法由传统的搜索引擎索引到,因此,研究在Web信息搜索和Web大数据集成领域的两个亟待解决的基本关键难题:“海量WDBs入口的自动发现与集成”具有重要意义。本项目针对已有研究缺乏对问题进行抽象建模,采用启发式的单机串行低效算法,没有给出问题可行的完整性解决方案等缺陷,采用抽象与形式化描述与求解问题的方法,创新研究上述两个领域关键问题的有效建模方法、高效分布式并行算法,以期突破这两个领域关键难题给出问题可行的完整性解决方案。在此基础上,通过概括总结,揭示出一般复杂/“大数据”问题分析处理时所蕴含的一些基础理论和方法,为该类问题的有效求解起到一定的推动和借鉴作用。. . 在对项目研究内容进行深入系统研究的基础上,产生了以下主要研究成果:. 1) 提出了深网数据源的自动发现的有效方法,并实现了其高效的并行深网数据源入口发现的爬虫;. 2) 提出了深网数据源入口--查询接口的有效集成的模型与解决方案,并给出了具体高效的实现;. 3) 对项目研究中所涉及到以下大数据关键/NP-难问题实现了突破。这些问题的突破不仅具有较重要的理论与应用价值,而且为相关大数据问题的建模与求解起到了推动和借鉴作用。. a. MLCS(Multiple Longest Common Subsequence)问题的研究 ,其研究成果已在领域顶级会议上发表论文2篇;. b. 大数据高维数据的聚类与数据流的聚类,其研究成果论文正在审稿期;. c. 大规模静态/动态图的划分,其研究成果论文正在审稿期。. 4) 集本项目研究成果于一体新开设了一门本科生专业前沿技术课程:“Web信息搜索”; . 5) 出版学术译著一部:“C++程序设计——基础、编程抽象与算法策略”;. 6) 培养计算机科学与应用、软件工程研究生12名,博士生4名。
{{i.achievement_title}}
数据更新时间:2023-05-31
二维FM系统的同时故障检测与控制
血管内皮细胞线粒体动力学相关功能与心血管疾病关系的研究进展
“阶跃式”滑坡突变预测与核心因子提取的平衡集成树模型
大倾角煤层无人工作面深孔爆破落煤参数设计
A Fast Algorithm for Computing Dominance Classes
面向实体信息集成的非合作半结构化深网数据源选择
基于领域本体的Petri网自动集成机理与应用模式研究
深亚微米超高速集成电路时钟网优化布线算法研究
自动推断海量定制数据格式研究