Following the Open Data trend, governments and public agencies have started making their data available on the Web, which makes Web a repository with huge amount of data. How to utilize these public resources for data analysis is a new challenge in data integration field. In this project, we study the technology for open data integration and analysis based on collective intelligence, which can enable open-world queries using open data on the web and also enable data analysis tasks that could not be done only based on data in local database. The main contents of our research are as follows. (1) A semantic integration method which combines machine algorithms and human intelligence is proposed for object identification and semantic disambiguation. The crowd is asked to verify the hypotheses generated by the various extraction algorithms in order to build a high-quality semantic index for open data. (2) A framework that captures the relatedness between tables is proposed, which can classify the relatedness between tables, and rank the related tables. (3) The relational data model is extended in order to uniformly express data from either local database or open data sources and also tolerate inconsistencies in data from various sources. Furthermore, new technologies for query rewriting and optimization are studied. (4) A platform for open data integration and analysis based on collective intelligence will be developed so that the effectiveness and efficiency of open data integration and analysis can be validated by actual open data on the Web.
随着开放数据运动的推进,政府及各种机构已将大量的公共数据发布到网上,Web逐渐成为一个巨大的蕴藏丰富资源的仓库,如何利用公共资源完成数据分析,成为数据集成领域新的挑战。本项目研究基于群智的开放式数据集成和分析技术,利用互联网上大众积累的开放数据实现"open-world"查询,帮助用户完成仅凭本地数据不能完成的分析任务。研究内容包括:(1)研究基于众包的语义集成和索引构建方法,利用大众智慧与机器算法的结合消除语义模糊,改善语义集成的质量,构建高质量的语义索引;(2)针对开放数据的特点,深度挖掘表之间的关联关系,建立关联关系分类、关联度定义和评分的理论模型和算法;(3)扩展关系模型,使其能统一表达局部和开放数据,以及处理开放数据的不一致性,并在此基础上探索新的查询重写和优化技术;(4)实现一个基于群智的面向互联网开放数据的集成和分析平台,通过真实的开放数据验证其有效性和效率。
本课题的研究目标是基于群智的开放式数据集成和分析技术,利用互联网上大众积累的开放数据实现“open-world”查询,帮助用户完成仅凭本地数据不能完成的分析任务。 课题组成员围绕着既定的研究目标,经过四年的研究工作,取得了一系列的研究成果。代表性的研究内容包括:(1)研究基于众包的网络表格语义恢复和质量提升方法,提出利用大众智慧与机器算法的结合消除语义模糊,改善语义集成的质量;(2)研究大数据环境下数据的可用性,提出大数据下的实体解析方法以及表之间快照关系的发现算法,进一步提升开放式集成的质量;(3)研究开放式数据集成技术,提出不确定模式映射的方法、基于用户兴趣的模式摘要、紧凑索引的构建以及网络表格的一致性扩展查询技术,根据已知信息去扩展与实体列相关的其他属性列信息,实现开放式集成;(4)实现一个基于群智的面向互联网开放数据的语义标注和集成平台。.在本课题的资助下,项目组成员取得了如下的研究成果:(1)在国内外重要学术期刊上发表论文20篇,其中SCI检索期刊论文9篇,EI检索期刊论文5篇;(2) 在领域内知名国内国际会议上共发表学术会议论文4篇,其中1篇获得最佳演示系统奖;(3)共申请发明专利5项,其中2项获得授权,获得软件著作权4项;(4)项目执行期间,项目组2名教师成功晋升教授,1名青年教师成功晋升副教授,培养博士研究生3名,硕士研究生9名。
{{i.achievement_title}}
数据更新时间:2023-05-31
一种基于多层设计空间缩减策略的近似高维优化方法
智能煤矿建设路线与工程实践
二维FM系统的同时故障检测与控制
药食兼用真菌蛹虫草的液体发酵培养条件优化
现代优化理论与应用
"IL-25/IL25R-MAPK-Foxp3"轴调控Treg细胞分化及引发脓毒症免疫抑制的机制研究
群智感知中基于社会行为分析的机会式数据收集机制研究
面向数据复用的群智感知质量-成本优化技术研究
基于移动群智感知的物联网大数据挖掘与应用
面向群智感知的高可靠数据收集与筛选关键技术研究