The rapid advances of Internet, Internet of Things and Mobile Wireless Internet have led us into an era of massive multimedia data explosion. It becomes an essential issue to effectively extract semantics and process data cleaning, in order to support broad real-world applications. However in the era of big data, the traditional offline setting for data cleaning is not tenable. We simply do not have adequate computing resources and man power to process every data for each possible annotation. Therefore, in this proposal, we target to address the key issues for query-driven interactive multimedia data cleaning techniques. Given a dataset of massive media data, we first propose to analyze semantic information with automatic techniques, leveraging heterogeneous contextual information which can improve the performance of semantic extraction. Based on the extracted semantic information, we then construct a big probabilistic database. When users present a query, we propose to perform query processing on the probabilistic database and acquire the initial results. To further enhance the accuracy of query results, we propose to leverage active learning based interactive techniques to help users achieve satisfied query answers as soon as possible. Our research will provide technical support for researches on big data cleaning, analysis and mining, and meanwhile definitely make important advance to the real-world applications for massive multimedia data.
互联网、物联网及移动互联网的高速发展将我们带入多媒体数据大爆炸的时代。如何准确提取语义信息并进行高效数据清洗,以支持广泛的实际应用成为至关重要的问题。然而大数据时代下,传统脱机模式的数据清洗技术已不再适用,我们没有足够的人力和计算资源对每个样本的每个潜在标签进行清洗。为此,本课题致力于研究查询驱动的交互式多媒体数据清洗关键技术。针对大规模媒体数据集,本课题拟首先进行自动语义分析,融合多源多模态的上下文信息以提高语义提取的准确性;利用获取的语义信息,构建大规模概率数据库;基于此概率数据库,对用户提出的查询进行有效表示和处理,得到初始查询结果;为进一步提高查询结果的准确性,拟采用基于主动学习的人机交互机制,快速帮助用户得到更加满意的查询结果。本课题将为大数据清洗、分析及挖掘等研究提供技术支持,也将有力推动大规模多媒体数据实际应用的全面发展。
大数据时代下,传统脱机模式的数据清洗技术已不再适用,我们没有足够的人力和计算资源对每个样本的每个潜在标签进行清洗。本课题致力于研究查询驱动的交互式多媒体数据清洗关键技术。针对大规模媒体数据集,我们首先进行自动语义分析,融合多源多模态的上下文信息以提高语义提取的准确性;利用获取的语义信息,构建大规模概率数据库;基于此概率数据库,对用户提出的查询进行有效表示和处理,得到初始查询结果;为进一步提高查询结果的准确性,我们采用基于主动学习的人机交互机制,快速帮助用户得到更加满意的查询结果。相关研究成果在多媒体数据分析领域的著名国际会议及期刊发表论文14篇,其中SCI检索论文6篇(包括CCF A类期刊IEEE T-PAMI2篇,IEEE TIP 1篇),会议论文8篇(包括IJCAI,AAAI等CCF A类会议4篇),其中一篇获得国际会议ICIMCS2017最佳学生论文奖。
{{i.achievement_title}}
数据更新时间:2023-05-31
涡度相关技术及其在陆地生态系统通量研究中的应用
论大数据环境对情报学发展的影响
一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能
硬件木马:关键问题研究进展及新动向
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
查询语义分析驱动的多层次交互式查询意图识别技术研究
数据驱动的交互式和定制化服务链推荐方法研究
多模态融合的视频监控数据交互式查询及分析研究
基于复杂查询类型的多媒体检索