Keyword search is a simple yet effective paradiam for accessing data. As a great number of structured data has accumulated in uncooperative environments such as Deep Web, an important problem arises as how to effectively query these structured data using keyword search. The goal of this research project is to provide indepth keyword search results on structured data in uncooperative environments. The project includes novel research on the following key problems. (1) Query understanding: inferring user's query intent from the keyword query. (2) Query processing: generating query results based on query interfaces of data sources in uncooperative environments. (3) Query results expansion: automatically rewriting queries to enrich query results. In consideration of the uncooperative nature of the data sources, we propose to build a keyword query containment graph to utilize query log and click through data. Based on the proposed query containment graph, we present new techniques of understanding keyword query and expanding query results. Keyword queries are typically ambiguous and casual, and query interfaces are limited in query ability, which pose great challenges for query processing. We propose a complete query processing framework and specific techniques. Our framework bases itself on but goes beyond query interfaces of web databases, and it effectively handles the mismatch between the keyword query and the query interface of web databases. Our research provides some new approaches for querying uncooperative data sources such as Deep Web, and the success of the project will advance the state-of-the-art of search over Deep Web.
当前存在大量非合作环境下的结构化数据,如Deep Web数据,而关键词搜索是一种简单、有效的查询方式,如何将关键词搜索与非合作环境下的结构化数据结合起来具有重要研究意义,本项目对这一问题展开研究。具体内容包括:查询理解,根据关键词查询推导用户的查询意图;查询处理,基于非合作数据源的查询接口产生查询结果;查询结果扩展,自动地对查询进行改写以丰富查询结果。考虑到数据源非合作性的特点,提出一种新的手段来有效地利用查询日志和点击数据,即建立查询包含图。基于查询包含图,提出了查询理解和查询结果扩展的新技术。针对关键词查询模糊而随意的特点,并考虑到非合作数据源查询接口仅能提供有限的查询能力,提出了一个完整的查询处理框架和具体的查询处理技术,该框架基于查询接口,但是不受限于查询接口,有效地处理了关键词查询和查询接口的失配问题。我们提出的技术可以对非合作环境下结构化数据提供高质量、深层次的关键词查询结果。
由于Web搜索的巨大成功及其易用性,关键词搜索受到了越来越多的关注,已经被扩展到了非传统Web数据,如非合作环境下的结构化数据。本项目研究了非传统Web数据上的关键词查询中的若干关键问题,包括:(1) 面向关键词查询的结构化数据源选择。研究思路一是基于主题词与主题词、主题词与特征词和直方图与直方图的关联特征构建了面向检索型、约束型混合关键词查询的层次化数据源摘要,并据此给出了相应的数据源选择策略。二是综合考虑相关性和多样性检索需求,选择相关性较大、多样性较好的Top-K数据源。(2) 查询理解。提出了一种新的针对带结构数据的关键词查询的模型;为了理解这类查询,提出了一种基于Markov模型的方法,该方法将关键词与文档词的匹配过程看作是一个序列过程,用Markov模型来描述这个匹配过程。(3) 查询处理。研究了一般的关键词查询的查询处理,这种关键词查询可以将不同方面的查询条件(位置、数值属性)和关键词结合起来形成复杂的查询。提出了一种新的索引结构和相应的查询算法。可以高效地处理这种一般的关键词查询及其各种变体。(4) 查询结果排序。提出了一种新颖的查询结果排序模型,其出发点是,查询的语义单元是查询单元而不是查询词,在计分和排序时应该依据查询结果与查询单元的相关性,而不是与词的相关性。(5) 其他扩展研究。包括基于词聚类的LDA模型、中文隐式实体关系抽取、细粒度情感挖掘等,这些研究可以进一步对查询结果进行后处理,例如进行主题发现和情感挖掘等。.在本项目的资助下,共取得成果18项,其中SCI收录2篇,EI收录10篇,在国际顶级期刊《IEEE Transactions on Knowledge and Data Engineering》发表论文1篇,取得了预期的研究成果。项目的研究成果可以用于深网数据挖掘、搜索引擎、电子商务等多个领域。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
低轨卫星通信信道分配策略
中国参与全球价值链的环境效应分析
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
水氮耦合及种植密度对绿洲灌区玉米光合作用和干物质积累特征的调控效应
大数据环境下基于量子计算的非结构化数据关键问题的研究
基于关键词的大规模链接数据搜索技术研究
移动环境中关键词搜索的关键技术研究
复杂环境下语音数据的说话人识别及关键词检索