The complexity and the heterogeneity of Webpage data has always been a bottleneck in its efficient processing. The technique of page blocking and information extracting have been eased the problem in a certain extent, but failed to solve the problem of semantic structuralizing fundamentally . In response to this challenging problem,the project takes the Webpage as the research object, bases on the charcteristics of compilation language of Web page and the distribution characteristics of information in the page, takes use of the related theory and technology of statistics and information science to research the model and method of semantic perception of Webpage data object, explore the measure learning theory and technology of semantic object, build the across granularity weighted semantic object tree model, reveal the mapping mechanism from semantic object to the grain object, meanwhile establish a multi-granularity view of Webpage and its associated model. The mainly research contents include: the perception of the semantic theme of Webpage contents based on the LDA model; short text classification based on spectral clustering; the semantic blocking of Webpage based on visual information and formation content; The measure learning of semantic object in the Webpage; The construction of across the granularity weighted semantic object tree ; Multi-granularity review and its associated modeling, etc. The model and method of perception understanding and calculation established in the project for Webpage data object will have theoretical significance and practical prospects in the management of Web information integration, intelligent retrieval and analysis mining, as well as other fields.
Web页面数据的复杂异构一直是其高效处理的瓶颈,页面分块及信息抽取在一定程度上缓解了这一问题,但未能从根本上解决语义结构化问题。针对这一挑战性的问题,本项目拟以Web页面为研究对象,基于Web页面编撰语言特点,依据页面中信息内容及分布特征,利用统计学和信息科学相关理论和技术,研究Web页面数据对象的语义感知模型与方法,探索语义对象的测度学习理论和技术,构建跨粒度加权语义对象树模型,揭示语义对象到粒对象的关联映射机制,建立多粒度视图的Web页面表示及关联模型。具体研究内容包括:基于LDA模型的Web文本主题感知;基于谱聚类的短文本分类;基于视觉信息和信息内容的语义分块;Web页面语义对象测度学习;跨粒度加权语义对象树构造;Web页面多粒度表示与关联建模等。本项目所建立的Web页面数据感知理解与计算模型和方法,对Web信息集成管理、智能检索与分析挖掘等多个领域具有重要的理论意义和实用前景。
本项目从一种新的视角出发,以平面视图的Web页面为研究对象,以页面中数据对象及概念为基本单元,综合利用Web语义技术、认知科学、概率统计学和数据挖掘中基本理论和方法,研究Web页面数据对象的语义感知理解与计算模型、技术和方法,重点研究了如何从数据挖掘、语义计算、自然语言处理与文本分类等多方面,对传统Web页面数据对象的感知理解与计算模型进行突破与改良。首先,深入研究了Web文档主题特征提取、Web页面文档区块数据对象语义特征感知与短文本分类等技术,提出了一种基于哈夫曼树算法的文档分类新方法,一种基于期货经纪交易数据库的文档区块分类算法,以及一种基于本体与结构的Web表抽取方法,发表了四篇EI学术会议论文。其次,深入研究了感知理解Web页面数据对象的数据挖掘与分类技术,提出了一种偏好代价敏感决策树构造方法,一种基于单位代价收益敏感决策树的分类方法,以及一种基于依存关系、词性和语义词典的类中心向量文本分类法,发表了2篇中文核心论文,申请了3个发明专利并获得了1个发明专利授权。再者,深入研究了基于本体与真实语料的Web概念语义相似度计算与基于内容的图像检索技术,提出了一种用于相似度计算的区域密度补偿的路径计算模型,一种测量语义相关性的维基百科双向链接向量模型,一种基于句法结构与修饰词的句子相似度计算,以及一种基于内容的彩色体直方图图像检索技术,构建了从概念与文本到图像的Web页面数据对象的多粒度视图及关联模型,发表了二篇高水平的SCI论文、二篇EI论文、6篇中文核心论文及一篇会议论文,申请了一个发明专利,获得了二个软件著作权。最后,深入研究了Web页面数据对象感知在智能教学系统及智能系统方面的应用,提出了一种基于本体与SCORM规范的智能内容对象互操作模型,一种基于领域本体和多代理的分布式智能教学系统,以及一种谈话式智能教学系统;申请了9个相关发明专利并获得了5个授权,并在SSCI期刊上发表学术论文一篇。
{{i.achievement_title}}
数据更新时间:2023-05-31
粗颗粒土的静止土压力系数非线性分析与计算方法
中国参与全球价值链的环境效应分析
基于多模态信息特征融合的犯罪预测算法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于细粒度词表示的命名实体识别研究
敲除骨髓CCR3基因抑制Eotaxin-CCR3-PI3K调控变应性鼻炎嗜酸性粒细胞迁移作用机制研究
Web垃圾页面应对技术研究
Web代理最优安放与数据对象最优复制方法研究
主题无关的高质量WEB页面预选与检索研究
数据驱动的多维媒体感知与理解