There is an abundance of valuable information of entities On Web, but the applications of these information are really superficial. It is very urgent and important to construct an event discovery and trace analysis system of Web entity for Market Intelligence,which aims at processing the large amount of Web information, as well as identifying valuable events and event relation automatically and integrating them organically, then finding the rules of entity evolution and supporting decision-making and trend projections. It will establish a set of relatively improved theoretical research and application methods, in order to finish the targets as follows: First, we will design entity valuable events classing model to identify and fuse valuable event in the vast amounts of Web information, and thus we can get target entity event information accurately. Second, identify event relation, such as causality ,part of、follow, then organizes the entity event information according to the commercial activities, topics, related products, occurrence time, locations, event relation and other different dimensionality of the same entity. Third, we will manage and refine entities evolutionary trajectory by distinguishing the causes, effects and the influence among entity events depending on the entity-tracing of graph model, which will reveal the rule of entity development and provide the entity information service deeply. In the next few years, this project will process a wide development space and application prospects in electronic commerce, market intelligence analysis and commercial competition intelligence.
实体踪迹隐藏在Web上孤立离散的海量页面中,不能被直接获取利用。针对Web海量信息,建立Web实体事件发现和踪迹分析体系,自动识别实体发展变化中有价值事件以及事件间关系并有机地组织起来,发现Web实体踪迹用以趋势预测和决策支持,成为非常迫切而重要的任务。本项目将建立一套比较完善的理论研究和应用方法,针对市场情报领域实现1)设计实体事件获取模型,在海量Web信息中发现有价值事件并融合,全面准确地获取目标实体事件信息;2)识别实体事件之间的因果关系、从属关系、跟随关系等,按照实体事件的发生时间、发生地点、行为主题、相互关系等不同维度将实体事件信息组织在一起,形成实体踪迹图模型;3)根据实体踪迹图模型整理和提炼实体的周期性踪迹和典型踪迹,进行实体踪迹的多维分析,发现实体发展规律,对外提供深层次的实体信息服务。在未来的几年中该项研究在市场情报分析、商业竞争情报等方面都有着广阔的发展空间和应用前景。
面向市场情报领域,项目组针对领域模型构建与演化、Web实体事件发现及融合、Web实体踪迹发现展开研究,取得了一系列的研究成果;在此基础上研发原型系统,验证上述各项关键技术。主要研究进展和成果如下。. 1.针对Web实体描述信息不一致的问题,提出结合CRF语义标注和匹配算法的实体模式动态更新的方法,在数据集成的过程中及时发现实体新属性和属性的新同义词,实现实体模式的演化。. 2.使用网页间事件共现约束降低事件表象的匹配次数,减少事件表象聚类时间,基于时间、地点、主体、事件语义、数据冲突等特征对事件表象进行重复检测。. 3.针对Web环境中指向同一事件的不同实例所提供的事件描述信息存在冲突的问题,提出一种基于D-S证据理论的Web实体事件数据冲突解决方法,提高了解决事件信息中数据冲突的准确率。. 4.提出了基于两阶段聚类的实体间隐式关系挖掘算法。该算法使用搜索引擎返回的结果文档中,挖掘并标记Web数据集成系统中相关实体之间的语义关系。. 5.提出基于频繁子图挖掘的Web 实体周期性踪迹发现的方法,有效的解决模式增长速度过慢、子图组合爆炸和冗余模式产生的问题。. 6.提出同类Web实体相似性踪迹发现的方法,筛选重要事件,动态规划发现相似性踪迹雏形,克服了没有预见性的频繁子图扩展导致的低效率问题。. 在关键技术研究成果基础上研发Web 实体踪迹发现与分析原型系统,原型系统分为数据源管理、事件获取、事件融合、踪迹发现以及市场情报发布等几个主要模块。 . 截止目前课题组已发表学术论文15篇,其中SCI 收录2篇,EI 收录12篇。在课题资助下,申请国家发明专利4项,新申请获得国家、省部级科研项目3项,培养博士4人,硕士5人,组织全国Web信息系统及其应用学术会议1次,参加国际、国内学术会议8次,已按照计划完成相关研究工作。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
Web环境下本体和实体驱动的企业竞争情报获取机制研究
Web数据挖掘与知识发现
面向大数据可用性的Web跨源实体数据不一致自动发现研究
Web图流算法及Web社区发现