关于Web数据的挖掘有三个主要方向。一是面向商业智能的网站日志挖掘,二是面向复杂系统研究的Web结构挖掘,三是面向社会信息分析的网页内容挖掘,本课题属于第三类。在这一方面,大致有两种做法。一是利用信息提取的方法和技术,试图精细地得到所需信息,二是利用Web信息大量冗余及相互链接的特点,试图高效、批量地得到所需的结果,本课题属于后者。具体来说,我们希望以四类命名实体(人物,机构,时间,地点)为出发点,发现实体及其属性,以及它们之间的种种关系,并试图将网络世界中发现的现象与现实世界相对照,以评估其异同。作为课题具体目标,我们将提出描述互联网中命名实体及其关系的模型,发展若干高效、大批量发现它们的算法,探索将网络信息分析得到的结论与现实世界情形进行对比的方法。作为课题追求的成果,除了对应上述目标的相关研究论文发表外,我们还将得到中国Web中出现的实体集合,实体关系列表等基础数据,以支持后续研究。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
黄河流域水资源利用时空演变特征及驱动要素
城市轨道交通车站火灾情况下客流疏散能力评价
基于细粒度词表示的命名实体识别研究
敏感性水利工程社会稳定风险演化SD模型
面向Web的命名实体检测与跟踪关键技术研究
基于Web知识挖掘与融合的命名实体消歧技术研究
面向海量文本的维吾尔文命名实体识别关键理论及技术研究
LINK SPAM技术的研究及相关算法在海量真实WEB数据上的有效性验证