支持中文WEB研究的基础设施建设和应用中的基本方法与关键技术

基本信息
批准号:60833003
项目类别:联合基金项目
资助金额:190.00
负责人:周立柱
学科分类:
依托单位:清华大学
批准年份:2008
结题年份:2012
起止时间:2009-01-01 - 2012-12-31
项目状态: 已结题
项目参与者:钱卫宁,王建勇,丁建国,罗迒哉,张召,鲍钰,贺宇凯,张宇宙,林玲
关键词:
Web数据挖掘海量数据处理Web基础设施
结项摘要

Web已全面渗透到人们的工作生活之中。研究中文Web、开发新型的互联网服务对建设健康的网络文化,促进社会和经济和谐发展有着重要的意义。当前,在技术层面上这一任务所面临的突出矛盾在于:(1)难以从Web中提取为应用服务的真实全面的Web数据集;(2)缺乏为应用服务、对抽取数据进行访问与分析的工具;而构建公共可用的中文Web基础设施则是解决这一矛盾的根本途径。本项目站在这一高度,拟从中文Web数据的收集和组织、存储和访问、综合和分析等三个方面,研究构建中文Web基础设施所急需的基本方法和关键技术。基本思路是:(1)从新闻分析、广告关键词竞标以及对偶文本资源库等应用着手进行需求分析,重点解决Web数据的智能抽取和整理、海量Web数据的分布存储、索引的有效访问方法等关键技术,取得创新性成果。(2)构建中文Web工具集,通过应用示范其有效性,为中文Web挖掘和创新性互联网服务提供开放式支持。

项目摘要

研究中文Web、开发新型的互联网服务在技术上所面临的主要问题来自两个方面,首先是从数据上难以提取面向应用领域的真实全面的Web 数据集;其次在在实验上缺乏为应用领域服务、对抽取数据进行访问与分析的工具。而构建公共可用的中文Web基础设施,解决其中的关键技术则是解决这两大难题的有效途径。为了解决这两大难题,项目组从中文Web数据的收集和组织,中文Web数据的存储和访问,中文Web数据的综合和分析,以及示范性应用等四个方面,研究构建中文Web基础设施所需的基本方法和关键技术,经过四年的努力取得了以下创新性研究成果:.1.中文Web 数据的收集和组织 系统研究了海量Web 2.0数据的收集、整理,以及管理问题。收集了超过5TB的社交媒体数据,提出了基于外部资源的语义实体提取方法,定义了社交媒体上的信息传播预测问题和19类分析型查询。有效地支持了集群行为研究。研究了中英文双语网页的抓取方法,收集整理了100亿的中英文双语网页建立对偶文本资源库用于构建双语词典。研究了中文深度万维网的发现问题,从国内网站的首页上抓取了70多万个深度万维网数据库,进行了分类等研究。社交媒体数据方面的成果获得了DASFAA 2011 Best Demo Award Runner-Up和SocInfo 2011 Best Poster奖励,还组织了WISE 2012 国际学术会议的Challenge竞赛。.2.中文Web 数据的存储和访问 针对海量Web数据的分布式存储和并行查询问题,提出了允许重叠的大规模图的划分技术、基于星型结构的图数据索引技术,以及分布式环境下的连接处理和物化视图维护技术,相关研究结果发表在WWWJ、CloudDB等国际学术期刊和学术会议上。.3.中文Web 数据的综合和分析 针对社交网络、实体识别等重大应用,提出了一系列算法。代表性的工作包括:基于动态临近性计算的大规模社会网络社区发现算法(发表在SIGKDD’09上,已被引用31次);基于星型结构的近似图编辑距离计算算法(发表在VLDB’09上,已被引用35次);面向Web人名搜索和Web文献检索的名字消岐算法GRAPE和GHOST(分别发表于ICDM’09和ACM JDIQ期刊,已被引用21次);面向非结构化数据和结构化数据的实体链接算法LINDEN和LIEGE、实体语义关系抽取算法REACTOR,以及本体扩展算法APOL

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

中外学术论文与期刊的宏观差距分析及改进建议

中外学术论文与期刊的宏观差距分析及改进建议

DOI:
发表时间:2021
3

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

DOI:10.12202/j.0476-0301.2020285
发表时间:2021
4

多源数据驱动CNN-GRU模型的公交客流量分类预测

多源数据驱动CNN-GRU模型的公交客流量分类预测

DOI:10.19818/j.cnki.1671-1637.2021.05.022
发表时间:2021
5

混采地震数据高效高精度分离处理方法研究进展

混采地震数据高效高精度分离处理方法研究进展

DOI:10.3969/j.issn.1000-1441.2020.05.004
发表时间:2020

周立柱的其他基金

批准号:69473009
批准年份:1994
资助金额:8.00
项目类别:面上项目
批准号:61272090
批准年份:2012
资助金额:84.00
项目类别:面上项目
批准号:69773027
批准年份:1997
资助金额:11.00
项目类别:面上项目

相似国自然基金

1

时空专题语义Web建设方法与技术研究

批准号:60773215
批准年份:2007
负责人:胡鹤
学科分类:F0204
资助金额:24.00
项目类别:面上项目
2

Web搜索与挖掘的新理论和新方法—支持舆情监控的Web搜索与挖掘的理论与方法研究

批准号:60933005
批准年份:2009
负责人:方滨兴
学科分类:F0210
资助金额:200.00
项目类别:重点项目
3

现代管理科学的理论和方法及其在基本建设管理中的应用

批准号:78670020
批准年份:1986
负责人:李维铮
学科分类:G0107
资助金额:1.50
项目类别:面上项目
4

“中文数学数字图书馆”建设与研究

批准号:A0424617
批准年份:2004
负责人:冯克勤
学科分类:A0505
资助金额:10.00
项目类别:专项基金项目