关键词抽取与社会标签推荐相结合的中文文本主题词自动标注方法研究

基本信息
批准号:61170196
项目类别:面上项目
资助金额:60.00
负责人:孙茂松
学科分类:
依托单位:清华大学
批准年份:2011
结题年份:2015
起止时间:2012-01-01 - 2015-12-31
项目状态: 已结题
项目参与者:刘知远,张开旭,郑亚斌,张燕,杨麟儿,谢丽星,王璨
关键词:
中文信息处理信息检索主题词自动标注关键词抽取关键词分配
结项摘要

主题词是人们快速了解文本内容、把握其主题的重要方式之一。文本主题词标注已广泛应用于搜索引擎、新闻服务、电子图书馆等领域,具有重要的科学意义和广泛的应用价值。本项目将进行以下几方面的研究:构建面向典型应用的大规模Web主题词标注语料库;研究适合中文主题词标注的词语边界和粒度确定方法;研究关键词抽取和关键词分配相结合的主题词标注方法;研究在社会标签推荐中充分引入标签之间关系的方法;研究适合中文社会标签系统特点的动力学模型和演化模式分析模型;研究综合考虑主题词粒度、边界和演化等特性,能够与时间基本同步的中文主题词自动标注方法及系统,并在热点事件跟踪、用户兴趣发现等典型任务上验证其有效性。本项目预期成果将大大丰富和深化中文主题词自动标注的研究,在相关计算方法和技术上实现一次跃迁,对Web规模的信息组织与检索乃至网络时代的中文信息处理研究具有重要意义。

项目摘要

主题词是人们快速了解文本内容、把握其主题的重要方式之一。文本主题词标注已广泛应用于搜索引擎、新闻服务、电子图书馆等领域,具有重要的科学意义和广泛的应用价值。本项目面向互联网场景的主题词自动标注问题,着重开展了以下几方面的研究:.(1)构建面向典型应用的大规模主题词标注语料库,研究适合中文主题词标注的词语边界和粒度确定方法,研究在社会标签推荐中充分引入标签之间关系的方法,面向社会媒体用户、政府工作报告等场景,提出一系列有效的主题词标注算法,整理开源了THULAC中文词法分析工具包,THUTag关键词抽取与社会标签推荐工具包。.(2)吸收深度学习与表示学习的最新研究成果,研究适用于关键词和社会标签的表示学习模型,充分利用维基百科等在线知识库信息,研究综合考虑主题词粒度、边界和演化等特性,能够与时间基本同步的中文主题词自动标注方法及系统。.(3)在热点事件跟踪、用户兴趣发现等典型任务上验证本项目成果的有效性,成功用于社会媒体用户、政府工作报告等的主题词分析,在新浪微博等国内著名社交媒体上开发微博关键词应用,根据用户发表微博抽取反映其兴趣的主题词,截至目前已经获得超过350万注册用户,获得较为广泛的社会反响。.本项目在上述研究方面均取得了很有价值的研究结果。已经发表和录用的相关学术论文共23篇(国际期刊论文1篇,国内期刊论文6篇,国际会议论文11篇,全国性学术会议论文5篇),其中包括中国计算机学会A类会议论文(人工智能领域顶级会议IJCAI和AAAI)5篇,B类会议/期刊论文5篇(主要为EMNLP和COLING,均属于自然语言处理领域顶级国际会议),并有多项发明专利正在申请,圆满完成了本项目提出的研究目标。.在人才培养方面,参加本项目的研究人员中,研究生已有8名毕业(获得博士学位4人,硕士学位4人)。另有9名博士生、3名硕士生在读。.总之,本项目按照项目任务书上的研究内容和年度计划开展研究工作,完成了项目申请书上规定的各项研究任务,同时进行了必要的研究扩展。本项目的研究成果对中文主题词自动标注研究以及相关应用具有重要的参考价值。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

DOI:
发表时间:
2

信息熵-保真度联合度量函数的单幅图像去雾方法

信息熵-保真度联合度量函数的单幅图像去雾方法

DOI:10.3724/SP.J.1089.2019.17435
发表时间:2019
3

扶贫资源输入对贫困地区分配公平的影响

扶贫资源输入对贫困地区分配公平的影响

DOI:
发表时间:2020
4

高分五号卫星多角度偏振相机最优化估计反演:角度依赖与后验误差分析

高分五号卫星多角度偏振相机最优化估计反演:角度依赖与后验误差分析

DOI:10.7498/aps.68.20181682
发表时间:2019
5

长白山苔原带土壤温度与肥力随海拔的变化特征

长白山苔原带土壤温度与肥力随海拔的变化特征

DOI:
发表时间:2018

孙茂松的其他基金

批准号:60940025
批准年份:2009
资助金额:20.00
项目类别:专项基金项目
批准号:60573187
批准年份:2005
资助金额:26.00
项目类别:面上项目
批准号:69705005
批准年份:1997
资助金额:12.00
项目类别:青年科学基金项目
批准号:60873174
批准年份:2008
资助金额:32.00
项目类别:面上项目
批准号:60083005
批准年份:2000
资助金额:13.00
项目类别:专项基金项目

相似国自然基金

1

基于社会标签的图像标注与标签推荐

批准号:61272329
批准年份:2012
负责人:刘静
学科分类:F0210
资助金额:80.00
项目类别:面上项目
2

文本中信息的自动抽取方法研究

批准号:69375016
批准年份:1993
负责人:张永奎
学科分类:F03
资助金额:6.00
项目类别:面上项目
3

中文网络文本的地理实体语义关系标注与评价

批准号:41801320
批准年份:2018
负责人:余丽
学科分类:D0114
资助金额:23.40
项目类别:青年科学基金项目
4

无人工标注全自动文本检索评价方法研究

批准号:60776797
批准年份:2007
负责人:王斌
学科分类:F0211
资助金额:26.00
项目类别:联合基金项目