网络信息自主整合关键技术研究

基本信息

批准号：61173075

项目类别：面上项目

资助金额：56.00

负责人：陈清财

学科分类：

依托单位：哈尔滨工业大学

批准年份：2011

结题年份：2015

起止时间：2012-01-01 - 2015-12-31

项目状态：已结题

项目参与者：王轩,董琨,张耀允,周树森,郭鸿志,孙彬彬,白晓华,陈毅,于昺洋

关键词：

半监督学习自主整合信息检索垂直搜索文本分类

结项摘要

随着网络信息的迅速膨胀，准确性、个性化成为新一代搜索引擎的重要目标。虽然分类搜索能够比通用搜索获得更高的准确性，但受限于分类搜索构建需要过多人工干预，构建成本高、类别体系难以灵活设置，领域覆盖率也较低，难以满足用户多样化的分类系、较高的检索召回率等需求。为此，项目提出了网络信息的自主整合方法，首先通过对用户个性化分类体系的描述，借助互联网来自主构建每个类别的标准语料库，解决信息源查找与验证等关键问题，改进现有特征选择与半监督学习方法，完成分类器的自动训练，并将所得到的分类器用于网络信息的自动分类整合。通过网络信息自主整合，不仅能够降低专业搜索引擎的构建成本，提高分类体系设定的灵活性，同时更能用于完成对现有通用搜索引擎的海量信息进行分类整理，提高其检索精度。项目的实施为解决当前信息检索系统所面临的关键问题做出有益探索，并为本体构建、语义计算、文本聚类与分类等领域的研究与应用起到积极促进作用。

项目摘要

当前文本分类应用受限于分类搜索构建需要过多人工干预，构建成本高、类别体系难以灵活设置，领域覆盖率也较低，难以满足用户多样化的分类系、较高的检索召回率等需求，为此，提出了本项目。我们的主要研究内容包括4部分：1.基于Web的分类语料库自动构建与分类方法研究。首先研究了基于网页结构的文本分类语料库自动构建方法。该方法利用丰富的网络资源，借助网页结构、内容和链接关系，并基于聚类的无监督标准语料库过滤。实验表明基该方法能够达到73.73%的准确率；同时，我们分别对有监督文本宏特征抽取方法、文本宏特征融合方法、基于排序学习的质心向量的文本分类方法开展了研究，并提出了一个基于排序学习的质心向量的分类方法统一框架，在这个框架下将分类问题转化为排序问题，使基于质心的方法在性能上都较传统方法有了较大提升。2.基于微博的网络信息自主整合关键技术研究。项目组研究了通过微博来构建大规模生成式短文本文摘数据库，所构建的百万级短文本文摘语料库LCSTS已经有国内外12家著名研究机构的研究人员申请使用。除了自动语料库的构建，我们还先后研究了基于LSTM的短文本摘要生成方法、多层次特征融合的短文本匹配方法、微博客中的知识条目自动发现方法以及基于微博客中的知识条目发现方法以及基于微博的知识词条推荐算法。为大规模短文本信息的整合与利用提供了有益探索。3.基于深度学习的大规模文本处理技术研究。结合课题组前期的研究工作，我们探索了基于动名分离的词向量表示学习方法、基于CNN的短文本语义匹配方法，以及基于所构建的大规模短文本文摘库，探索了基于LSTM的短文本摘要生成方法。这些成果已经成功发表并吸引了国内外自然语言处理学者的广泛关注。4.医疗文本处理技术研究。我们和项目合作方在医疗文本处理领域开展了一系列研究并取得了良好成果，包括在2014年度国际i2b2医疗文本评测的临床医疗（无结构）文本的心脏病风险因子实体的自动抽取方法中获得国际第2、国内第1的成果，在医疗实体抽取研究上，我们在参加的国际评测BioCreative V CDR Task中取得了第一名。并基于已有研究成果，构建了一个基于互联网医学信息和医院病历信息相结合的医疗检索系统。综上，本课按照项目计划的研究方向和内容开展了较为深入的研究工作，共发表了重要国际期刊和会议在内的论文23篇；培养了博士生3人，硕士14人，申请了发明专利3项；项目按计划完成

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：

DOI：10.19328/j.cnki.2096-8655.2022.02.002

发表时间：2022

DOI：10.3724/SP.J.1089.2019.17435

发表时间：2019

DOI：10.1360/SSM-2020-0035

发表时间：2020

DOI：10.7498/aps.68.20181682

发表时间：2019

陈清财的其他基金

批准号：60703015

批准年份：2007

资助金额：20.00

项目类别：青年科学基金项目

批准号：61872113

批准年份：2018

资助金额：64.00

项目类别：面上项目

批准号：61473101

批准年份：2014

资助金额：80.00

项目类别：面上项目

相似国自然基金

自主分布式网络存储关键技术研究

批准号：60473101

批准年份：2004

负责人：舒继武

学科分类：F0204

资助金额：23.00

项目类别：面上项目

面向社会网络信息传播的网络重构关键技术研究

批准号：61572041

批准年份：2015

负责人：宋国杰

学科分类：F0202

资助金额：65.00

项目类别：面上项目

网络信息的话题挖掘和分析关键技术研究

批准号：60873097

批准年份：2008

负责人：王挺

学科分类：F0211

资助金额：38.00

项目类别：面上项目

空间信息网络协议体系关键技术研究

批准号：91338108

批准年份：2013

负责人：晏坚

学科分类：F0106

资助金额：80.00

项目类别：重大研究计划

网络信息自主整合关键技术研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

"多对多"模式下GEO卫星在轨加注任务规划

信息熵-保真度联合度量函数的单幅图像去雾方法

现代优化理论与应用

高分五号卫星多角度偏振相机最优化估计反演:角度依赖与后验误差分析

陈清财的其他基金

异构信息互动模型中的关键技术研究

基于多模态融合的语义表示学习方法

构式语法的计算模型研究

相似国自然基金