随着网络信息的迅速膨胀,准确性、个性化成为新一代搜索引擎的重要目标。虽然分类搜索能够比通用搜索获得更高的准确性,但受限于分类搜索构建需要过多人工干预,构建成本高、类别体系难以灵活设置,领域覆盖率也较低,难以满足用户多样化的分类系、较高的检索召回率等需求。为此,项目提出了网络信息的自主整合方法,首先通过对用户个性化分类体系的描述,借助互联网来自主构建每个类别的标准语料库,解决信息源查找与验证等关键问题,改进现有特征选择与半监督学习方法,完成分类器的自动训练,并将所得到的分类器用于网络信息的自动分类整合。通过网络信息自主整合,不仅能够降低专业搜索引擎的构建成本,提高分类体系设定的灵活性,同时更能用于完成对现有通用搜索引擎的海量信息进行分类整理,提高其检索精度。项目的实施为解决当前信息检索系统所面临的关键问题做出有益探索,并为本体构建、语义计算、文本聚类与分类等领域的研究与应用起到积极促进作用。
当前文本分类应用受限于分类搜索构建需要过多人工干预,构建成本高、类别体系难以灵活设置,领域覆盖率也较低,难以满足用户多样化的分类系、较高的检索召回率等需求,为此,提出了本项目。 我们的主要研究内容包括4部分:1.基于Web的分类语料库自动构建与分类方法研究。首先研究了基于网页结构的文本分类语料库自动构建方法。该方法利用丰富的网络资源,借助网页结构、内容和链接关系,并基于聚类的无监督标准语料库过滤。实验表明基该方法能够达到73.73%的准确率;同时,我们分别对有监督文本宏特征抽取方法、文本宏特征融合方法、基于排序学习的质心向量的文本分类方法开展了研究,并提出了一个基于排序学习的质心向量的分类方法统一框架,在这个框架下将分类问题转化为排序问题,使基于质心的方法在性能上都较传统方法有了较大提升。2.基于微博的网络信息自主整合关键技术研究。项目组研究了通过微博来构建大规模生成式短文本文摘数据库,所构建的百万级短文本文摘语料库LCSTS已经有国内外12家著名研究机构的研究人员申请使用。除了自动语料库的构建,我们还先后研究了基于LSTM的短文本摘要生成方法、多层次特征融合的短文本匹配方法、微博客中的知识条目自动发现方法以及基于微博客中的知识条目发现方法以及基于微博的知识词条推荐算法。为大规模短文本信息的整合与利用提供了有益探索。3.基于深度学习的大规模文本处理技术研究。结合课题组前期的研究工作,我们探索了基于动名分离的词向量表示学习方法、基于CNN的短文本语义匹配方法,以及基于所构建的大规模短文本文摘库,探索了基于LSTM的短文本摘要生成方法。这些成果已经成功发表并吸引了国内外自然语言处理学者的广泛关注。4.医疗文本处理技术研究。我们和项目合作方在医疗文本处理领域开展了一系列研究并取得了良好成果,包括在2014年度国际i2b2医疗文本评测的临床医疗(无结构)文本的心脏病风险因子实体的自动抽取方法中获得国际第2、国内第1的成果,在医疗实体抽取研究上,我们在参加的国际评测BioCreative V CDR Task中取得了第一名。并基于已有研究成果,构建了一个基于互联网医学信息和医院病历信息相结合的医疗检索系统。综上,本课按照项目计划的研究方向和内容开展了较为深入的研究工作,共发表了重要国际期刊和会议在内的论文23篇;培养了博士生3人,硕士14人,申请了发明专利3项;项目按计划完成
{{i.achievement_title}}
数据更新时间:2023-05-31
主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
滚动直线导轨副静刚度试验装置设计
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
一种改进的多目标正余弦优化算法
自主分布式网络存储关键技术研究
面向社会网络信息传播的网络重构关键技术研究
网络信息的话题挖掘和分析关键技术研究
空间信息网络协议体系关键技术研究