WEB智能搜索中的文本内容信任判定方法研究

基本信息
批准号:60970155
项目类别:联合基金项目
资助金额:30.00
负责人:曾国荪
学科分类:
依托单位:同济大学
批准年份:2009
结题年份:2012
起止时间:2010-01-01 - 2012-12-31
项目状态: 已结题
项目参与者:汪海航,陈波,李文波,王伟,李莉,鲍宇,程柏良,夏冬梅,许金超
关键词:
信息文本信任判定内容信任Web搜索信任语义
结项摘要

互联网中,海量Web信息自由开放,真假有益危害信息混杂一起。Web搜索时,回显信息多、有用知识少、内容不可信。因此,解决Web"内容信任"问题是一项紧迫工作。本项目以Web文本为对象,开展Web智能搜索中文本内容信任判定方法研究。从广泛社会信任现象中获得启示,研究蕴涵在信息文本中的信任素材,构建信任基因库;提炼内容信任的高级形式:信任事实、信任证据、信任模式、信任关系链等,并给出形式化定义;探索基于摘要的内容信任定性感知规则;通过信任事实发现、证据推演、模式识别、关系传播,研究机器理解和全面获取信任语义的原理;建立信任语义网络,量化信任特征向量,提出信任度的非线性计算模型;针对纯文本、复合、链接文本等,给出Web文本的内容信任判定方法;设计一个信任语义驱动的元搜索引擎作为应用示范,并进行用户满意度统计验证。可见,该方法能改善Web搜索质量,提高信息查准率,对有效使用网络信息资源有意义!

项目摘要

互联网中,海量Web信息自由开放,真假有益危害信息混杂一起。Web搜索时,回显信息多、有用知识少、内容不可信。因此,解决Web“内容信任”问题是一项紧迫工作。本项目以Web文本为对象,开展了Web智能搜索中文本内容信任判定方法的研究。从广泛社会信任现象中获得启示,分析搜集了蕴含在信息文档中的信任素材,给出了信任素材的原子性、完备性及信任语义的定义,构建了一个可扩展的信任“基因”本体库,中文英文总信任素材达到15000条。在信任素材的基础上分析多维信任特征,提炼出内容信任的若干高级形式:信任事实、信任证据、信任模式、信任关系链等,并给出了相应的形式化定义。为了快速和定性判断文本内容的可信度,将信息文本视为单一整体,过滤和屏蔽非信任因素,给出了一个信息文本的信任摘要自动提取算法,实现了内容信任的简约感知。为了准确和自动判定文本内容的可信度,采用机器学习的智能化识别手段,提出了基于向量空间模型的信息文本信任属性抽取方法;构造了信任事实提取过程的状态转移自动机,给出了信任事实的发现方法;给出了信任证据的合成、信任证据真实性的计算规则、以及信任证据的多源求证理论;提炼了结构文本多种结构模式:存在模式、一致性模式、顺序模式、格式模式、符号模式、关联句模式和成分模式等,给出了结构信任模式的分析检测算法。为了提高内容信任计算和判断精确度,确保信任事实、信任证据、信任模式等相互作用的合理性、有效性,构造了刻画信息文本的信任语义网络模型,以此反映各信任特征与最终信任度之间存在的复杂、组合、非线性关系,并且综合考虑信任属性、事实、证据等联合信任特征,设计了基于Bayesian网络的内容信任评价统一模型和算法。以Web文本为对象和整体,设计了纯文本信息的信任度计算流程,给出了基于信任模式验证的Web 文本可信度计算方法,给出了基于描述逻辑的信息文本可信评估方法,给出了信息文本不可信因素反向判断方法,给出了含有外部文本链接的Web 文本可信度的递归计算方法,最终实现了Web文本信任度的智能判断。将本项目提出的文本内容信任判定方法应用到Web智能搜索中,并且结合最优选择停止理论过滤不可信搜索返回结果,设计和实现了一个内容信任语义驱动的元搜索引擎作为应用示范,并进行了用户搜索满意度统计比较,结果表明该方法能有效改善Web搜索质量,提高信息查准率,对有效使用网络信息资源有重要的现实意义!

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
2

中外学术论文与期刊的宏观差距分析及改进建议

中外学术论文与期刊的宏观差距分析及改进建议

DOI:
发表时间:2021
3

环境信息披露会影响分析师盈余预测吗?

环境信息披露会影响分析师盈余预测吗?

DOI:
发表时间:2017
4

基于关系对齐的汉语虚词抽象语义表示与分析

基于关系对齐的汉语虚词抽象语义表示与分析

DOI:
发表时间:2020
5

国际比较视野下我国开放政府数据的现状、问题与对策

国际比较视野下我国开放政府数据的现状、问题与对策

DOI:
发表时间:2016

曾国荪的其他基金

批准号:90718015
批准年份:2007
资助金额:50.00
项目类别:重大研究计划
批准号:60173026
批准年份:2001
资助金额:18.00
项目类别:面上项目
批准号:60673157
批准年份:2006
资助金额:8.00
项目类别:面上项目

相似国自然基金

1

内容语义感知的Web文本可信鉴别与求证方法

批准号:61103068
批准年份:2011
负责人:王伟
学科分类:F0211
资助金额:22.00
项目类别:青年科学基金项目
2

网络文本内容安全智能关联分析与监测方法研究

批准号:70471064
批准年份:2004
负责人:赵燕平
学科分类:G0110
资助金额:16.00
项目类别:面上项目
3

基于文本和Web语义分析的智能咨询服务研究

批准号:71673209
批准年份:2016
负责人:唐晓波
学科分类:G0414
资助金额:50.00
项目类别:面上项目
4

自然场景中多模态图像内容的文本描述方法研究

批准号:61772505
批准年份:2017
负责人:马龙龙
学科分类:F0211
资助金额:61.00
项目类别:面上项目