Ontology is an explicit formal specification of a shared conceptual model. English and Chinese semantic knowledge resources are rich.The applications are broad. Tibetan semantic resource is rare. It is imperative to speed up the pace of Tibetan semantic construction. The growth of Tibetan web pages is rapid. The technology of the semantic text categorization based on dynamic Tibetan network corpus can collect web data in real time, analysis and process web pages, provide the accurate classification result. It can make the relevant departments to master the status of dynamic web page quickly and make the correct guidance of public opinion. This project researches on the constructing technology of Tibetan classification ontology. Firstly, the key words of the classes are extracted from Tibetan classification corpus with information theory. Then based on the key words, semantic knowledge structure of Hownet, Tibetan and Chinese electronic dictionary, we construct the semantic conceptual hierarchy of class ontology and describe the relationships between concepts accurately. We study on the preprocessing technique of the dynamic Tibetan web corpus so that the important information will be extracted. We focus on the researches of semantic space mapping based on the ontology, the concept similarity computation and the weighted semantic similarity computation of texts, semantic classification algorithm. The research will improve the text classification accuracy and be helpful to solve the key technology of Tibetan classification ontology, Web semantic classification. It provides the effective support for the semantic level research on Tibetan information retrieval, machine translation.
语义本体是共享概念模型明确的形式化规范说明。英汉语义知识库资源丰富,应用广阔。藏文语义资源短缺,加快建设步伐势在必行。藏文网络资源增长迅速,基于藏文网络动态流通语料的语义文本分类技术可以实时采集网络数据,并进行实时数据分析和处理,提供精准的分类结果;同时可以使相关部门快速地掌握网页动态,并做出正确的舆论引导。本项目对藏语分类本体创建技术开展研究,首先采用信息论方法对藏语分类语料进行类别主题词抽取,基于主题词、Hownet语义知识结构、藏汉电子辞典释义创建分类本体的概念层次,准确描述概念间的关系;对藏文网络流通语料的实时预处理技术进行研究,自动地抽取重要信息;对基于本体的语义空间映射、概念相似度及加权语义网文本相似度计算、语义分类算法进行研究,提高文本分类精度。本课题有助于解决藏语本体分类体系创建、Web语义文本分类等关键技术问题,同时对开展藏语信息检索、机器翻译等语义层面研究提供有效支持。
国家大力支持西藏地区互联网的建设,这使得藏文网络资源增长迅速。藏族文化信息的和谐发展能够促进藏族地区的社会安定团结,从而成为藏族地区经济发展的重要保障。国内藏文信息处理领域缺乏较为完善的网络语义文本分类系统,本科题研究有助于促进藏文信息处理技术的发展。本课题对藏语分类本体的创建方法进行研究。借鉴 Hownet 的知识结构定义,对分类语义本体的存储及表示进行研究。基于领域主题词、Hownet、藏汉电子辞典、同义词林,对概念进行识别,并扩充到藏语分类本体中,将概念组织在树状的层次结构中,充分描述概念的内涵及概念间的联系。藏语语言学家及知识工程专家对分类本体进行校对、修改、扩充。对藏文网络语料进行实时下载,并进行网页信息抽取研究,提高自动处理能力。对语义文本分类研究。文本分类需要将文本数据映射到特征向量空间,高维向量空间的数据处理非常复杂,且效率低。基于藏语分类本体,对文本词特征空间到概念语义空间映射进行研究,有效地降低特征空间维数。提出语义相似度计算及语义文本分类算法。通过定制的爬虫对http://www.qhtb.cn(青海藏语广播网)、http://tb.chinatibetnews.com(中国西藏新闻网)等7家藏文网站进行爬取,共获取了123646篇html文件。经过预处理及去重后,得到102327篇XML文件,其中2014年到2016年9月的XML文件75897篇。2016年1月至2016年9月11日的XML文件26502个。构建2万词的藏语分类语义本体。通过文本语义分类实验,得出分类性能P,F,R值均为0.9以上,明显优于非语义KNN分类。本课题建立了藏语分类语义本体,丰富了藏语数字化资源库,缓解了藏语语义资源匮乏、数据稀疏的状态,为藏文的信息处理带来便利条件。研发藏文网络数据采集和预处理系统,及时高效地获取网页资源,为开展更深入的藏文数据分析奠定基础。充分利用本体中概念的语义关系,提出文本语义相似度算法及语义分类模型,大大提高藏语文本分类精度。本研究推动了藏文信息处理在网络信息时代的发展,为藏文话题追踪、舆情分析、邮件过滤、文本情感分类、机器翻译、信息检索等研究提供有效支持。本研究有助于藏文网络的舆情监测,使相关部门及时掌握网页动态并对群众做出正确的舆论引导。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据
多源数据驱动CNN-GRU模型的公交客流量分类预测
混采地震数据高效高精度分离处理方法研究进展
互联网藏文文本资源挖掘及语料抽取关键技术研究
基于Ontology的藏文语料库检索关键技术研究
基于网络文本语义的信息隐藏方法研究
基于认知机理和语义层次的文本分类方法研究