互联网藏文文本资源挖掘及语料抽取关键技术研究

基本信息

批准号：61202219

项目类别：青年科学基金项目

资助金额：23.00

负责人：刘汇丹

学科分类：

依托单位：中国科学院软件研究所

批准年份：2012

结题年份：2015

起止时间：2013-01-01 - 2015-12-31

项目状态：已结题

项目参与者：当周才让,诺明花,张立强,洪锦玲,王震,高墨赤

关键词：

藏文藏文分词信息检索语料库信息抽取

结项摘要

Tibetan information processing is currently faced with the predicament of lack of basic corpus, the Internet provides us with a large number of Tibetan text resources, Which is an important source of the Tibetan corpus.In this program, first of all, we will exploit Tibetan text resource from the vast amounts of resources over the internet automatically, with web crawler and Tibetan automatic encoding recognition technology. Analyzing those resources, we will have a comprehensive understanding on the distribution, existence form of Tibetan text resource over the internet, and where and how they can be used in Tibetan natural language processing task. Second, we will build a Tibetan search engine, and effectively index those Tibetan Text resources. With it, we can check whether or not any Tibetan text resources meeting a predefined pattern exist on the internet. Then, we will make research on the automatic extracting technology of Tibetan news and articals, including their title, author, time, content and other information. The automatic detecting technology of Chinese-Tibetan parallel text is also one of our interesting. We will take advantage of the Tibetan search engine and Chines-Tibetan dictionary to realize it. In addition, applying all those technologies, we will build many Tibetan related corpora, such as Tibetan Webpage URL corpus, Tibetan web article corpus, Chinese-Tibetan parallel corpus, Tibetan web word (phrase) corpus. Tibetan word frequency statistics and language model will be made and trained over the large scale Tibetan text corpus. All these corpora and data can be used in many Tibetan natural language processing tasks as basic resources, which will promote the research of Tibetan information processing.

藏文信息处理目前面临着基础语料匮乏的困境，互联网为我们提供了大量的藏文文本资源，是藏文语料的一个重要来源。本项目将利用网络爬虫与藏文自动编码识别技术，自动从海量的互联网资源中挖掘藏文资源，并配合人工分析，考察藏文文本资源的分布情况和存在形式，发现有利用价值的藏文文本资源；我们将建立藏文搜索引擎原型系统，对互联网藏文资源进行有效索引，以便于挖掘包含预设模式的网络资源；将研究藏文网页的全自动篇章抽取技术和汉藏双语平行语料的自动发现技术，并自动采集藏文篇章语料和汉藏双语平行语料；本项目将建立藏文文本资源URL库、藏文篇章语料库、互联网藏文词（短语）库、汉藏双语平行语料库，并基于大规模藏文语料进行词频统计、训练藏文语言模型，为藏文信息处理的研究提供基础资源。

项目摘要

本项目使用互联网藏文文本资源挖掘系统对互联网上藏文文本资源的分布情况做了调查统计，并在互联网藏文文本资源的自动发现、挖掘、索引、加工、利用等方面开展了研究，取得了一系列卓有成效的成果。..截止到项目结题前后，互联网藏文文本资源挖掘系统和藏文搜索引擎系统共收录1003个藏文网站中的共计87.12万藏文网页。我们对其中的18个大型的藏文网站进行了深度抓取，从网页中抽取正文文本构建了藏文单语文本语料库，共包含网页文本36.09万文档，共计759.67万句、1.81亿音节字。我们研究了互联网汉藏平行语料的自动发现技术，从互联网整理加工了汉藏双语平行语料20.12万句对，与通过其他方式整理的语料一起，构成了汉藏双语平行语料库，目前共收录汉藏双语对照文本89.99万句对。..我们构建了藏文分词语料库，其中，第一部分语料共计约7.63万句，约98万词、123万音节字，平均每句包含约16.14个音节，平均每个词语包含1.26个音节。其中，口语类语料约6.17万句，占80.90%，书面语类语料约1.46万句，占19.10%。第二部分语料是中小学教材，共包含19907个藏文句子，除分词以外，还标注了词性。第三部分语料是以互联网语料为基础加工而成的，共包含52041个藏文句子，除分词以外，还标注了词性。第四部分语料是以2014年的西藏日报藏文版电子数据为基础构建，共包含10556篇文章，共计35.07万句，682.63万词次，837.37万音节字。..除了上述研究内容以外，我们还在藏语词频统计、语言模型技术、藏语文本国际音标自动转换、藏语复合词的词性自动预测、书面藏语形容词的分类、藏语音节的词性标注、基于藏语字性标准的词性预测、大粒度的汉藏双语短语对抽取、多策略融合的汉藏机器翻译、藏语句法树库、Zip文件解压缩方法、字形加粗方法、字形云服务等方面也开展了一系列的研究工作。..本项目共开发藏文文本挖掘系统、藏文搜索引擎、互联网藏文网页核心文本自动采集系统等3个基础系统，开发软件工具11个，申请软件著作权登记共5项。申请发明专利5项，其中获得授权1项。撰写专著1本，已经提交出版社出版。发表国内核心期刊论文6篇，高水平国际会议论文7篇，国内学术会议论文8篇。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：

DOI：10.3724/SP.J.1089.2019.17435

发表时间：2019

DOI：10.7498/aps.68.20181682

发表时间：2019

DOI：10.11936/bjutxb2021010011

发表时间：2021

DOI：10.7544/issn1000-1239.2019.20190386

发表时间：2019

刘汇丹的其他基金

相似国自然基金

基于藏文网络动态流通语料的语义文本分类技术研究

批准号：61309012

批准年份：2013

负责人：胥桂仙

学科分类：F0211

资助金额：22.00

项目类别：青年科学基金项目

基于互联网的汉语-缅语双语平行语料抽取方法及语料库构建

批准号：61662041

批准年份：2016

负责人：毛存礼

学科分类：F0211

资助金额：40.00

项目类别：地区科学基金项目

基于Ontology的藏文语料库检索关键技术研究

批准号：61262053

批准年份：2012

负责人：多拉

学科分类：F0211

资助金额：45.00

项目类别：地区科学基金项目

医疗对话文本中的信息抽取关键技术研究

批准号：61906196

批准年份：2019

负责人：张元哲

学科分类：F0606

资助金额：25.00

项目类别：青年科学基金项目

互联网藏文文本资源挖掘及语料抽取关键技术研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

信息熵-保真度联合度量函数的单幅图像去雾方法

高分五号卫星多角度偏振相机最优化估计反演:角度依赖与后验误差分析

城市生活垃圾热值的特征变量选择方法及预测建模

基于卷积神经网络的JPEG图像隐写分析参照图像生成方法

刘汇丹的其他基金

相似国自然基金