Tibetan information processing is currently faced with the predicament of lack of basic corpus, the Internet provides us with a large number of Tibetan text resources, Which is an important source of the Tibetan corpus.In this program, first of all, we will exploit Tibetan text resource from the vast amounts of resources over the internet automatically, with web crawler and Tibetan automatic encoding recognition technology. Analyzing those resources, we will have a comprehensive understanding on the distribution, existence form of Tibetan text resource over the internet, and where and how they can be used in Tibetan natural language processing task. Second, we will build a Tibetan search engine, and effectively index those Tibetan Text resources. With it, we can check whether or not any Tibetan text resources meeting a predefined pattern exist on the internet. Then, we will make research on the automatic extracting technology of Tibetan news and articals, including their title, author, time, content and other information. The automatic detecting technology of Chinese-Tibetan parallel text is also one of our interesting. We will take advantage of the Tibetan search engine and Chines-Tibetan dictionary to realize it. In addition, applying all those technologies, we will build many Tibetan related corpora, such as Tibetan Webpage URL corpus, Tibetan web article corpus, Chinese-Tibetan parallel corpus, Tibetan web word (phrase) corpus. Tibetan word frequency statistics and language model will be made and trained over the large scale Tibetan text corpus. All these corpora and data can be used in many Tibetan natural language processing tasks as basic resources, which will promote the research of Tibetan information processing.
藏文信息处理目前面临着基础语料匮乏的困境,互联网为我们提供了大量的藏文文本资源,是藏文语料的一个重要来源。本项目将利用网络爬虫与藏文自动编码识别技术,自动从海量的互联网资源中挖掘藏文资源,并配合人工分析,考察藏文文本资源的分布情况和存在形式,发现有利用价值的藏文文本资源;我们将建立藏文搜索引擎原型系统,对互联网藏文资源进行有效索引,以便于挖掘包含预设模式的网络资源;将研究藏文网页的全自动篇章抽取技术和汉藏双语平行语料的自动发现技术,并自动采集藏文篇章语料和汉藏双语平行语料;本项目将建立藏文文本资源URL库、藏文篇章语料库、互联网藏文词(短语)库、汉藏双语平行语料库,并基于大规模藏文语料进行词频统计、训练藏文语言模型,为藏文信息处理的研究提供基础资源。
本项目使用互联网藏文文本资源挖掘系统对互联网上藏文文本资源的分布情况做了调查统计,并在互联网藏文文本资源的自动发现、挖掘、索引、加工、利用等方面开展了研究,取得了一系列卓有成效的成果。..截止到项目结题前后,互联网藏文文本资源挖掘系统和藏文搜索引擎系统共收录1003个藏文网站中的共计87.12万藏文网页。我们对其中的18个大型的藏文网站进行了深度抓取,从网页中抽取正文文本构建了藏文单语文本语料库,共包含网页文本36.09万文档,共计759.67万句、1.81亿音节字。我们研究了互联网汉藏平行语料的自动发现技术,从互联网整理加工了汉藏双语平行语料20.12万句对,与通过其他方式整理的语料一起,构成了汉藏双语平行语料库,目前共收录汉藏双语对照文本89.99万句对。..我们构建了藏文分词语料库,其中,第一部分语料共计约7.63万句,约98万词、123万音节字,平均每句包含约16.14个音节,平均每个词语包含1.26个音节。其中,口语类语料约6.17万句,占80.90%,书面语类语料约1.46万句,占19.10%。第二部分语料是中小学教材,共包含19907个藏文句子,除分词以外,还标注了词性。第三部分语料是以互联网语料为基础加工而成的,共包含52041个藏文句子,除分词以外,还标注了词性。第四部分语料是以2014年的西藏日报藏文版电子数据为基础构建,共包含10556篇文章,共计35.07万句,682.63万词次,837.37万音节字。..除了上述研究内容以外,我们还在藏语词频统计、语言模型技术、藏语文本国际音标自动转换、藏语复合词的词性自动预测、书面藏语形容词的分类、藏语音节的词性标注、基于藏语字性标准的词性预测、大粒度的汉藏双语短语对抽取、多策略融合的汉藏机器翻译、藏语句法树库、Zip文件解压缩方法、字形加粗方法、字形云服务等方面也开展了一系列的研究工作。..本项目共开发藏文文本挖掘系统、藏文搜索引擎、互联网藏文网页核心文本自动采集系统等3个基础系统,开发软件工具11个,申请软件著作权登记共5项。申请发明专利5项,其中获得授权1项。撰写专著1本,已经提交出版社出版。发表国内核心期刊论文6篇,高水平国际会议论文7篇,国内学术会议论文8篇。
{{i.achievement_title}}
数据更新时间:2023-05-31
环境信息披露会影响分析师盈余预测吗?
国际比较视野下我国开放政府数据的现状、问题与对策
水文水力学模型及其在洪水风险分析中的应用
基于体素化图卷积网络的三维点云目标检测方法
融合语义信息的汉老双语句子对其方法
基于藏文网络动态流通语料的语义文本分类技术研究
基于互联网的汉语-缅语双语平行语料抽取方法及语料库构建
基于Ontology的藏文语料库检索关键技术研究
医疗对话文本中的信息抽取关键技术研究