According to the present condition of Chinese-English parallel corpus without deeply tagging, the syntactic level Chinese-English parallel corpus of humanities and social science is constructed based on Chinese and English syntactic function knowledge base and syntactic function matching algorithms, and the researches for the Chinese-English parallel terms and category knowledge mining are taken based on the corpus. The main researches content of the project are as follows: calculating the part of speech of Chinese and English keywords based on the part of speech distribution orientation of keywords from CSSCI;constructing the syntactic function knowledge base based on Tsinghua Chinese treebank and Penn English treebank;constructing the Chinese and English parser based on generation, disambiguation, optimization and error recovery of syntactic trees;designing the tool of auxiliarily correcting the syntactic trees and finishing correcting the syntactic trees;mining the terms and category knowledge based on the distribution of syntactic structures.The project will help the idea of syntactic function matching and the theory of syntactic tree construction and linguistics to enrich,construct and research and directly promote the researches of knowledge service, cross-language information retrieval, semantic web, ontology and machine translation.
针对目前汉英平行语料标注不深入的现状,本课题基于汉英句法功能知识库和句法功能匹配算法,构建人文社会科学句法级汉英平行语料库,并基于该语料库进行术语和类别知识挖掘的探究。本课题的主要研究内容:基于CSSCI关键词的词性分布倾向性计算汉英关键词的词性;在清华汉语树库和宾州英语树库的基础上,构建汉英句法功能知识库;通过汉英句法树的生成、消歧、优化和错误恢复,构建自动句法分析器;开发句法树辅助校正工具,并完成对汉英句法树的校正;基于句法结构的分布,挖掘术语和类别知识。本课题不仅有助于句法功能匹配理念、句法树构建理论、语言学理论的丰富、建立和研究,而且对知识服务、跨语言检索、语义网和本体、机器翻译等研究具有直接的促进作用。
在非结构化文本挖掘的大趋势下,围绕着句法级汉英平行语料库的构建,本项目主要完成了语料的获取及汉英平行语料库的构建、语料标注模型的开发、句法分析器的设计和基于深层次标注语料的应用探究等四个方面的研究。首先,基于CSSCI、CNKI、维普和万方,开发了语料抓取工具并构建了汉英平行语料库。其次,基于条件随机场,开发了汉语多特征自动分词模型、汉英一体化词性标注模型,前者汉语的最高调和平均值达到了97.23%,后者汉英的最高调和平均值达到了90.34%。再次,在完成短语句法结构调整的基础上,本项目构建了词汇和短语的句法功能数据库、开发了句法功能标注和短语结构边界识别的模型。在上述已有数据资源的基础上,开发了面向人文社会科学汉英语料的句法分析器。最后,在句法标注的汉英语料上,本项目揭示了词汇分布的洛特卡现象、基于句法层面的知识完成了对汉英对照术语和类别知识的抽取与挖掘。本研究一方面有助于信息检索、机器翻译和辅助机器翻译等研究的开展另一方面有益于语言学理论和信息计量学的拓展。针对上述具体的探究,本项目撰写并发表了SSCI和CSSCI检索的学术论文7篇,出版专著一部并获得省部级奖项一项。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于细粒度词表示的命名实体识别研究
桂林岩溶石山青冈群落植物功能性状的种间和种内变异研究
服务经济时代新动能将由技术和服务共同驱动
卡斯特“网络社会理论”对于人文地理学的知识贡献-基于中外引文内容的分析与对比
山核桃赤霉素氧化酶基因CcGA3ox 的克隆和功能分析
基于典籍引得的句法级汉英平行语料库构建及人文计算研究
汉英平行语料库翻译知识提取系统研究-自动提取术语、术语搭配及词组块
赣方言篇章平行语料库构建及计算模型研究
基于Web的大规模双语语料库挖掘及翻译知识自动获取