基于海量语料自然标注信息的汉语自然语块分析

基本信息
批准号:61300081
项目类别:青年科学基金项目
资助金额:23.00
负责人:于东
学科分类:
依托单位:北京语言大学
批准年份:2013
结题年份:2016
起止时间:2014-01-01 - 2016-12-30
项目状态: 已结题
项目参与者:黄志娥,饶高琦,蒋碧蓉,荀恩东
关键词:
自然语块自然标注信息合理性评估海量语料语言边界
结项摘要

Chunking is a method segmenting complex sentences into segments at fine granularity, in order to reduce complexity of language processing. In this subject, we proposed Natural Boundary Chunking, specifying stable and frequent appearing segments with distinctive boundary features in massive scale corpus. Natural Boundary Chunking is unbound with syntactical rules, therefore it has advantages in Chinese demarcation. Unsupervised Natural Boundary Chunk recognition methods will be researched. In massive scale corpus, we will research boundary information mining with Natural Annotations, statistical boundary extraction and boundary information modeling in this subject. Chunking problem is transferred to state space search problem. Its pruning and fast decoding algorithm are also included in our research. Natural Boundary Chunking is flexible. To various application requirements, different reasonable chunkings for one sentence will be presented. We will research rationality evaluation methods of Natural Boundary Chunking. Ability of lexicon description of Natural Boundary Chunking will be evaluated by the recall of massive scale dictionary. Isomorphism with Chinese Prosodic Phrase and word segmentation will be researched to evaluate analytical ability of Natural Boundary Chunking

语块分析将复杂语句划分为较细粒度的片段,可以有效降低信息处理复杂度。本课题以海量汉语语料中标点符号、边界标记、功能词等自然标注信息作为语块划分知识源,提出自然语块的概念,特指在海量语料中稳定、频繁出现,具有明显边界特性的语言片段。自然语块不受语法规则约束,在处理汉语边界划分问题上具有其优势。 本课题研究无监督的汉语自然语块识别方法。利用海量语料中自然标注信息挖掘语言边界知识;研究基于统计的语块边界特征提取方法,对语言边界知识建模;将自然语块分析转化为状态空间搜索问题,研究搜索空间裁剪和快速解码算法。 自然语块边界划分具有柔性,针对不同应用,对应的合理划分也不同。课题研究从不同侧面评估自然语块合理性的方法。研究语块粒度控制和参数训练方法。分析自然语块对海量词典的覆盖度,考察其对汉语词汇知识的描述能力;从同构性角度分析自然语块与中文分词、汉语韵律短语的一致性,对自然语块分析性能作出评价。

项目摘要

自然语块分析可将复杂语句划分为较细粒度的语言单元。在海量数据支撑下,高频稳定的自然语块在解决汉语语言边界划分问题上具有优势。课题以此作为出发点,在两方面开展研究:(1)研究汉语边界预测和自然语块分析方法。提出利用强边界标记和语块迭代切分思想,提出语块独立强度特征,实现中文自然语块边界预测和快速解码方法。在此基础上,提出了自然语块泛化频次特征和自然语块邻接多样性特征,在无监督分词中取得良好性能。(2)汉语自然语块在具体问题中的应用方法。课题针对文本特征无监督抽取问题,将LDA与自然语块划分方法相结合,提出了“聚类-验证(Cluster-Verification)”方法,实现无监督的小规模语料特征词挖掘。针对人物履历信息抽取问题,提出利用自然语块的边界信息扩展匹配模板,实现高覆盖度的组织机构隶属、职称、头衔信息抽取。针对汉语离合形式语块的特点,实现基于规则的离合词识别算法实现对离合词离析形式的自动识别。课题还将自然语块与自然标注信息应用于汉语词嵌入研究,在词义消歧、实体链接、词向量训练方面取得一系列研究成果。.课题组累计发表相关论文14篇,累计培养9位研究生,顺利完成各项研究任务,并进行必要的研究扩充和深入研究,取得良好效果。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

特斯拉涡轮机运行性能研究综述

特斯拉涡轮机运行性能研究综述

DOI:10.16507/j.issn.1006-6055.2021.09.006
发表时间:2021
2

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
3

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

DOI:10.12054/lydk.bisu.148
发表时间:2020
4

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

DOI:10.19596/j.cnki.1001-246x.8419
发表时间:2022
5

采用黏弹性人工边界时显式算法稳定性条件

采用黏弹性人工边界时显式算法稳定性条件

DOI:10.11883/bzycj-2021-0196
发表时间:2022

于东的其他基金

批准号:51506194
批准年份:2015
资助金额:20.00
项目类别:青年科学基金项目

相似国自然基金

1

基于大规模无标注语料的跨领域跨语言汉语依存句法分析

批准号:61572338
批准年份:2015
负责人:陈文亮
学科分类:F0211
资助金额:63.00
项目类别:面上项目
2

汉语语篇中连贯关系和隐含角色的分析标注研究

批准号:61373075
批准年份:2013
负责人:周强
学科分类:F0211
资助金额:78.00
项目类别:面上项目
3

基于海量混合标签数据的自然表情识别

批准号:61702481
批准年份:2017
负责人:曾加贝
学科分类:F0605
资助金额:25.00
项目类别:青年科学基金项目
4

自然语言(汉语)理解系统

批准号:68673020
批准年份:1986
负责人:陈有祺
学科分类:F02
资助金额:1.50
项目类别:面上项目