基于海量语料自然标注信息的汉语自然语块分析

基本信息

批准号：61300081

项目类别：青年科学基金项目

资助金额：23.00

负责人：于东

学科分类：

依托单位：北京语言大学

批准年份：2013

结题年份：2016

起止时间：2014-01-01 - 2016-12-30

项目状态：已结题

项目参与者：黄志娥,饶高琦,蒋碧蓉,荀恩东

关键词：

自然语块自然标注信息合理性评估海量语料语言边界

结项摘要

Chunking is a method segmenting complex sentences into segments at fine granularity, in order to reduce complexity of language processing. In this subject, we proposed Natural Boundary Chunking, specifying stable and frequent appearing segments with distinctive boundary features in massive scale corpus. Natural Boundary Chunking is unbound with syntactical rules, therefore it has advantages in Chinese demarcation. Unsupervised Natural Boundary Chunk recognition methods will be researched. In massive scale corpus, we will research boundary information mining with Natural Annotations, statistical boundary extraction and boundary information modeling in this subject. Chunking problem is transferred to state space search problem. Its pruning and fast decoding algorithm are also included in our research. Natural Boundary Chunking is flexible. To various application requirements, different reasonable chunkings for one sentence will be presented. We will research rationality evaluation methods of Natural Boundary Chunking. Ability of lexicon description of Natural Boundary Chunking will be evaluated by the recall of massive scale dictionary. Isomorphism with Chinese Prosodic Phrase and word segmentation will be researched to evaluate analytical ability of Natural Boundary Chunking

语块分析将复杂语句划分为较细粒度的片段，可以有效降低信息处理复杂度。本课题以海量汉语语料中标点符号、边界标记、功能词等自然标注信息作为语块划分知识源，提出自然语块的概念，特指在海量语料中稳定、频繁出现，具有明显边界特性的语言片段。自然语块不受语法规则约束，在处理汉语边界划分问题上具有其优势。本课题研究无监督的汉语自然语块识别方法。利用海量语料中自然标注信息挖掘语言边界知识；研究基于统计的语块边界特征提取方法，对语言边界知识建模；将自然语块分析转化为状态空间搜索问题，研究搜索空间裁剪和快速解码算法。自然语块边界划分具有柔性，针对不同应用，对应的合理划分也不同。课题研究从不同侧面评估自然语块合理性的方法。研究语块粒度控制和参数训练方法。分析自然语块对海量词典的覆盖度，考察其对汉语词汇知识的描述能力；从同构性角度分析自然语块与中文分词、汉语韵律短语的一致性，对自然语块分析性能作出评价。

项目摘要

自然语块分析可将复杂语句划分为较细粒度的语言单元。在海量数据支撑下，高频稳定的自然语块在解决汉语语言边界划分问题上具有优势。课题以此作为出发点，在两方面开展研究：（1）研究汉语边界预测和自然语块分析方法。提出利用强边界标记和语块迭代切分思想，提出语块独立强度特征，实现中文自然语块边界预测和快速解码方法。在此基础上，提出了自然语块泛化频次特征和自然语块邻接多样性特征，在无监督分词中取得良好性能。（2）汉语自然语块在具体问题中的应用方法。课题针对文本特征无监督抽取问题，将LDA与自然语块划分方法相结合，提出了“聚类－验证（Cluster-Verification）”方法，实现无监督的小规模语料特征词挖掘。针对人物履历信息抽取问题，提出利用自然语块的边界信息扩展匹配模板，实现高覆盖度的组织机构隶属、职称、头衔信息抽取。针对汉语离合形式语块的特点，实现基于规则的离合词识别算法实现对离合词离析形式的自动识别。课题还将自然语块与自然标注信息应用于汉语词嵌入研究，在词义消歧、实体链接、词向量训练方面取得一系列研究成果。.课题组累计发表相关论文14篇，累计培养9位研究生，顺利完成各项研究任务，并进行必要的研究扩充和深入研究，取得良好效果。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.3778/j.issn.1002-8331.1911-0012

发表时间：2020

DOI：

发表时间：

DOI：10.3724/SP.J.1089.2019.17435

发表时间：2019

DOI：10.7498/aps.68.20181682

发表时间：2019

DOI：10.11936/bjutxb2021010011

发表时间：2021

于东的其他基金

批准号：51506194

批准年份：2015

资助金额：20.00

项目类别：青年科学基金项目

相似国自然基金

基于大规模无标注语料的跨领域跨语言汉语依存句法分析

批准号：61572338

批准年份：2015

负责人：陈文亮

学科分类：F0211

资助金额：63.00

项目类别：面上项目

汉语语篇中连贯关系和隐含角色的分析标注研究

批准号：61373075

批准年份：2013

负责人：周强

学科分类：F0211

资助金额：78.00

项目类别：面上项目

基于海量混合标签数据的自然表情识别

批准号：61702481

批准年份：2017

负责人：曾加贝

学科分类：F0605

资助金额：25.00

项目类别：青年科学基金项目

自然语言(汉语)理解系统

批准号：68673020

批准年份：1986

负责人：陈有祺

学科分类：F02

资助金额：1.50

项目类别：面上项目

基于海量语料自然标注信息的汉语自然语块分析

{{i.achievement_title}}

暂无此项成果

其他相关文献

针对弱边缘信息的左心室图像分割算法

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

信息熵-保真度联合度量函数的单幅图像去雾方法

高分五号卫星多角度偏振相机最优化估计反演:角度依赖与后验误差分析

城市生活垃圾热值的特征变量选择方法及预测建模

于东的其他基金

填充床蒸汽蓄热系统内流动与传热的实验和理论研究

相似国自然基金