Chunking is a method segmenting complex sentences into segments at fine granularity, in order to reduce complexity of language processing. In this subject, we proposed Natural Boundary Chunking, specifying stable and frequent appearing segments with distinctive boundary features in massive scale corpus. Natural Boundary Chunking is unbound with syntactical rules, therefore it has advantages in Chinese demarcation. Unsupervised Natural Boundary Chunk recognition methods will be researched. In massive scale corpus, we will research boundary information mining with Natural Annotations, statistical boundary extraction and boundary information modeling in this subject. Chunking problem is transferred to state space search problem. Its pruning and fast decoding algorithm are also included in our research. Natural Boundary Chunking is flexible. To various application requirements, different reasonable chunkings for one sentence will be presented. We will research rationality evaluation methods of Natural Boundary Chunking. Ability of lexicon description of Natural Boundary Chunking will be evaluated by the recall of massive scale dictionary. Isomorphism with Chinese Prosodic Phrase and word segmentation will be researched to evaluate analytical ability of Natural Boundary Chunking
语块分析将复杂语句划分为较细粒度的片段,可以有效降低信息处理复杂度。本课题以海量汉语语料中标点符号、边界标记、功能词等自然标注信息作为语块划分知识源,提出自然语块的概念,特指在海量语料中稳定、频繁出现,具有明显边界特性的语言片段。自然语块不受语法规则约束,在处理汉语边界划分问题上具有其优势。 本课题研究无监督的汉语自然语块识别方法。利用海量语料中自然标注信息挖掘语言边界知识;研究基于统计的语块边界特征提取方法,对语言边界知识建模;将自然语块分析转化为状态空间搜索问题,研究搜索空间裁剪和快速解码算法。 自然语块边界划分具有柔性,针对不同应用,对应的合理划分也不同。课题研究从不同侧面评估自然语块合理性的方法。研究语块粒度控制和参数训练方法。分析自然语块对海量词典的覆盖度,考察其对汉语词汇知识的描述能力;从同构性角度分析自然语块与中文分词、汉语韵律短语的一致性,对自然语块分析性能作出评价。
自然语块分析可将复杂语句划分为较细粒度的语言单元。在海量数据支撑下,高频稳定的自然语块在解决汉语语言边界划分问题上具有优势。课题以此作为出发点,在两方面开展研究:(1)研究汉语边界预测和自然语块分析方法。提出利用强边界标记和语块迭代切分思想,提出语块独立强度特征,实现中文自然语块边界预测和快速解码方法。在此基础上,提出了自然语块泛化频次特征和自然语块邻接多样性特征,在无监督分词中取得良好性能。(2)汉语自然语块在具体问题中的应用方法。课题针对文本特征无监督抽取问题,将LDA与自然语块划分方法相结合,提出了“聚类-验证(Cluster-Verification)”方法,实现无监督的小规模语料特征词挖掘。针对人物履历信息抽取问题,提出利用自然语块的边界信息扩展匹配模板,实现高覆盖度的组织机构隶属、职称、头衔信息抽取。针对汉语离合形式语块的特点,实现基于规则的离合词识别算法实现对离合词离析形式的自动识别。课题还将自然语块与自然标注信息应用于汉语词嵌入研究,在词义消歧、实体链接、词向量训练方面取得一系列研究成果。.课题组累计发表相关论文14篇,累计培养9位研究生,顺利完成各项研究任务,并进行必要的研究扩充和深入研究,取得良好效果。
{{i.achievement_title}}
数据更新时间:2023-05-31
特斯拉涡轮机运行性能研究综述
硬件木马:关键问题研究进展及新动向
自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
采用黏弹性人工边界时显式算法稳定性条件
基于大规模无标注语料的跨领域跨语言汉语依存句法分析
汉语语篇中连贯关系和隐含角色的分析标注研究
基于海量混合标签数据的自然表情识别
自然语言(汉语)理解系统