无监督分词及词性归纳联合方法研究

基本信息
批准号:61303105
项目类别:青年科学基金项目
资助金额:25.00
负责人:王函石
学科分类:
依托单位:首都师范大学
批准年份:2013
结题年份:2016
起止时间:2014-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:刘丽珍,杜超,赵春娜,宿培成,李楚楚,王文涛,雷梦云,吕志鑫,聂欣慧
关键词:
词性归纳分词自然语言理解联合方法无监督
结项摘要

The unsupervised word segmentation and part-of-speech induction are two important tasks in computational linstuistics. In the project, we propose an unsupervised joint approach to word segmentation and part-of-speech induction. In the approach, the segmentation method of morphemes and words is based on the unsupervised approach to word segmentation early proposed by us, and the induction method of morpheme classes and word classes is based on the context cohesion mechanism early proposed by us. As an unsupervised approach, it can process data without any man-made lexicons, manually annotated corpora and language-specific prior knowledge. As a joint approach, it can utilize the structural information of word class sequences to enhance the quality of the unsupervised word segmentation, and then improve the performance of the word class induction by the enhancement. Besides the advantages mentioned above, the morphologic information derived from morpheme classes and word structures can further improve the performance of both the unsupervised word segmentation and the word class induction. In addition, the approach can produce the induction results that can be understood by humans to some extent by using the different statistical features between open-class words and closed-class words. In future, the approach will be the basis of an unsupervised joint method with a larger scale, which includes the grammar induction.

无监督分词和词性归纳作为相继任务,是计算语言学中重要的研究课题,具有较高的理论研究价值和广阔的应用前景。本研究拟提出无监督分词及词性归纳相结合的联合方法,使分词和词性归纳两个不同层次的统计信息相互补充,以期同时提高两种不同处理在自然语言理解中的性能。本联合方法基于申请者先前提出的无监督分词方法和环境内聚思想,一方面通过获得基于语素及其类别的不针对特定语言的形态信息,以进一步提高处理精度,另一方面通过获得一词多类的归纳结果,以及利用全局统计特征分辨封闭词类与开放词类,以产生接近人工标准和便于人类理解的处理结果,通过提高评估成绩达到提升性能的目的。本研究成果将为构建包含语法归纳在内的更大规模的无监督联合方法奠定基础。

项目摘要

无监督分词和词性归纳作为相继任务,是计算语言学中重要的研究课题,具有较高的理论研究价值和广阔的应用前景。本研究拟提出无监督分词及词性归纳相结合的联合方法,使分词和词性归纳两个不同层次的统计信息相互补充,以期同时提高两种不同处理在自然语言理解中的性能。本联合方法基于申请者先前提出的无监督分词方法和环境内聚思想,一方面通过获得基于语素及其类别的不针对特定语言的形态信息,以进一步提高处理精度,另一方面通过获得一词多类的归纳结果,以及利用全局统计特征分辨封闭词类与开放词类,以产生接近人工标准和便于人类理解的处理结果,通过提高评估成绩达到提升性能的目的。本研究成果将为构建包含语法归纳在内的更大规模的无监督联合方法奠定基础。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究

栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究

DOI:10.3969/j.issn.1002-0268.2020.03.007
发表时间:2020
2

气载放射性碘采样测量方法研究进展

气载放射性碘采样测量方法研究进展

DOI:
发表时间:2020
3

基于全模式全聚焦方法的裂纹超声成像定量检测

基于全模式全聚焦方法的裂纹超声成像定量检测

DOI:10.19650/j.cnki.cjsi.J2007019
发表时间:2021
4

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022
5

基于混合优化方法的大口径主镜设计

基于混合优化方法的大口径主镜设计

DOI:10.3788/AOS202040.2212001
发表时间:2020

王函石的其他基金

相似国自然基金

1

医疗文本大数据中的无监督统计分词新方法研究

批准号:11801301
批准年份:2018
负责人:俞声
学科分类:A0403
资助金额:24.00
项目类别:青年科学基金项目
2

无监督语音层次结构联合建模及其应用

批准号:61571363
批准年份:2015
负责人:谢磊
学科分类:F0117
资助金额:60.00
项目类别:面上项目
3

大规模中文文本语料库分词与词性标注一致性检验技术研究

批准号:60473139
批准年份:2004
负责人:郑家恒
学科分类:F0211
资助金额:23.00
项目类别:面上项目
4

归纳型安全半监督分类学习及其扩展研究

批准号:61300165
批准年份:2013
负责人:汪云云
学科分类:F0605
资助金额:23.00
项目类别:青年科学基金项目