Based on Never-Ending Learning, this project explores the key techniques for combining syntactic and semantic parsing, and open information extraction. Human learning is characterized in its diversity, cumulative, staged curricular fashion nature. The paradigm that more closely models these characteristics is referred to as Never-Ending Learning. Most available machine learning techniques learn only a single function to perform a single task isolation, usually from labeled training examples, so do the studies on Chinese syntactic and semantic parsing, and open information extraction. To combine parsing and open information extraction together and develop a never-ending learning system, this project will carry out the following work. On the one hand, we studies the two domains separately. For Chinese parsing, we construct a tree-structured syntactic-semantic treebank and implement joint syntactic and semantic parsing. For open information processing, we build semantic-based open information extraction system. On the other hand, we try to combine the two domains together, including improving word segmentation, part-of-speech tagging and parsing using auto-extracted information to link the two domains, generating presentation patterns and constraint rules through reasoning to insure the sustainability of machine learning, and verifying the auto-extracted entities, relations and relation patterns through human feedback to avoid stagnation and performance plateaus.
本研究基于持续学习框架探索中文句法语义分析和开放域信息抽取相融合的关键技术。人类学习过程具有时间持续性、来源多样性、知识增量性、过程阶段性等特征,具备上述特征的学习框架称为持续学习。现有机器学习多以学习单一类型知识和完成单一任务为目标,不完全具备上述特征,尤其是持续性;中文句法语义分析与开放域信息抽取方面的研究亦是如此。为融合二者以形成持续学习系统,本研究的工作包括两个方面。其一,从两个角度分别进行研究:构建基于树结构的句法语义树库并实现句法语义一体化分析;建立基于句法语义分析的开放域信息抽取系统。其二,将二者融合:基于抽取的信息改进句法语义分析性能,通过关系推理产生新的关系类型和关系约束规则,并以众包方式对自动抽取结果和推理结果进行干预,以避免性能提升瓶颈、确保学习过程的持续性。由此,可迭代地改进中文自动分析与开放域信息抽取,产生高质量的句法语义树库、句法语义联合分析模型和知识图谱。
人类学习过程具有时间持续性、来源多样性、知识增量性、过程阶段性等特征,具备上述特征的学习框架称为持续学习。现有机器学习多以学习单一类型知识和完成单一任务为目标,不完全具备上述特征,尤其是持续性;中文句法语义分析与开放域信息抽取方面的研究亦是如此。为融合二者以形成持续学习系统,本研究的工作包括两个方面。一方面,构建句法语义分析资源,其中句法树库包括:人民日报语料128738句(2000年1月、2000年2月、1998年1月前10天)、医药语料32227句、旅游口语40620句、专利语料17035句、微博语料29840句、电脑问答语料23000句、政治军事新闻语料24315句;语义角色标注语料库包括:人民日报语料74636句;针对人机对话和问答系统研究的需要,构建问句语料库,包括:百度知识问句38000句,全部标注有问句类型,其中15000还标注有核心动词。另一方面,进行分词、词性标注和句法语义分析及问答系统等方面的算法研究,具体包括:开发基于大规模语料库的分词、词性标注、句法分析系统,并已开源,该系统分词和词性标注模块基于2000年前半年人民日报训练,句法分析基于2000年1月份和1998年1月份前10天共计64000句句法树库训练;进行通用句子语义表示、问句生成、情感分析等方面的算法创新工作。.本研究所构建的树库累计达到29万句,是目前世界上规模最大的中文句法树库,除新闻外,还包括医药、旅游、专利、微博、军事、电脑问答等特定领域数据;除句法标注外,还有部分信息标注有语义角色、问句类型和核心谓词。本项目参与人员在国内外较高水平学术刊物和学术会议上发表24篇较高质量的学术论文,其中CCF A类会议论文6篇、B类会议论文6篇、C类会议论文(NAACL、NLPCC)2篇,另有《中文信息学报》论文4篇、《北大学报》论文1篇、《Journal of Computer Science and Technology》论文1篇。并于科学出版社出版专著一部、于机械工业出版社出版译著一部。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
开放域语义关系抽取、表示和计算关键技术研究
融合语义信息的句法分析统计模型研究
面向开放域知识网络的实体语义关系抽取方法研究
基于语义图生成的开放域语义解析关键技术研究