Currently, social network construction is usually implemented via co-occurrence of persons in large-scale corpora, leading to two main problems: one is that social networks constructed in this way are usually incomplete, lacking rich relationships between persons and ignoring the multiplicity of social relationships; the other is that they do not consider the reliability of the relationship between persons, thus restricting the expressivity and inferential capability of social networks. In order to promote the completeness and reliability of social networks, the contents of this proposal include: 1) proposal of strategies of stratefication-based seed sampling and rephrasing-based seed expansion, and their application to weakly supervised social relation extraction; 2) research on a joint learning scheme for name variation resolution and multiple relation extraction based on Markov Logic Network; 3) investigation on methods of reliability expression and computation for social networks. By virtue of this research, more complete, richer and more reliable social networks can be constructed from natual language text, providing theoretical justification and practical foundation for further application of social networks.
目前的社会关系网络构建通常基于大规模文本中的人物共现关系来实现,这就导致了两个主要问题:一是社会关系网络不够完整,缺乏丰富的关系类型,忽略了人物社会关系的多重性;二是没有考虑自动抽取出的社会关系的可信度,限制了社会关系网络的表现力和推理能力。为了提高社会关系网络的完整性和可靠性,本项目的研究内容包括:1)提出基于分层采样的种子选取策略和基于复述技术的种子集扩展方法,并把它应用于弱指导社会关系抽取;2)基于马尔可夫网络模型,研究多名聚合和多重关系抽取的联合学习策略;3)深入探索社会关系网络的可信度表示和计算方法。通过本项目的研究,可以从自然语言文本中自动构建更完整、更丰富和更可靠的社会关系网络,为下一步的实际应用提供良好的理论依据和实践基础。
本项目的出发点是利用自然语言处理中的浅层文本理解技术从自然语言文本中挖掘出人物相关实体及其相互语义关系,并从中构造出具有丰富关系类型和关系可信度的社会关系网络,从而为社会网络分析和研究提供一定的理论价值和大规模的应用实例。. 本项目研究和实施了与社会关系网络构建相关的语料库建设、弱指导人物关系抽取、社会关系网络构建等三个方面的工作,同时也将研究成果拓展到实体关系网络的其它应用,如生物实体关系的抽取和生物实体关系网络的构建。. 社会关系网络构建相关的语料库建设:本项目构建了中文维基百科实体知识库、中文实体链接语料库、实体关系双语平行语料库和中文嵌套实体及关系语料库等四个语料库,为社会关系网络的构建过程中的人物实体的识别、人物实体到关系网络中的映射和人物实体间关系的抽取提供了高质量的训练语料。. 人物关系抽取及家庭网络构建研究:研究基于自举和自监督的人物关系抽取和关系网络构建方法,一方面,通过自举可以从极少数的种子实例上通过迭代方式准确地抽取出人物的家庭关系,进而构造出人物家庭网络,另一方面,借助于自监督学习方法从中文维基百科的半结构化信息自动生成训练语料,然后据此从文本中获取人物间的家庭关系,构建社会关系网络。. 基于平行语料的双语实体关系抽取研究:在通过机器翻译构建的伪平行语料和人工标注的实例级平行语料基础上,采用双语协同训练和双语主动学习的方法实现弱指导关系抽取,探索如何充分利用不同语言之间的冗余性和互补性来减轻有监督机器学习方法对大规模训练数据的需求。. 生物实体关系网络抽取研究:一方面采用基于特征向量、深度学习和远程监督的学习方法从生物医学文献中抽取药品和疾病关系,大大提高了生物医学实体关系抽取的性能。另一方面,在句子级标注的实体因果关系网络上,通过基于机器翻译的对齐方法构建可直接用于机器学习的训练语料,有助于采用层次序列化标注模型构建生物实体关系网络。
{{i.achievement_title}}
数据更新时间:2023-05-31
跨社交网络用户对齐技术综述
城市轨道交通车站火灾情况下客流疏散能力评价
基于FTA-BN模型的页岩气井口装置失效概率分析
基于图卷积网络的归纳式微博谣言检测新方法
多源数据驱动CNN-GRU模型的公交客流量分类预测
网络文本蕴含地理信息理解与知识图构建
中文语言文本理解
基于弱监督和迁移学习的深度文本理解模型学习方法
基于问题预测和文本生成的阅读理解关键技术研究