The text information on the Internet is explosively growing. Due to the crypticity and virtualness of Internet users, the virtual, illegal, spam, and vice information on the Internet is rapidly swelling, and spreads and permeats in various types of texts in different forms. Authorship identification of the Web texts has become an important and urgent research issue in the fields of network public opinion monitoring, information safety and intelligent information processing. At present, a few works focus on authorship identification of the Web texts which come from microblogs and blogs. Moreover, current methods are usually restricted by specific topics. To solve these problems, this project will systematically study theoretical models and core algorithms of identifying authorship and attributes of the Internet users from multi-sources Web texts. The research contents include: (1) extracting writing stylistic features of the Internet users from Web texts; (2) designing a topic adaptive approach to identifying authorship of the Internet users; (3) devising a portable method to recognize different attributes of the Internet users.
互联网上的文本信息呈爆炸式增长,网络用户的隐蔽性与虚拟性使得网络空间上的虚假信息、非法信息、垃圾信息和不良信息等急剧膨胀,以不同形式散布和渗透在各种类型的文本中。识别网络文本信息的作者身份已经成为网络舆情监测、信息安全、智能信息处理领域重要而紧迫的研究课题。现有的研究工作对博客、微博等网络文本的作者身份识别研究较少,相关方法往往受限于特定的主题。针对这些问题,本项目将系统地研究识别多源Web文本信息的作者身份和作者属性的理论模型和核心方法,具体包括:(1) Web文本的作者写作风格特征提取方法;(2) 具有主题自适应的作者身份归属识别方法;(3) 具有可移植性的作者身份属性识别方法。
本项目围绕多源Web文本的作者身份和作者属性识别的相关工作展开了研究,一年来的主要研究内容包括如下三方面:Web文本的作者写作风格特征表示和提取、作者身份归属识别,以及作者身份属性识别。在文本风格特征表示和提取方面,提出了一种基于词段型连续n-gram模型、词段型离散n-gram模型,以及多层语境模型的源代码风格特征提取方法;设计了一种基于卷积神经网络模型的微博文本表示方法,以及一种基于Doc2vec和词频-逆文档频率的博客分布式集成表示方法。针对作者身份归属识别问题,设计了一种基于序列最小优化的源代码作者身份归属识别方法,以及一种基于深度信念网络模型的源代码作者身份归属识别方法。在自然语言文本的作者身份归属识别方面,研制了一种决策级中文分词融合方法;提出了一种基于特征优化的文本相似度计算方法。另外,分析了文本挖掘和自然语言处理研究领域相关文献的作者合作关系。在作者身份属性识别方面,设计了一种基于长短期记忆网络模型的微博作者性别识别方法,以及一种基于卷积神经网络模型的博客作者性别、年龄和教育程度识别方法。本项目共发表国际会议论文5篇。获得1项国家发明专利授权,申请2项国家发明专利。本项目培养毕业硕士生2人、毕业本科生2人。
{{i.achievement_title}}
数据更新时间:2023-05-31
跨社交网络用户对齐技术综述
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
基于细粒度词表示的命名实体识别研究
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
中外学术论文与期刊的宏观差距分析及改进建议
面向Web文本的属性和属性值知识获取方法研究
基于语言特征的网络用户身份属性识别方法研究
面向Web服务的可信身份认证和版权保护机制
人脸图像的身份和表情同步识别方法研究