Web文本的作者身份和属性识别方法研究

基本信息
批准号:61672098
项目类别:面上项目
资助金额:16.00
负责人:张春霞
学科分类:
依托单位:北京理工大学
批准年份:2016
结题年份:2017
起止时间:2017-01-01 - 2017-12-31
项目状态: 已结题
项目参与者:樊孝忠,杨旭,刘振岩,陈杰,付红萍,乐娟,李娜,冉昇,王森
关键词:
舆情监控文本挖掘作者身份识别作者属性识别Web文本
结项摘要

The text information on the Internet is explosively growing. Due to the crypticity and virtualness of Internet users, the virtual, illegal, spam, and vice information on the Internet is rapidly swelling, and spreads and permeats in various types of texts in different forms. Authorship identification of the Web texts has become an important and urgent research issue in the fields of network public opinion monitoring, information safety and intelligent information processing. At present, a few works focus on authorship identification of the Web texts which come from microblogs and blogs. Moreover, current methods are usually restricted by specific topics. To solve these problems, this project will systematically study theoretical models and core algorithms of identifying authorship and attributes of the Internet users from multi-sources Web texts. The research contents include: (1) extracting writing stylistic features of the Internet users from Web texts; (2) designing a topic adaptive approach to identifying authorship of the Internet users; (3) devising a portable method to recognize different attributes of the Internet users.

互联网上的文本信息呈爆炸式增长,网络用户的隐蔽性与虚拟性使得网络空间上的虚假信息、非法信息、垃圾信息和不良信息等急剧膨胀,以不同形式散布和渗透在各种类型的文本中。识别网络文本信息的作者身份已经成为网络舆情监测、信息安全、智能信息处理领域重要而紧迫的研究课题。现有的研究工作对博客、微博等网络文本的作者身份识别研究较少,相关方法往往受限于特定的主题。针对这些问题,本项目将系统地研究识别多源Web文本信息的作者身份和作者属性的理论模型和核心方法,具体包括:(1) Web文本的作者写作风格特征提取方法;(2) 具有主题自适应的作者身份归属识别方法;(3) 具有可移植性的作者身份属性识别方法。

项目摘要

本项目围绕多源Web文本的作者身份和作者属性识别的相关工作展开了研究,一年来的主要研究内容包括如下三方面:Web文本的作者写作风格特征表示和提取、作者身份归属识别,以及作者身份属性识别。在文本风格特征表示和提取方面,提出了一种基于词段型连续n-gram模型、词段型离散n-gram模型,以及多层语境模型的源代码风格特征提取方法;设计了一种基于卷积神经网络模型的微博文本表示方法,以及一种基于Doc2vec和词频-逆文档频率的博客分布式集成表示方法。针对作者身份归属识别问题,设计了一种基于序列最小优化的源代码作者身份归属识别方法,以及一种基于深度信念网络模型的源代码作者身份归属识别方法。在自然语言文本的作者身份归属识别方面,研制了一种决策级中文分词融合方法;提出了一种基于特征优化的文本相似度计算方法。另外,分析了文本挖掘和自然语言处理研究领域相关文献的作者合作关系。在作者身份属性识别方面,设计了一种基于长短期记忆网络模型的微博作者性别识别方法,以及一种基于卷积神经网络模型的博客作者性别、年龄和教育程度识别方法。本项目共发表国际会议论文5篇。获得1项国家发明专利授权,申请2项国家发明专利。本项目培养毕业硕士生2人、毕业本科生2人。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

跨社交网络用户对齐技术综述

跨社交网络用户对齐技术综述

DOI:10.12198/j.issn.1673 − 159X.3895
发表时间:2021
2

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

DOI:10.11821/dlyj201810008
发表时间:2018
3

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018
4

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022
5

中外学术论文与期刊的宏观差距分析及改进建议

中外学术论文与期刊的宏观差距分析及改进建议

DOI:
发表时间:2021

张春霞的其他基金

批准号:71173039
批准年份:2011
资助金额:42.00
项目类别:面上项目
批准号:70773020
批准年份:2007
资助金额:20.00
项目类别:面上项目
批准号:11326061
批准年份:2013
资助金额:3.00
项目类别:数学天元基金项目
批准号:31500543
批准年份:2015
资助金额:20.00
项目类别:青年科学基金项目
批准号:60705022
批准年份:2007
资助金额:19.00
项目类别:青年科学基金项目
批准号:70473014
批准年份:2004
资助金额:14.00
项目类别:面上项目
批准号:11201367
批准年份:2012
资助金额:22.00
项目类别:青年科学基金项目
批准号:11671317
批准年份:2016
资助金额:48.00
项目类别:面上项目
批准号:51234003
批准年份:2012
资助金额:300.00
项目类别:重点项目
批准号:30070611
批准年份:2000
资助金额:16.00
项目类别:面上项目
批准号:50074026
批准年份:2000
资助金额:18.00
项目类别:面上项目
批准号:11401475
批准年份:2014
资助金额:23.00
项目类别:青年科学基金项目
批准号:61272361
批准年份:2012
资助金额:80.00
项目类别:面上项目
批准号:41172159
批准年份:2011
资助金额:80.00
项目类别:面上项目
批准号:11126277
批准年份:2011
资助金额:3.00
项目类别:数学天元基金项目
批准号:40804014
批准年份:2008
资助金额:20.00
项目类别:青年科学基金项目

相似国自然基金

1

面向Web文本的属性和属性值知识获取方法研究

批准号:61272361
批准年份:2012
负责人:张春霞
学科分类:F0607
资助金额:80.00
项目类别:面上项目
2

基于语言特征的网络用户身份属性识别方法研究

批准号:61272275
批准年份:2012
负责人:钱铁云
学科分类:F0211
资助金额:80.00
项目类别:面上项目
3

面向Web服务的可信身份认证和版权保护机制

批准号:61272420
批准年份:2012
负责人:张功萱
学科分类:F0205
资助金额:81.00
项目类别:面上项目
4

人脸图像的身份和表情同步识别方法研究

批准号:61201444
批准年份:2012
负责人:周晓彦
学科分类:F0116
资助金额:24.00
项目类别:青年科学基金项目