基于语言特征的网络用户身份属性识别方法研究

基本信息
批准号:61272275
项目类别:面上项目
资助金额:80.00
负责人:钱铁云
学科分类:
依托单位:武汉大学
批准年份:2012
结题年份:2016
起止时间:2013-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:刘兵,钟鸣,彭庆喜,余骞,屈俊峰,张煜,余鸣,黄俊龙,尧红伟
关键词:
网络用户身份属性语言特征区分方法
结项摘要

It is quite normal for online users to provide incomplete and fake information in order to hide one's true identity. This greatly hinders some critical applications such as the network crime prevention, opinion supervision and targeted promotion. It would be very useful if user profiles can be checked on the basis of text analysis..Current researches are mainly focused on the age and authorship attribution based on English corpus. This project will recognize a user's gender, age, profession, birthplace, and authorship using the linguistic features, especially Chinese features, which are extracted from user posted documents. First, we will present some data cleansing methods in order to eliminate the noises in terms of common events and the problem of skewed classes. Second, we will develop approaches for feature selection and feature set expansion to deal with the problem of huge number of features and high cost of manually labeling. Last, we will systematically compare the performance of existing classification methods to get insight into the linguistic features, classification tasks, classification algorithms, and evaluation metrics. Meanwhile, we will propose a new framework for authorship attribution of online users. . This study will reveal the relationship between personal linguistic features and identity attributes, and provide the theoretical and technical foundation for the application of recognizing identity attributes of online users.

网络用户的注册资料经常含有大量残缺或虚假信息,给网络犯罪预防、舆论监管及商业推广等关键应用带来极大障碍。现有研究大多限于年龄和著作者身份识别,且主要集中在英文领域。本项目将研究网络用户身份属性的识别方法,从用户发表的文档中,通过分析其语言(特别是中文的)特征,区分出性别、年龄段、籍贯、职业和著作者身份等多重属性。首先,拟研究数据优化措施,以消除用户发表文档中以大众话题形式存在的噪声及类别倾斜问题的不良影响。其次,拟研究高效的特征选择算法和基于少量种子的标注特征扩展方法,以解决网络环境下语言特征的数目庞大及标注困难问题。最后,拟研究用户身份属性的区分方法,以获得语言特征-分类任务-分类算法-评价标准的系统认识,并为作者众多、测试域开放的网络著作者身份区分问题建立全新的算法框架。.本项目的研究有望揭示个人语言特征和身份属性之间的内在联系,并为网络用户身份区分这一重要应用提供理论和技术基础。

项目摘要

网络用户的注册资料经常含有大量残缺或虚假信息,给网络犯罪预防、舆论监管及商业推广等关键应用带来极大障碍。现有研究大多限于年龄和著作者身份识别,且主要集中在英文领域。本项目将研究网络用户身份属性的识别方法,从用户发表的文档中,通过分析其语言(特别是中文的)特征识别身份属性。申报书所列的五项研究内容:a) 数据集的构造方法;b) UPD中噪声数据的消除方法;c) 身份属性相关语言特征集的获取及扩展方法;d) 用户身份属性的区分模型;e) 用户身份属性识别原型系统,均已完全按照计划执行完毕。此外,我们还深入研究了大规模社会网络上的群组划分方法。. 本项目整体进展顺利,已经形成了一套可行的理论与方法,包括:创造性地提出了从文档空间到相似空间的转换,以及字、词、语法视图上的co-training和tri-training等数据挖掘和自然语言处理的结合技术,成功解决了标签数据稀少、未知数据不断加入的难题,抽取了能够表征用户身份属性的风格、词汇、句法、关系等关键特征,并通过embedding及network representation等技术对属性特征进行有效扩展,建立了用于用户身份属性识别的有效区分算法。. 本项目的研究成果具有很强的科学意义。在ACL, EMNLP, WWWJ等自然语言处理和数据挖掘领域的顶级和权威国际学术会议或期刊上发表了27篇论文。研究成果引起世界各国学者的关注和引用,引用来源包括IEEE Transactions on Information Forensics and Security (TIFS), S&P和WWW等信息安全和数据处理领域的顶级刊物和会议。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

跨社交网络用户对齐技术综述

跨社交网络用户对齐技术综述

DOI:10.12198/j.issn.1673 − 159X.3895
发表时间:2021
2

拥堵路网交通流均衡分配模型

拥堵路网交通流均衡分配模型

DOI:10.11918/j.issn.0367-6234.201804030
发表时间:2019
3

栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究

栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究

DOI:10.3969/j.issn.1002-0268.2020.03.007
发表时间:2020
4

气载放射性碘采样测量方法研究进展

气载放射性碘采样测量方法研究进展

DOI:
发表时间:2020
5

城市轨道交通车站火灾情况下客流疏散能力评价

城市轨道交通车站火灾情况下客流疏散能力评价

DOI:
发表时间:2015

钱铁云的其他基金

批准号:61572376
批准年份:2015
资助金额:63.00
项目类别:面上项目

相似国自然基金

1

Web文本的作者身份和属性识别方法研究

批准号:61672098
批准年份:2016
负责人:张春霞
学科分类:F0607
资助金额:16.00
项目类别:面上项目
2

基于用户表示学习的跨网络用户虚拟身份关联映射研究

批准号:61802371
批准年份:2018
负责人:王永庆
学科分类:F0211
资助金额:25.00
项目类别:青年科学基金项目
3

基于语言学特征的多语言自动语音识别方法研究

批准号:60172064
批准年份:2001
负责人:贺前华
学科分类:F0111
资助金额:18.00
项目类别:面上项目
4

基于面部多模态生物特征信息融合的精准身份识别方法

批准号:U1836217
批准年份:2018
负责人:孙哲南
学科分类:F0604
资助金额:252.00
项目类别:联合基金项目