In recent years, the social media bring great conveniences to people’s communications, but they also contain a lot of spam which seriously disturbs people's normal life. This project will systematically study the modeling methods and key technologies of spam identification based on the characteristics of social media, and expect to realize the efficient, accurate and collaborative spam identification in social media. The main research contents of this project are as follows: (1) This project will study a PU learning and transfer learning based training sample set construction method by utilizing the dynamic characteristic of social media; (2) This project will mine the influencing factors of the feature correlations, and study a multi-strategy-fused feature selection method which filters the redundant information; (3) This project will mine the personal needs and the social relationships of the users, and construct a user interest based spam collaborative identification model by using deep learning and ensemble learning theories; (4) This project will study a swarm intelligence optimization algorithm based on multi-mode and multi-population co-evolution by combining the advantages of existing swarm intelligence algorithms. This project comprehensively considers the characteristics of massive, dynamic, multi-source and interactive of social media, providing theoretical principles and technical supports for the research on spam identification in social media environments.
近年来,社交媒体的发展给人们相互沟通带来了极大的便利,但其中包含的大量垃圾信息也严重干扰了人们的正常生活。本项目立足于社交媒体的自身特点,针对垃圾信息识别涉及的建模方法和关键技术进行系统研究,以期实现社交媒体中高效、准确、协同的垃圾信息识别。本项目主要研究内容包括:(1)根据社交媒体的动态化特点,研究一种基于PU学习和迁移学习的训练样本集构建方法;(2)挖掘特征相关性影响因素,研究一种基于多策略融合的去冗余特征选择方法;(3)挖掘用户个人需求及其社会关系,结合深度学习和集成学习理论建立一个基于用户兴趣的垃圾信息协同识别模型;(4)综合现有群智能算法的优势,研究一种基于多模式多种群协同进化的群智能优化算法。本项目综合考虑了社交媒体数据的海量、动态、多源、互动等特征,为该环境中垃圾信息识别研究提供了理论依据和技术支持。
本项目立足于社交媒体的自身特点,针对垃圾信息识别涉及的建模方法和关键技术进行研究,围绕训练样本集构建、特征选择、垃圾信息识别、参数优化等过程开展研究,最终搭建社交媒体中高效、准确、协同的垃圾信息识别模型。在训练样本集构建方面,提出基于合群度-隶属度的噪声检测方法和基于多特征融合的评论文本个性化情感类别标注方法;在特征选择方面,提出一种基于传统过滤器的动态特征选择方法;在垃圾信息识别方面,提出基于情感词典的用户兴趣建模方法、基于Transformer的用户兴趣建模方法、基于图卷积网络的归纳式微博谣言检测方法、考虑文本长度的Bagging集成学习方法、基于误分类样本特征选择和加权非负矩阵分解的改进AdaBoost算法;在参数优化方面,提出一种基于双向驱动的果蝇优化算法。本项目综合考虑了社交媒体数据的海量、动态、多源、互动等特征,为该环境中垃圾信息识别研究提供了理论依据和技术支持。
{{i.achievement_title}}
数据更新时间:2023-05-31
路基土水分传感器室内标定方法与影响因素分析
监管的非对称性、盈余管理模式选择与证监会执法效率?
跨社交网络用户对齐技术综述
拥堵路网交通流均衡分配模型
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
面向智慧交通的社交媒体大数据挖掘关键技术研究
面向跨域推荐的社交媒体用户性格建模
基于跨社交媒体网络行为大数据的用户建模关键技术研究
基于协同语义计算的社交媒体信息扩散与可信性研究