As a new kind of social media and information exchange platform, micro-blog has caused more and more public attention. There are too much difference between micro-blog and ordinary text so that the research of text analysis and information mining methods for micro-blog text will be necessary. We are trying to explore Chinese text analysis and information mining methods oriented features of Chinese micro-blog based on semantic analysis theory. The contents include: Collection and processing methods on Chinese micro-blog corpus; credibility evaluation methods on Chinese micro-blog; emotional tendentious analysis methods; topic detection and tracking methods and personalized information search methods. The technology route is: First, mining the user relationships corpus, find the relationship between the user networks; then, to preprocess the micro-blog including corpus segmentation, annotation and feature extraction and to establish the appropriate language knowledge repository; Finally, do researches including micro-blog credibility detects, emotional tendentious analysis, topic detection and tracking, personalized information retrieval and to establish a practical system with the language knowledge and various features of Chinese micro-blog which has been acquired. This project has practical value on public opinion monitoring, rumor control of government and marketing and also has theoretical significance on researching in information processing methods oriented Micro blogging.
微博作为一种新型的社交媒体和信息交流平台,越来越受到人们的热捧。微博文本与普通文本有很多不同,因此,研究面向微博文本的语言分析技术和信息挖掘方法十分必要。本项目以语义分析理论为指导,探索面向中文微博特点的语言分析及信息挖掘方法。内容包括:微博语料采集及加工处理方法与规范;中文微博可信度的评价方法、情感倾向性分析方法、话题检测与追踪方法以及个性化信息搜索方法。采用的技术路线为:首先,对用户关系语料进行分析和挖掘,发现用户之间的关系网络;然后,对微博文本语料进行分词、标注以及特征提取等加工处理,并建立相应的语言知识资源库;最后,利用已获取的语言知识资源以及微博文本的各种特征构建中文微博可信度检测、情感倾向性分析、话题检测与追踪、个性化信息检索的模型与算法,并建立相应的实用系统。本项目对政府舆情监控、谣言控制、市场营销等具有实用价值,并对面向微博的信息处理技术与方法的研究具有十分重要的理论意义。
微博是一种新型的社交媒体和信息交流平台。从内容来看,由于微博用户发言比较随意,使其成了某些人发泄情绪、散布谣言、挑起某个热门话题或敏感话题的场所,直接影响着社会的稳定。从形式来看,微博的特点是文本长度短小,文字和表情符号混用,用词不规范,新词、同音异体词表达原词意思的情况较多。因此,开展微博信息分析与挖掘方法研究,探索面向微博的自然语言处理技术和数据挖掘方法,具有很强的科学意义和实用价值,同时具有一定的政治意义和社会意义。 . 本课题以语义分析理论为指导,探索面向中文微博特点的语言分析及信息挖掘方法。主要研究微博语料采集及加工处理方法与规范;中文微博可信度的评价方法、情感倾向分析与性格预测方法、话题检测与追踪方法以及个性化搜索与推荐方法。创新性的成果如下:. (1)提出了一种微博意见领袖的挖掘方法。对微博用户兴趣社区的发现方法进行了研究,提出了基于用户标签和微博内容的兴趣社区发现方法、基于聚集系数的局部社区发现方法和基于连边层次聚类的微博社区发现方法。. (2)提出了基于多特征的微博用户权威度定量评价模型和基于关联关系的用户可信度计算方法。提出了基于多层分类器的微博谣言识别模型和基于微博评论异常度的谣言识别模型。. (3)提出了基于多特征融合的中文微博主客观句分类方法,构建了一种级联式微博情感分类器。将深度学习技术引入情感分类,提出了基于RNN的微博情感分类方法和基于协同CNN-LSTM-Attention模型的微博情感分类方法。. (4)提出了融合情感表达和情感迁移的微博用户情感倾向预测方法;提出了基于用户行为和文本内容相融合的多特征微博用户性格预测方法。. (5)提出了微博短文本聚类中的特征扩展策略以及基于组合聚类算法的微博话题检测与追踪方法,利用话题的时间变化及粒度可变属性,实现对微博话题动态追踪。. (6)提出了基于隐马尔可夫模型的查询扩展方法、基于K-means的协同过滤个性化推荐方法以及基于用户兴趣和推荐信任域的微博推荐方法。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
社交网络互动中用户“信息窄化”机理分析:基于微博的数据挖掘
基于词汇语义网络的中文深层语义分析
篇章级中文语义分析理论与方法
基于三支决策的微博中文反语识别研究