网络舆情监控中衍生命名实体高效能识别恢复理论与关键技术研究

基本信息
批准号:61672393
项目类别:面上项目
资助金额:64.00
负责人:刘金硕
学科分类:
依托单位:武汉大学
批准年份:2016
结题年份:2020
起止时间:2017-01-01 - 2020-12-31
项目状态: 已结题
项目参与者:Jeff Z.Pan,邓娟,余伟,刘斌,张焕国,任亚峰,钱涛,徐亚渤,杨广益
关键词:
网络舆情监控信息安全信息内容安全大数据
结项摘要

When supervising the network public opinion, since the derivative words emerge as abbreviation, homophones, dialect etc and substitute the theme words, the conventional thesaurus alignment based method leads to misclassify a lot of important information as useless data. To solve the previous problems, 1. We build up the discrimination system of the derivative terms. to narrow the scale of the research target, and set the evaluation criteria of recovery; 2. We devise the strategy to identify and recover the variant terms based on the high efficient deep DBN with the similarity embedded in;3. To solve the problem of using the abbreviation, we devise the identification model of the sensitive abbreviation based on the deep convolutional neural network, and the extended HMM to recover the abbreviation; 4. To solve the usage of the Pinyin, dialect, and oral language and so on, we about to devise the recovery strategy of the homophones of the key words based on the dynamic interactive network structure;5. We devise the multi-parallel high efficient deep learning method, resource schedule strategy, and the automated serial-parallel converting method to improve the performance of the deep learning method. With the above research, the efficiency and speed of the extraction of the data of the public opinion can be improved. The ability of the supervision of the public opinion can be improved either. The field of the network content security can be enriched and innovated further.

网络舆情监控中,当采用基于词库比对方法时,因为主题词被缩略语、近音词、方言、变体等衍生命名实体替代,所以导致主题词词库不完整,进而使含有重要信息的数据被误判为无用数据。针对上述问题:1.搭建衍生命名实体的分类判别体系,缩小衍生命名实体识别的研究对象范围、设定还原评价准则。2.构建多语境下基于深度DBN敏感度嵌入的变体识别与恢复方法,解决借用变体等衍生命名实体问题;3.构造基于高效能深度卷积神经网络的敏感性缩略语识别与基于扩展的隐马尔科夫还原模型,解决缩略语表达问题;4.拟构造基于动态交互式网络结构近音还原策略,解决借用拼音、口语、近音、方言等衍生命名实体问题;5.研究多粒度并行的高效能深度学习、资源调度分配、自适应串并行改造通用理论方法,最大地提高深度学习的效率。本研究能提高网络舆情数据的抽取准确率与速度,提高网络舆情监管能力。该理论与方法是对网络内容安全领域的进一步丰富和创新。

项目摘要

网络舆情监控中,当采用基于词库比对方法时,因为主题词被缩略语、近音词、方言、变体等衍生命名实体替代,所以导致主题词词库不完整,进而使含有重要信息的数据被误判为无用数据。针对上述问题:1.设计了基于耦合神经网络的衍生命名实体的分类识别还原模型,在融合了语音语义特征基础上,实现对近音词、缩略语、同义词三类衍生命名实体的分类识别与还原;2.设计基于知识图谱嵌入的中文人名命名实体的消歧识别研究,实现对网络中文命名实体的歧义识别、共指识别;3研究基于多元特征融合的社交网络文本实体指代一致性研究,实现融合了拼音特征、词性特征、实体类型特征、位置特征、上下文语义特征,在自编码器层SDA采用堆叠式降噪进行编码,再利用transformer分类器进行识别还原;4.研究协同中文截略语的识别还原,实现在经过了SVM的预处理后隐马尔科夫随机场的中文截略语的识别还原;5.研究卷积神经网络的多粒度并行及优化研究,研究多粒度并行的高效能深度学习、资源调度分配、自适应串并行改造通用理论方法,最大地提高深度学习的效率。本研究能提高网络舆情数据的抽取准确率与速度,提高网络舆情监管能力。该理论与方法是对网络内容安全领域的进一步丰富和创新。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

跨社交网络用户对齐技术综述

跨社交网络用户对齐技术综述

DOI:10.12198/j.issn.1673 − 159X.3895
发表时间:2021
3

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
4

面向云工作流安全的任务调度方法

面向云工作流安全的任务调度方法

DOI:10.7544/issn1000-1239.2018.20170425
发表时间:2018
5

城市轨道交通车站火灾情况下客流疏散能力评价

城市轨道交通车站火灾情况下客流疏散能力评价

DOI:
发表时间:2015

刘金硕的其他基金

相似国自然基金

1

藏语命名实体识别关键技术研究

批准号:61303165
批准年份:2013
负责人:诺明花
学科分类:F0211
资助金额:22.00
项目类别:青年科学基金项目
2

维吾尔文命名实体识别关键技术研究

批准号:61262060
批准年份:2012
负责人:艾山·吾买尔
学科分类:F0211
资助金额:45.00
项目类别:地区科学基金项目
3

面向海量文本的维吾尔文命名实体识别关键理论及技术研究

批准号:61562083
批准年份:2015
负责人:吐尔地·托合提
学科分类:F0211
资助金额:39.00
项目类别:地区科学基金项目
4

面向Web的命名实体检测与跟踪关键技术研究

批准号:60503070
批准年份:2005
负责人:周雅倩
学科分类:F0211
资助金额:22.00
项目类别:青年科学基金项目