The number of Mongolian, Tibetan and Uyghur websites is growing rapidly with more and more details. Every user can declare his issues through BBS, blogs and other network medias from time to time, forming network public opinion. To positively guide public opinions and propaganda, we need to find the hot topics timely.. In this project, we will establish public opinion corpus in religion, economy, science and other fields by collecting information through monitoring minority language network resources dynamically. We will also construct an integrated management platform, in terms of the cross language social public opinion monitoring standard, to recognize and track the hot and sensitive topics in national regions. We will then carry out group behavior analysis and public opinion monitoring using text orientation analysis. . The key technologies in our research include:. (1) Minority language text preprocessing technology, such as network real-time data download, code conversion, morphology analysis, etc.. (2) Minority language semantic ontology knowledge base construction for public opinion monitoring.. (3) Public opinion monitoring analysis technique based on the semantic ontology, such as cross language information retrieval, hot topic identification and tracking based on continuous time dynamic topic models, text orientation analysis etc.. With all of these technologies, the minority area public opinion analysis report will be formed for government to grasp public opinion and make positive guidance. The research output of this project can provide methodological and technical support for realizing above functions.
随着网络技术的发展,蒙藏维文网站增长迅猛、内容丰富。各民族网民实时通过论坛、博客等发表言论,形成网络舆论。只有及时掌握舆情动向,才能正面引导舆论和宣传。本课题通过动态监测蒙藏维汉民族语言网络资源,建立涵盖宗教、经济、科教等领域的社会舆情综合语料库;应用跨语言社会舆情监测指标体系,建立统一的集成管理平台,对少数民族地区关注的热点或敏感话题进行识别与动态跟踪,通过话题的倾向性分析,实现少数民族语言网络资源的群体行为分析及综合舆情监测。本研究重点解决的关键技术问题包括:多民族文字共现的网络数据实时下载、编码转换、词法分析等预处理技术;面向舆情监测的多民族语言语义本体知识库建设;基于语义本体的跨语言信息检索;基于跨语言时间演化主题模型的热点话题检测与跟踪、文本倾向性分析等技术,形成民族地区舆情分析报告,为决策层全面掌握民族地区舆情动态,做出正确舆论引导,实现提供技术支撑和接近实际使用需求的系统。
当今信息时代,网络环境的信息安全是国家安全的重要保障。本项目针对少数民族语言资源匮乏,语言形态变化复杂、以及跨语言舆情分析难度大等问题,解决五项关键技术①多民族语言资源建设及预处理技术②跨语言信息抽取技术与知识库建设③文本倾向性分析、话题发现与跟踪技术④跨语言信息检索技术⑤跨语言舆情分析统一平台。取得预期目标:.在资源建设及规范标准方面,制定多民族语言语料加工标准规范9份,包括蒙藏维文《信息处理用现代藏语分词规范》等8份及突发事件网络舆情监测指标1份;建立蒙藏维词法分析、情感词典、多领域社会舆情综合语料库等。项目数据库在国家语委“语汇网”等开放共享6个。.在关键技术研究方面,提出热点话题分类训练语义知识,建立蒙藏维汉情感语义词典,研究跨语言文本语义相似度及倾向性分析方法,进行敏感性判断;对语义表示歧义现象,采用有向图结构保存和检索目标语言;对低资源语言问题,提出迭代联合模型学习平行词典和短语的非平行语料库方法;为平衡建模时上下文不敏感、歧义性高和数据稀疏矛盾,提出面向短语翻译的神经网络调序模型等理论和方法等。研究共发表高质量学术论文68篇、标注率100%,其中北大核心期刊10篇、SCI 8篇、EI 35篇;CCF A类4篇(ACL 2篇、AAAI 1篇、IJCAI 1篇)、B类5篇(EMNLP 3篇、COLING 2篇),总被引250、总下载11044;出版专著5部,其中1部获Springer2018计算机中国作者年度影响力出版物;获国家发明专利12项、软著11项;组织全国技术评测1次;承办国际会议1次、全国会议4次;获省部级奖10项;提交咨政报告12份,其中1份获国家领导批示;培养“国家优青”等中青年学者2人、博士毕业生9人、硕士18人。.在成果转化应用方面,在民族政策、农业等领域构建了6个知识库。项目搭建的“民族语言舆情汇聚与分析系统”,已在新华社投入使用。.本项目研究为跨语言文本内容舆情监测提供了技术保障,下一步将聚焦于跨媒体多源信息融合的舆情分析关键技术研究,更好服务于国家安全。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
跨社交网络用户对齐技术综述
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
跨语言社会舆情分析基础理论与关键技术研究
跨语言敏感事件抽取关键技术研究
跨语言文本自动分类关键技术研究
面向英汉双向跨语言图像检索的文本分析关键技术研究