Big data technology has been widely used in business decision-making systems, and effectively drives the improvement of the production capacity, efficiency and other aspects. However, for the task of big data-driven financial market prediction, previous work on the one hand cannot deeply understand the content of texts. On the other hand they extract high-dimensional and sparse features from texts. This project intends to learn semantic representation for the big text data, and thus promotes the development of big data-driven financial market prediction. The key characteristic and contributions are as follows. (1) This project proposes prediction-oriented event representation learning method. Event embeddings are trained such that similar events have similar vectors, even if they do not share common words. This work can effectively improve the accuracy of event generation and can serve as a basis for big data-driven prediction technology. (2) This project proposes target-specific sentence representation learning method, which can learn specific sentence embeddings and generate different prediction results for different firms. (3) This project proposes hierarchical LSTM model to learn document embeddings, which can address the problem of lack of information and background knowledge in event embeddings. This work can provide a novel solution for the task of big data-driven financial market prediction. (4) This project proposes a novel convolution neural network based prediction model, which can quantitatively model the impact of different levels of text features on financial market.
大数据技术已广泛应用于商业决策系统中,并有效驱动企业产能、效率等方面的提升。然而对于大数据驱动的金融市场行情预测任务,现有研究一方面难以全面深入理解文本内容,另一方面抽取的特征维度较高且十分稀疏。本课题旨在通过对大规模文本进行语义表示学习,进而推动大数据驱动的金融市场行情预测研究工作,其主要创新点体现在如下四方面:1)提出一套面向预测的事件表示学习方法,将同类事件映射到向量空间相邻位置,提高事件归一化准确率,为大数据驱动的预测技术奠定基础;2)提出面向预测对象的句子表示学习方法,针对同一句子该方法为不同的预测对象学习出不同的句子表示,进而得到不同的预测结果;3)提出基于层次化LSTM模型学习篇章级文本语义表示,进而克服了事件信息量小、缺乏背景知识等不足,为大数据驱动的预测技术提供全新的解决思路;4)提出一种基于卷积神经网络的预测模型,量化学习不同层级金融文本特征给市场行情带来的影响。
大数据技术已广泛应用于商业决策系统中,并有效驱动企业产能、效率等方面的提升。然而对于大数据驱动的金融市场行情预测任务,现有研究一方面难以全面深入理解文本内容,另一方面抽取的特征维度较高且十分稀疏。本课题旨在通过对大规模文本进行语义表示学习,进而推动大数据驱动的金融市场行情预测研究工作,其主要研究内容为:1)提出一套面向预测的事件表示学习方法,将同类事件映射到向量空间相邻位置,提高事件归一化准确率,为大数据驱动的预测技术奠定基础;2)提出面向预测对象的句子表示学习方法,针对同一句子该方法为不同的预测对象学习出不同的句子表示,进而得到不同的预测结果;3)提出基于层次化LSTM模型学习篇章级文本语义表示,进而克服了事件信息量小、缺乏背景知识等不足,为大数据驱动的预测技术提供全新的解决思路;4)提出一种基于卷积神经网络的预测模型,量化学习不同层级金融文本特征给市场行情带来的影响。受本项目的资助,我们取得了一系列的研究成果:构建事件表示学习评测语料一套、世界上最大规模英文因果数据集一套,并免费对外开放,有30余家科研机构因此受益;获黑龙江省科技进步二等奖一项;参加SemEval 2020国际语义评测获得“检测反事实”子任务第一名;发表论文15篇,其中CCF A类会议论文4篇,CCF B类会议论文4篇,CCF C类会议论文1篇,JCR一区/CCF B类期刊5篇;申请发明专利3项;参与成功申请两项科技部2030“新一代人工智能”重大项目。培养博士生2名,硕士研究生4名。提出的具有知识推理能力的故事结尾预测模型比当前最好的预训练语言模型的预测准确率高4.1%。该项目的相关成果得到华为、招商银行、科大讯飞、腾讯、中国搜索等公司付费使用。本课题最终达成的研究目标为:提出一套一体化的基于深度学习的金融市场行情预测方法和模型,使之能够方便地整合各种预测模型的研究成果,并面向预测的多样化需求基于表示学习方法进行深度的数据挖掘和自然语言处理。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
粗颗粒土的静止土压力系数非线性分析与计算方法
基于LASSO-SVMR模型城市生活需水量的预测
中国参与全球价值链的环境效应分析
基于多模态信息特征融合的犯罪预测算法研究
基于多粒度表示学习的文本可读性评估技术研究
基于结构化数据表示学习的文本生成技术研究
基于多源语义表示学习的社交媒体文本属性情感分类研究
面向机器翻译的多层次文本嵌入表示学习研究