基于文本表示学习的金融市场行情预测方法研究

基本信息
批准号:61702137
项目类别:青年科学基金项目
资助金额:25.00
负责人:丁效
学科分类:
依托单位:哈尔滨工业大学
批准年份:2017
结题年份:2020
起止时间:2018-01-01 - 2020-12-31
项目状态: 已结题
项目参与者:陈毅恒,段俊文,赵森栋,李洋,李忠阳,孙晓飞,钱岳
关键词:
文本表示学习预测模型文本挖掘金融市场大数据
结项摘要

Big data technology has been widely used in business decision-making systems, and effectively drives the improvement of the production capacity, efficiency and other aspects. However, for the task of big data-driven financial market prediction, previous work on the one hand cannot deeply understand the content of texts. On the other hand they extract high-dimensional and sparse features from texts. This project intends to learn semantic representation for the big text data, and thus promotes the development of big data-driven financial market prediction. The key characteristic and contributions are as follows. (1) This project proposes prediction-oriented event representation learning method. Event embeddings are trained such that similar events have similar vectors, even if they do not share common words. This work can effectively improve the accuracy of event generation and can serve as a basis for big data-driven prediction technology. (2) This project proposes target-specific sentence representation learning method, which can learn specific sentence embeddings and generate different prediction results for different firms. (3) This project proposes hierarchical LSTM model to learn document embeddings, which can address the problem of lack of information and background knowledge in event embeddings. This work can provide a novel solution for the task of big data-driven financial market prediction. (4) This project proposes a novel convolution neural network based prediction model, which can quantitatively model the impact of different levels of text features on financial market.

大数据技术已广泛应用于商业决策系统中,并有效驱动企业产能、效率等方面的提升。然而对于大数据驱动的金融市场行情预测任务,现有研究一方面难以全面深入理解文本内容,另一方面抽取的特征维度较高且十分稀疏。本课题旨在通过对大规模文本进行语义表示学习,进而推动大数据驱动的金融市场行情预测研究工作,其主要创新点体现在如下四方面:1)提出一套面向预测的事件表示学习方法,将同类事件映射到向量空间相邻位置,提高事件归一化准确率,为大数据驱动的预测技术奠定基础;2)提出面向预测对象的句子表示学习方法,针对同一句子该方法为不同的预测对象学习出不同的句子表示,进而得到不同的预测结果;3)提出基于层次化LSTM模型学习篇章级文本语义表示,进而克服了事件信息量小、缺乏背景知识等不足,为大数据驱动的预测技术提供全新的解决思路;4)提出一种基于卷积神经网络的预测模型,量化学习不同层级金融文本特征给市场行情带来的影响。

项目摘要

大数据技术已广泛应用于商业决策系统中,并有效驱动企业产能、效率等方面的提升。然而对于大数据驱动的金融市场行情预测任务,现有研究一方面难以全面深入理解文本内容,另一方面抽取的特征维度较高且十分稀疏。本课题旨在通过对大规模文本进行语义表示学习,进而推动大数据驱动的金融市场行情预测研究工作,其主要研究内容为:1)提出一套面向预测的事件表示学习方法,将同类事件映射到向量空间相邻位置,提高事件归一化准确率,为大数据驱动的预测技术奠定基础;2)提出面向预测对象的句子表示学习方法,针对同一句子该方法为不同的预测对象学习出不同的句子表示,进而得到不同的预测结果;3)提出基于层次化LSTM模型学习篇章级文本语义表示,进而克服了事件信息量小、缺乏背景知识等不足,为大数据驱动的预测技术提供全新的解决思路;4)提出一种基于卷积神经网络的预测模型,量化学习不同层级金融文本特征给市场行情带来的影响。受本项目的资助,我们取得了一系列的研究成果:构建事件表示学习评测语料一套、世界上最大规模英文因果数据集一套,并免费对外开放,有30余家科研机构因此受益;获黑龙江省科技进步二等奖一项;参加SemEval 2020国际语义评测获得“检测反事实”子任务第一名;发表论文15篇,其中CCF A类会议论文4篇,CCF B类会议论文4篇,CCF C类会议论文1篇,JCR一区/CCF B类期刊5篇;申请发明专利3项;参与成功申请两项科技部2030“新一代人工智能”重大项目。培养博士生2名,硕士研究生4名。提出的具有知识推理能力的故事结尾预测模型比当前最好的预训练语言模型的预测准确率高4.1%。该项目的相关成果得到华为、招商银行、科大讯飞、腾讯、中国搜索等公司付费使用。本课题最终达成的研究目标为:提出一套一体化的基于深度学习的金融市场行情预测方法和模型,使之能够方便地整合各种预测模型的研究成果,并面向预测的多样化需求基于表示学习方法进行深度的数据挖掘和自然语言处理。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
3

基于LASSO-SVMR模型城市生活需水量的预测

基于LASSO-SVMR模型城市生活需水量的预测

DOI:10.19679/j.cnki.cjjsjj.2019.0538
发表时间:2019
4

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
5

基于多模态信息特征融合的犯罪预测算法研究

基于多模态信息特征融合的犯罪预测算法研究

DOI:
发表时间:2018

丁效的其他基金

相似国自然基金

1

基于多粒度表示学习的文本可读性评估技术研究

批准号:61906085
批准年份:2019
负责人:蒋智威
学科分类:F0606
资助金额:25.00
项目类别:青年科学基金项目
2

基于结构化数据表示学习的文本生成技术研究

批准号:61906053
批准年份:2019
负责人:冯骁骋
学科分类:F0606
资助金额:25.00
项目类别:青年科学基金项目
3

基于多源语义表示学习的社交媒体文本属性情感分类研究

批准号:61772135
批准年份:2017
负责人:廖祥文
学科分类:F0211
资助金额:16.00
项目类别:面上项目
4

面向机器翻译的多层次文本嵌入表示学习研究

批准号:61672440
批准年份:2016
负责人:苏劲松
学科分类:F0211
资助金额:62.00
项目类别:面上项目