Internet banking is an important industry in the big data era. However, as the big data techniques are still at the beginning stage, China's Internet banking is not optimistic. Particularly, as the risk identification capability is low in Internet credit industry, the financial risk is high. Therefore, this proposal will focus on design and development of a multi-source data based credit scoring model for Internet credit. A multi-source data based personal identification model will be proposed which will change the methodology from account-based model to entity-based model. A financial risk based correlation detection method will be proposed for dimensionality reduction/feature selection for big data. Furthermore, a multi-source data based hybrid credit scoring model will be proposed and implemented, which will contribute to the credit scoring research and technology as well as big data.In order to make it capable to process TB-scale data, we will propose a parallel credit scoring model. This proposal will implement the proposed credit scoring model and a big data collection platform for Internet credit industry. Eventually,case studies will be conducted on real applications, where the feasibility and the effectiveness will be evaluated and reported. Therefore, the outcome of the proposed project will contribute to the progress of China's big data technology and Internet finance.
互联网金融是互联网+时代的重要产业。然而,由于基于互联网大数据的管理与决策技术还处在起步阶段,我国的互联网金融水平较低。尤其是互联网信贷行业,由于对互联网上借贷人的信用风险的评估能力较低,导致存在较大金融风险。因此,本项目将致力于多源大数据驱动的面向互联网信贷的个人信用评分模型的研究。通过提出基于多源大数据的个人身份识别模型,改变目前业界以账户为自然人的评分模式,全面地掌握并反映出借贷人的信用风险;提出一种基于风险相关性判别的大数据特征提取方法;建立融合多源数据的混合信用评分模型。这将是信用评分理论和技术体系的创新和贡献。面对TB级的互联网信贷数据,为解决模型的可扩展性和性能问题,将研究分布式/并行式的信用评分计算方法。本项目将实现评分模型原型和信贷大数据采集平台,并在真实的产业平台上展开应用研究,检验其有效性和可行性。本项目的研究成果将为我国的大数据科技和互联网金融产业发展做出贡献。
随着互联网+时代的到来,互联网金融正在我国蓬勃发展。然而,目前我国的网贷经营状况不佳。坏账的积聚已成为网络信贷的罪魁祸首。究其原因,缺乏对借贷方的信用风险评分,风险控制不良。.目前,国内外在网络信贷个人信用评分方面的研究刚刚起步。虽然对互联网信贷信用展开了研究,但还有很多问题亟待解决。.首先,着力于互联网信贷个人用户身份识别问题的研究。鉴于互联网信贷数据的来源多样化,包括文本、网页、图像挖掘等,类型复杂、非结构化,很难确定其所包含的核心内容、主题、以及情感倾向,本项目研究了文本主题提取技术、领域专业词汇生成技术、领域词汇本体生成算法,以及基于深度学习的领域术语自动生成模型。.然后,针对图像类的信贷数据,着重研究了如何从多源异构的互联网信贷数据中提取出与信贷风险最相关的特征,提出了一系列基于深度学习的小目标特征提取模型、小目标检测和识别模型。.接下来,将多源、多类型的数据融合,研究了基于图挖掘的风险预测模型、基于迁移学习的个人信用评分模型,以及基于注意力机制和因子分解机的信用评分模型。.所提出的各种模型,在公开的图像检测识别数据集、文本分类数据集、信用风险预测数据集上取得了优于其它模型的成绩。.然后,为了解决互联网信贷公司与传统商业银行数据不共享、各互联网信贷公司之间数据资源也不共享的壁垒问题,本项目实现了多源大数据个人信用评分模型软件原型,将底层数据打通,实现数据共享。.最后,在国内、国外的信用风险公开数据集上,本项目所研究的个人信用评分模型取得了很好的效果;同时,在真实的应用(考拉征信个人信用评分)中取得了较高的K-S指标。.本项目共发表论文18篇,其中7篇SCI检索,9篇EI检索;共形成2个软件著作权。.本项目所研究的面向互联网信贷的信用评分模型促进了不同学科的融合,不但能够提高互联网金融风险管控水平和效率,还将具有广阔的应用前景和商业价值。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
基于LASSO-SVMR模型城市生活需水量的预测
自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例
基于多模态信息特征融合的犯罪预测算法研究
敏感性水利工程社会稳定风险演化SD模型
个人信用评分模型设计
大数据环境下面向互联网金融的个人信用深度挖掘与评价研究
面向多源异构征信大数据的信用评分理论、方法与应用研究
面向多源空间相关大数据的数据清洗系统关键技术研究