广发证券：智慧金融资料质量监控系统建设之路_业务最新消息

作者介绍

覃剑钊，香港大学博士，现任广发证券资讯科技部资深工程师。

刘佳茜，广发证券实习生，中山大学在读硕士。

张汉林，广发证券资讯科技部副总经理。

蒋荣，哥伦比亚大学博士、特许金融分析师（CFA），现任广发证券资讯科技部总经理。曾任威灵顿管理公司（波士顿总部）董事总经理。

金融资料质量是金融公司提供服务的重要基础，也是公司正常执行的前提保障。随着移动互联网、大资料等金融科技的飞速发展，金融公司的资料量及多样性与日俱增。传统的资料质量监控方法与体系已无法满足现代证券公司资料质量监控的需求。

本文根据广发证券在智慧化资料质量监控系统X-monitor的建设与执行经验，阐述一种智慧化、自适应的多模金融资料质量监控实现路径。该系统利用自适应机器学习方法，将人工设定的资料质量监控规则与机器自学习生成的监控规则相结合，以提高金融资料质量监控的效率和准确度。系统同时支援监控模型的动态更新，以提高其动态适应性与灵活性。

关键字：资料质量监控；人工智能；机器学习；智慧监控

一、引言

1、现状

高质量的资料是金融证券公司提供服务、正常执行的前提基础。资料不稳定、缺失、异常等资料质量问题如果无法及时发现，将会导致证券公司在投资、理财、清算、风险管理、顾问等业务操作中出现问题，进而造成巨大的经济损失。

同时，随着大资料技术、人工智能技术在证券公司各项业务应用的不断深入，大量的系统、业务决策的正确性均需要依赖于高效能的资料质量监督与控制系统。

异常资料的产生原因是多样的，如供应商表结构变化导致后台应用读入不正确的资料、资料读取时意外中止导致的资料缺失等。异常资料的表现形式也有所不同，如资料缺失、资料准确度低、资料的一致性出现异常等。

一个完善的金融资料的质量监控系统需要针对各个资料型别、各种资料异常原因提出相应的解决方案。传统的资料监控模式需要开发人员和测试人员对不同资料制定不同的资料质量监控规则并编码实现，而面对海量的金融行情资料以及客户资料，这种人工监控方式不仅难以覆盖所有资料型别，还会消耗大量的人力和开发时间。同时人为制定的监控规则也会存在规则制定不合理，漏报、误报率高的缺点。

基于此，本文构建了一种智慧化多模金融资料质量监控方法与系统实现方案。该方法提出一种适合于多型别金融资料的智慧资料质量监控规则自生成以及自适应更新方法，以此最大限度的减少人工干预水平，提高资料监控效率与成功率。

另外，系统也支援人机结合模式，允许将人工设定的资料质量监控规则与机器自学习的监控规则相结合，以提高系统的灵活性和可控性。

本文分六章全面阐述了智慧化多模金融资料质量监控的意义与系统实现方案。其中，第二章介绍了资料质量检测的意义及业内常用方法，第三章介绍了广发证券智慧金融资料质量监控平台X-monitor的系统架构，第四章介绍了系统的具体实现方法，第五章中通过实验来验证本文提出的演算法可行性以及系统实际应用效果。第六章进行总结和对未来工作的设想。

二、背景

1、金融资料质量监控的重要意义

对金融公司来说，高质量资料是公司业务正常运转的前提保障。例如，当资料的正确性与完整性缺失时，将会导致智慧投资策略与客户投资建议等重要模组发生错误，进而导致客户投资发生损失。

当文字型资料如投资标的资讯、投资标的公告、产品说明等文字内容出现错误、缺失等异常时，将会影响到客户的投资决策，导致客户对公司的忠诚度下降。加强金融资料质量监控具有重大的意义，具体表现如下：

1）金融资料质量监控有助于提升证券公司资料治理水平的效率和质量

传统的资料监控模式需要耗费较多人力，且对开发人员与测试人员的业务经验有较强的依赖。这种监控模型会消耗大量的人力和开发时间，同时人为制定的监控规则也存在着规则制定不合理，漏报、误报率高等问题。

2）金融资料质量监控有助于提升证券公司各项业务水平及服务质量

目前证券公司的各条业务线数字化程度越来越高，传统经纪业务在向客户提供交易通道的同时，也向客户提供各种可交易证券的报价、新闻资讯等资料服务。

当前蓬勃发展的财富管理业务，包括基于大资料技术及人工智能技术的智慧投顾业务均依赖于可靠稳定的行情资料及客户资料。证券自营业务、资管业务的量化交易系统也高度依赖资料产生投资决策。因此，一个高效、可靠的资料质量监控系统，可以提升证券公司各项业务线的业务水平及质量。

3）金融资料质量监控有助于提升证券公司对内的经营分析质量和风险控制质量

目前证券公司的经营分析与经营决策正快速向资料驱动型转变，分析与决策越来越依赖于大量的资料统计和分析结果，因此高度自动化、可靠的资料质量监控系统，将有助于提升证券公司的经营分析与决策水平。

风险控制是证券公司稳健经验的核心基础，而当前国际、国内成熟的风险控制模型无不依赖于大量的资料建模，因此高度自动化、可靠的资料质量监控系统，将有助于提升证券公司风险控制水平

2、业界常用方法简介

随着各类大资料前沿技术的不断发展与在各应用的不断深入，各领域对资料质量的要求不断提高，资料质量监控的研究也成为业内的热门研究方向。

IBM提出一种资料质量监控的方法：

三、广发证券智慧金融资料质量监控平台X-monitor概述

针对传统资料监控方法的不足，我们提出一种“平台化+智慧化”的解决方案。该方案具有通用化、智慧化、个性化的特点，可以及时、准确、高效的发现资料问题。其创新之处在于：

1）系统支援多专案管理、多型别资料来源接入

具有灵活的监控排程，支援多种时间级别（分钟、小时、日、周等）监控排程和多层级报警，能够及时发现资料的隐患。

2）系统提供自学习监控策略自主生产监督规则

这不仅能够降低资料监控成本，还可以提高对资料异常问题监控的及时性与资料准确性。

3.系统支援智慧资料一致性检测

金融资料的一致性检测是发现隐藏资料质量问题的重要手段之一。传统资料质量检测方法的实现需要人工对资料的取值范围、资料空缺等引数进行手工设定和编码，但人工设定资料检测规则很容易忽视资料之间的一致性，导致一些资料问题只看单一资料字段没法发现。

即便考虑了不同资料字段资料一致性的问题，传统方法需要人工指定待一致性检查的资料字段，然后再定义相应的规则并编码实现。当面对海量的金融行情资料、客户资料，人工指定资料字段进行一致性监控规则将消耗大量的人力。同时，人为设定待一致性检测资料字段需要设定人员具备丰富的业务经验，否则容易产生遗漏。

为了解决这些问题，我们的资料质量监控系统支援自动发现需要进行一致性检测的资料字段，并且具备自动学习资料一致性检测规则的能力。

4）系统支援数值、文字、影象等多模态资料。

平台运用文书处理、影象识别等技术对不同型别的待监控资料进行特征提取，将文字类数值、影象类等非结构化资料进行向量化，转化成结构化资料，再利用数值型资料自动监控规则生成与更新方法对向量化后的非结构化资料进行自动监控与规则更新。

图1展示了X-monitor界面。首界面除了展示当前的总任务数与成功率外，还给出了各监控专案的状态、任务名、任务型别、执行时间等资讯，并允许监控人员对呼叫界面、监控方向进行调整与配置。

▲ 图1 智慧金融资料质量监控平台（X-monitor）界面

X-monitor中的“策略”板块下展示了平台目前支援的智慧策略。

▲ 图2 智慧金融资料质量监控系统使用的模型

系统同时支援开发人员根据具体应用情景、反馈结果等资讯对监控策略进行调整。如图3，在“策略”板块中，系统允许开发人员对不同智慧策略的超引数进行设定。

▲ 图3 系统支付对智慧策略的配置

四、智慧金融资料质量监控系统实现

1、系统架构

广发证券的智慧资料监控系统X-monitor的主体架构如图4所示。

▲ 图4 系统架构图

基础层主要由容器云、基于Apache Spark/Flink的大资料计算平台及各类数据库组成。

其中，容器云具有可弹性扩充套件、容易维护、容易测试等特点，任务排程、讯息推送、资料界面与资料API的监控计算任务、部分数据库资料的监控计算任务等后台应用通常运用容器云完成。

基于Apache Spark/Flink的分散式计算引擎通常负责分散式数据库资料的监控计算任务。而Mysql、Postgresql、Mongodb等各类数据库通常用于配置引数、系统引数、部分监控规则的存取。

基础模组层主要由机器学习演算法、自然语言处理演算法、影象处理演算法、任务排程API、讯息推送API、资料读取界面及API等通用模组组成。

应用层由实现系统核心功能的主体模组组成。具体包括资料预处理、监控规则自生成与更新、监控计算、监控结果反馈、资料读取、讯息推送等功能模组。

使用者互动层主要实现Web端、移动App端的互动功能。

2、应用层主体模组

系统主体模组关系图如图5所示。

▲ 图5 系统主体模组关系图

金融资料质量监控系统的主体功能主要由以下模组组成：资料读取配置模组、资料读取模组、资料预处理模组、监控规则生成与配置模组、监控计算模组、讯息推送模组、反馈模组。

资料读取配置模组对待监控资料的读取呼叫进行配置。该模组允许使用者通过使用者界面（如Web或移动App）对待监控资料的资料来源或者待监控资料的前端读取界面进行配置，同时也可以支援使用者输入符合系统设计标准的资料读取源代码进行资料读取。

当使用者在使用者界面设定完成并确认后，设定的内容将通过应用服务器将设定内容写入应用数据库，其中应用数据库可选取MySQL、PostgreSQL、MongoDB等。

资料读取模组实现对资料的读取。该模组根据已配置的读取方式对待监控资料、待监控资料的历史正常资料进行读取。资料读取模组根据使用者输入的数据库型别、IP地址、使用者、密码、待监控资料所在的资料表、表中字段名等引数对资料进行读取。

为了支援更丰富的资料读取方式，该模组也支援使用者输入符合规范的资料读取程式码模组以供计算服务单元呼叫获取资料。

资料预处理模组利用资料智慧预处理层的策略对待监控资料进行处理。该模组将文字类、影象类、音讯类等非结构化资料转化成结构化数值后，再标准化成生成监控规则所需要的资料格式。

同时该模组也需要自动筛选出强相关的资料字段对，为一致性检测提供待检测资料。

监控规则生成与配置模组将智慧策略自动生成的监控规则与人工规则结合，以实现对监控规则库的不断更新与完善。

该模组在对智慧监控规则模型的超引数进行配置后，利用标准化的待检测资料与选定的机器学习方法对监控规则进行自学习，或者根据更新的待检测资料对监控规则进行自动更新，最后将学习或更新后的监控规则存入规则数据库。

同时，该模组还支援人工对自生成的监控规则进行修改、调整或新增新的规则。由于机器学习产生的资料监控规则在历史正常资料较少的情况下，容易出现监控规则不够完善的情况，故此设计提高了系统的灵活性及适应性。

监控计算模组利用最终配置完成的监控规则对新增待监控资料进行计算，根据输出的结果判断该新增资料是否触发资料异常报警。

讯息推送模组将输出的资料质量监控报警资讯利用讯息推送系统推送给客户，讯息推送系统可包括微信、简讯、应用App等渠道。

例如：App推送可通过MQTT、XMPP等协议实现，也可以呼叫阿里云移动推送、腾讯信鸽推送等第三方平台实现。

反馈模组负责接收运维人员对资料监控报警的反馈资讯，并将该反馈资讯反馈给监控规则生成与配置模组。资料开发、测试人员根据反馈结果对监控资料进行人工调整和优化。

如果反馈发出报警的讯号为假讯号，则需要反馈给监控规则生成与配置模组，根据具体原因及时进行监控规则调整。

3、智慧监控规则生成方法

1）数值型金融资料监控规则

金融产品行情收益率的分布通常可近似认为服从高斯模型或高斯混合模型。因此该类资料的监控规则可利用高斯模型、高斯混合模型来建立。一维资料的高斯模型数学表示式为：

$p(x)=\frac{1}{\sqrt{2\pi\delta ^{2}}}e^{-\frac{(x-\mu )^{2}}{z\delta ^{2}}}$

其中引数μ，δ 分别为训练资料的均值和标准差。多维资料的高斯混合模型的数学表示式为：

$p(x)=\sum _{i=1}^{K}\frac{\omega _{i}}{\sqrt{2\pi \sigma _{i}^2}}e^{(-\frac{(x-\mu _{i})^2}{z\sigma _i^2})}$

其中，$\sum _{i=1}^{K}\omega _i=1$，K为高斯模型的数目，$ω_i$，$μ_i$，$σ_i$分别为第i个高斯模型的权重、均值和标准差。这些引数可以利用历史正常资料，采用EM（Expectation Maximization）演算法进行估计。

当待监控资料的分布模型未知时，可以采用One-Class SVM或Isolation Forest对待监控资料进行建模。One-Class SVM模型在异常资料检测中被广泛使用，它通过历史正常资料构造支撑超平面，以此判断待监控资料是否为正常资料。

Isolation Forest模型也是一种无需事先知道资料分布模型的方法，由于异常资料具有在生成树中经过的路径（即树的节点个数）较短的特点，Isolation Forest利用该特性实现异常资料的检测。

2）文字型金融资料监控规则

文字资料是金融资料的重要组成部分，这些资料包括投资标的相关新闻、投资标旳公告、金融产品说明以及金融公司内部档案互动等。这些文字资料是金融公司提供客户服务的重要基础，也是公司正常执行的重要基础。

要完成文字资料监控规则的自动生成，首先需要把文字资料对映成数值向量，然后利用上述数值型监控规则自动生成方法完成规则的生成。我们采用以下方法将文字向量化：

① 首先建立分词模型和词向量模型。

由于金融类文字包含了大量金融专业术语和独特的金融产品名称，采用通用分词模型容易导致文字分词结果错误。因此，在进行分词模型训练前，需要人工（或结合新词发现的方法）进行词库扩充。

完成词库扩充后，再利用更新后的词库进行分词模型的训练。常用的分词模型有隐马科夫（HMM），条件随机场（CRF）等模型。在进行词向量模型训练时需要采集wiki、金融资讯、金融公告等文字资料，并利用训练好的分词模型对这些文字资料进行分词。

得到文字资料的分词后，利用word2vec演算法或Fasttext方法建立词向量模型。

其中，Fasttext中的词向量训练与word2vec相似，主要有两种方案：

二者都是通过计算单词之间的共现关系来实现训练，即把相关词汇对映到词向量空间的模型。

② 得到训练好的分词模型后，需要用该模型对待监控历史文字资料进行分词，接着采用词向量模型把文字资料的分词结果对映到词向量空间。

③ 最后，系统将计算历史文字资料的词向量分布以形成文字资料的数值向量表达。得到文字资料的数值向量表达后，即可采用数值型监控规则自生成方法中采用的高斯模型、高斯混合模型、One-Class SVM等模型完成监控规则的自动生成。

3）影象资料监控规则

证券公司投资银行业务在对公司进行实地调研与持续督导过程中，通常会通过拍摄、影印、扫描等方式获取待调研待督导公司相关资料。公司本身也会通过影象方式（如证明材料的扫描件）来提交材料。

影象资料监控规则的自动生成首先需要把影象资料对映为数值向量，然后利用上述数值型监控规则自动生成方法完成规则的生成。

我们在系统实现中采用了以下方法完成影象资料向量化：

4）智慧资料一致性监控

资料内容的一致性指的是两个线性相关的资料字段的资料应该保持其线性相关性。

例如，当一只基金的评分越高时，其对应的评级也应该越好。由于金融资料体量庞大，人工设定需要进行一致性检测的字段是不现实的，所以我们提出一种自动发现需要进行一致性检测的资料字段的方法：

五、系统评估

1、智慧监控规则生成方法实验验证

为验证智慧策略在资料监控中的效能，我们设计实验检验三种智慧监控规则生成方法（GMM，Isolation Forest与One-Class SVM）对异常资料的检出效果。

实验选取天相基金资料作为资料集，抽取了100支基金，共20100个净值资料来训练各模型。实验根据各基金的资料分布情况模拟生成异常资料，将其标记后混入正常资料，用训练好的模型输出检测到的异常资料，以此比较各模型的检测效能。

测试过程中使用的评估指标包括召回率、准确率与F1值。

本实验主要分为两部分：各模型最优引数的确定与模型的对比。前者显示，各模型在其最优引数下对异常资料均有优秀的检测能力。

其中，One-Class SVM与isolation Forest的召回率与精确率均可达到100%，GMM效果相对逊色，但也达到了99.8%的召回率与100%的精确率。

为对比各模型对异常资料的检测能力，我们调整异常资料的生成方式以增大异常资料的甄别难度。

结果显示，One-Class SVM的综合表现最佳，它在资料检出率与时间效能上都表现突出，其次是GMM模型，它在F1值与isolation Forest相差无几的情况下具有更低的时间复杂度。

不过尽管One-Class SVM的表现相对较弱，其对异常资料的检测率仍然可达到令人满意的程度。模型对比的统计结果如下：

▲ 图6 三种模型在异常资料检测实验中的结果

具体资料如下表：

▲ 表1 实验结果

实验验证了三种模型在异常资料检测上的优越效能，进而证实了统计模型及机器学习模型用于监控规则生成的可行性，模型生成与更新的高效性更为海量金融资料的处理带来了便利。

2、系统应用

目前平台在广发证券贝塔牛、广发证券财富管理平台、交易测试柜台等系统中进行了监控测试，运行了上千次监控任务。初步验证了平台的有效性与实用性。

▲ 图7 广发证券X-monitor平台应用于贝塔牛、财富管理平台等专案

六、结论与展望

对金融资料的分析处理一直是金融证券公司提供服务的重要基础。随着大资料技术与人工智能在证券公司的不断拓展应用，金融资料的质量监控成为维系公司业务正常执行的前提保障。

本文针对金融资料的质量监控，根据广发证券智慧资料监控平台X-monitor的实现路径，介绍了一套“平台化+智慧化”的解决方案。

最终搭建的监控平台不仅支援对数据库进行实时资料监控，也允许配置API支援与大部分周边系统的对接。与传统的人工设定监控规则不同，该平台利用机器学习方法，将智慧监控策略与人工规则结合。

这不仅降低了资料监控成本，更提高了对异常资料的监控及时性与准确性。从测试与执行结果来看，该平台具有明显的有效性与实用性。

尽管本文构建的金融资料质量监控系统在效能上已经取得不错的成效，但随着资料规模与复杂度的不断提升，金融公司中各业务对资料质量要求也在不断提高。后续工作中，我们将继续提高平台的智慧化水平。

本文目前仅在资料质量的监控规则建立时利用人工智能技术，未来将考虑将智慧策略融入资料监控的其他方面，如资料的自动平稳化、资料地图的自动生成、异常资料来源的智慧定位等方向。

>>>>参考文献

注：本文选自《交易技术前沿》总第三十三期文章（2018年12月）广发证券股份有限公司

作者：覃剑钊、刘佳茜、张汉林、蒋荣

来源：上交所技术服务（ID：SSE-TechService）

dbaplus社群欢迎广大技术人员投稿，投稿邮箱：[email protected]

广发证券：智慧金融资料质量监控系统建设之路_业务

品牌选车