资料整理——大资料治理的关键技术最新消息

资料整理——大资料治理的关键技术

杜小勇1,2, 陈跃国1,2, 范举1,2, 卢卫1,2

1. 中国人民大学资讯学院，北京 100872；

2. 资料工程与知识工程教育部重点实验室（中国人民大学），北京 100872

摘要：资料是-、企业和机构的重要资源。资料治理关注资料资源有效利用的众多方面，如资料资产确权、资料管理、资料开放共享、资料隐私保护等。从资料管理的角度，探讨了资料治理中的一项关键技术：资料整理。介绍了以资料拥有者和直接使用者（行业使用者）为核心的资料整理的关键技术，包括资料结构化处理、资料质量评估及资料清洗、资料规范化、资料融合与摘取、资料整理的释出共享等。最后，针对加强资料整理方面的研究提出了一些思考。

关键词：资料整理 ; 资料准备 ; 资料治理 ; 资料管理

论文引用格式：

杜小勇, 陈跃国, 范举, 等. 资料整理——大资料治理的关键技术[J]. 大资料, 2019, 5(3): 13-22.

DU X Y, CHEN Y G, FAN J, et al. Data wrangling:a key technique of data governance[J]. Big Data Research, 2019, 5(3): 13-22.

1 引言

大资料作为一种资源，在-、大型企业和机构中发挥着越来越重要的作用。随着大资料应用的不断推进，与资料资源的价值提炼、保值和增值密切相关的大资料治理越来越引起人们的重视。大资料治理是一项复杂的工程，它需要在国家、行业、企业等多个层面上开展体系化的建设，技术上包含资料资产确权、资料管理、资料开放共享、资料隐私保护等诸多方面。这些技术面临的挑战多、难度大，很多方面还没有形成被广泛认可的系统化的解决方案。本文从资料管理这一关键环节出发，探讨其中的关键支撑技术：资料整理（data wrangling）。

资料整理也叫资料准备，是在挖掘提炼资料价值的过程中进行的前期的资料预处理工作。它看似不足轻重，实则非常重要。有调查研究表明，很多大资料分析任务80%以上的工作花费在资料整理上，这给资料分析带来了巨大的人力成本。很多分析设想因为承担不起前期的资料整理工作而最终被放弃。更重要的是，由于缺少系统性和理论性的支撑，资料整理的质量千差万别，这给资料分析的结果带来了很大的不确定性，大大影响了大资料价值的挖掘与提炼。因此，人们很有必要重视资料整理的研究工作，它是整个资料治理环节中一项重要的基础性工作，但是这项工作在学术界和企业界并没有得到应有的重视。

2 资料整理概述

在资料仓库时代，资料预处理主要指的是抽取、转换和载入（ETL）过程。笔者探讨的资料整理和ETL过程有相似的地方，两者都将多源异构的资料集通过一系列处理和转换，变成想要的输出形式。但二者之间是存在较大差别的，具体如下。

● 针对的使用者不同。ETL服务于专业的资料工程师，而资料整理服务于企业内部所有的资料使用者，以对资料处理技术不熟悉的业务使用者为主。这些使用者虽然缺少资料管理与资料处理知识，但对业务非常熟悉，对资料背后的语义更清楚。他们是企业机构大资料价值发现的主力。如何针对这类业务型资料分析人员的需求和特点，提供高效的资料整理工具，是资料整理技术面临的一大挑战。

● 资料处理的目的不同。资料仓库中的ETL是为了建立资料仓库采用的相对固定的资料处理流水线。资料处理过程一旦建立，整个过程比较静态，很少再变化。资料整理是针对企业业务系统中的问题，动态构建的资料处理过程。它针对具体问题进行资料预处理，针对不同问题采用不同的资料整理过程，一些任务之间可以共享某些资料整理过程。

● 资料处理的物件不同。ETL处理的资料物件多为业务系统数据库中的结构化资料来源，这些资料来源有很规范的元资料。资料整理则面临更复杂、更多样化的资料来源，直接应对大资料多样性（variety）的挑战。这种多源异构性在很多大资料应用中非常常见。资料整理技术通常需要帮助使用者将其拥有的资料与外部的一些资料来源进行关联和资料融合。融合过程中存在的大量资料质量问题（如资料项缺失、不一致、重复、错位、异常值等）给资料整理带来了巨大挑战。与ETL技术相比，这种变化是一种质的变化。

资料整理是为了使资料更好地服务于资料分析而对资料进行的审查和转换的过程，它是整个资料分析流程中最占用精力的过程。从技术上讲，资料整理包含前期资料解析与结构化处理、资料质量评估与资料清洗、资料整合和提纯等过程。由于问题的复杂性，资料整理过程通常不是完全自动化的，而是需要使用者介入的反复迭代和互动的过程。资料视觉化、使用者反馈与互动在整个过程中都发挥了重要作用。资料整理是由资料视觉化领域的Jeffery Heer教授（华盛顿大学）和数据库领域的Joseph M.Hellerstein教授（加州大学伯克利分校）等人较早提出来并持续开展系列研究的。他们还将研究成果进行了产业化，成功创立了以资料整理为主业的Trifacta公司。本文主要在上述两位教授及其合作者发表的一些成果的基础上，对资料整理包含的一些核心要素进一步地阐述，以期引起人们对资料整理研究和应用的重视。

3 资料整理的核心技术

3.1 资料的结构化处理

很多资料模型和算法是构建在结构化资料基础上的，多源异构资料要更好地与其他资料集融合，结构化处理是必不可少的过程。资料结构化处理首先要对原始资料进行解析，提取出需要的资讯，再进一步将其转换成结构化资料。很多非结构化资料、Web资料是以文字形式存在的，需要使用资讯抽取技术识别文字中的实体、属性、关系等资讯。也有很多资料采用的是结构化强一些的资料模型，如JSO格式，这类资料相对关系型资料更灵活，在结构化转换过程中也需要一些技术上的处理。结构化处理的主要输出形式是二维表或者图资料，它需要使用者确定资料在转换过程中采用的规则。

3.2 资料质量评估与资料清洗

结构化处理主要是资料表达形式上的转换，资料结构化之后并不意味着能够直接使用。处理后的资料还要进行质量评估，如果发现数据中存在问题，则采取进一步的资料清洗措施。这个过程称作资料质量评估。一些简单的资料质量问题可以利用自动化的算法发现，因为资料质量问题的多样性和不可预测性，资料视觉化技术成为资料质量评估的关键技术。借助视觉化技术，对资料语义非常了解的业务人员更容易发现数据存在的质量问题（如缺失、不一致、异常等）。伴随着资料质量问题的发现，使用者可以定义一些资料清洗规则，批量化地处理资料中存在的质量问题，提高资料清洗的效率。在数据库研究领域，也有人借助众包的思路提升资料清洗的效率。这种做法也是基于使用者在资料清洗过程中发挥的重要作用进行的。在资料清洗过程中，需要多轮次的人机互动，系统的互动界面和互动方式对于资料清洗算法的有效性尤为重要。

3.3 资料规范化

资料清洗还有一项重要的内容是资料规范化，这也是资料准备中常见的问题。规范化有简单的底层资料层面的，如资料型别转换、单位变换、格式表换等，也有较为复杂的资料项规范化处理，如电话号码、邮编、地址等。这类问题的主要成因是自然语言表达上的差异性会造成同一实体存在多种表达形式。比较典型的例子是地址，人们需要对其进行规范化处理，以提升资料的质量。地址的规范化面临的一个比较大的挑战就是粒度的选取，同一个地址可以用不同粒度进行表达。资料的规范化处理需要根据应用的需求特点，确定资料粒度和表达方式。地址规范化处理背后的问题是实体链指问题，即把同一实体的不同表达形式（不同名字）对映到同一个实体名字上，消除实体表达的语义鸿沟，进而通过关联在资料集中不同地方出现的相同语义的实体，达到资料融合的目的。

此外，缺失值填充也是资料规范化处理过程中常见的问题。一种处理方式是利用缺失资料的上下文资料，采用资料插值的办法修复缺失资料；另一种处理方式是采用平均值或者预设值的办法填充缺失资料，有时候也用这种办法替换系统发现的异常值。

3.4 资料融合与摘取

很多资料价值的发现源自于多源异构资料之间的关联和在关联资料基础之上进行的资料分析。将多个数据集（很可能来自于多个数据源）融合到一起，可使资料内容更丰富，更容易获得新的发现。然而，多源资料融合所需的资料整理过程面临的挑战是很大的。多源头的资料缺少统一的设计，这导致资料整合和资料融合的难度加大。传统的基于模式的资料整合方法很难发挥出大的作用，解决这一难题更多地要从资料项的层面关联资料。因此，实体链指操作在资料融合过程中就显得尤为重要。资料在实体层面的链指可以丰富实体的语义，建立跨资料项之间的关联。由于实体表达的模糊性，实体上下文资讯对实体链指精度的影响非常大，有效利用实体上下文资讯（如文字中的语境、表结构中同行属性值等）是实体链指的关键。

资料融合是资料集整合的过程，有些分析任务未必需要全部整合后的资料，可能仅需要一部分资料支撑分析任务。在这种情况下，需要从资料集中提取部分资料（如一些样本或者资料片段），降低资料量，供资料分析模型实现分析操作。这一过程称作资料摘取，它需要根据任务的特点摘取相关资料。

3.5 释出共享

企业中复杂的资料分析任务经常需要被共享，某些资料整理操作也会被重复使用，这意味着资料整理的操作也是企业机构的一种资源。企业需要将这些操作以指令码的形式物化出来，使其能够被检索、分享和重复利用。经过资料整理过程的资料，其世袭关系需要被记录下来，以确保使用者能够追溯资料的来源，也便于利用索引技术检索需要的资料整理操作。企业内部对资料整理的共享对于企业内部知识管理、协同工作而言有很重要的意义。

4 以技术带动资料治理能力

通过以上分析可以看出，资料整理以提升资料分析的效率和质量为目的，在整个大资料分析流程中占有重要的地位。近些年来，尽管学术界在资料质量管理方面做了大量的研究性工作，但在实际应用中，很多资料整理的需求并没有得到很好的满足，还缺少资料整理方面的工具，尤其是系统化的资料整理工具。对于工业界而言，资料整理工作更多地被看作资料分析人员应完成的工作，人们并没有从工具和系统的角度开发设计高效率的资料准备工具，这使得资料分析人员在执行资料整理任务时，执行了大量重复性的工作。因此，加强资料整理的研究和应用工作是很有必要的。

4.1 资料的结构化与规范化

资讯抽取是指从非结构化的文字中识别实体，并发现实体的属性、实体之间的关系，在互联网资讯抽取、知识库构建等领域发挥着重要的作用。命名实体识别的目的是发现文件中的各种实体，如人物、地理位置、组织、日期、时间等。命名实体识别技术分为以下3类。

● 基于正则表示式的命名实体识别：把预先定义的正则表示式和文字进行匹配，把符合正则表示式的文字模式都定位出来。基于正则表示式的命名实体识别一般用于识别日期、时间、金额、电子邮件等规则的文字。

● 基于字典的命名实体识别：把文字和字典里的对进行匹配，对匹配的短语进行实体标注，一般用于识别人名、地名。

● 基于机器学习模型的命名实体识别：预先对一部分文件进行实体标注，产生一系列的对，利用这些文件进行机器学习模型的训练，然后用这个模型对没有遇到过的文件进行命名实体识别和标注。

指代消解是自然语言处理中和命名实体识别关联的一个重要问题。比如在对某位专家学者进行的一个访谈中，除了第一次提到其姓名、职务之外，之后提到这位专家，文字中可能使用“某博士”“某教授”“他”等代称，或者以其担任的职务相称，如“所长”等。如果访谈中还提及其他人物，并且也使用了类似的代称，那么把这些代称对应到正确的命名实体上就是指代消解。在自然语言处理中，经常遇到的一个问题是命名实体的歧义，比如重名问题。为了让计算机正确地分析自然语言书写的文字，命名实体的歧义需要被消除，也就是把具有歧义的命名实体唯一地标识出来。

关系抽取是资讯抽取的一个重要的子任务，负责从文字中识别出实体之间的语义关系。它分为3类方法：有监督的学习方法，该方法包括基于特征向量的学习方法和基于核函式的学习方法；半监督的学习方法，该方法无需人工标注语料库，但是需要根据预定义好的关系型别人工构造出关系例项，将这个关系例项作为种子集合，然后利用Web或者大规模语料库资讯的高度冗余性，充分挖掘关系描述模式，通过模式匹配，抽取新的实体关系例项；无监督的学习方法，该方法是一种自底向上的资讯抽取策略，它假设拥有相同语义关系的实体对的上下文资讯较为相似，其上下文集合代表该实体对的语义关系。较新的技术是使用向量（embedding，基于词或者实体）的方式将结构化和非结构化资料中提及的实体关联起来，利用向量间的相似性，实现以向量为中介的异构资料的结构化处理和关联。

4.2 资料整合

资料整合是伴随企业资讯化建设的不断深入而形成的。例如，因业务的需要，企事业单位内部普遍构建了多个异构的资讯系统（这些资讯系统可以自主选择合适的操作系统，有独立的数据库和应用界面，完全是一个自治的系统），并积累了图片、Word、PDF、Excel、网页等大量非结构化档案。由于开发部门和开发时间的不同，这些资讯系统中管理的资料来源彼此独立、相互封闭，形成了“资讯孤岛”，资料难以在系统之间形成快速有效的共享。资料管理与资料分析需要打破这些“资讯孤岛”，实现不同“孤岛”资讯系统的互联互通，进而施行精准的决策分析。例如，在电子政务领域中，很多地方的-机关有多少个委、办、局，就有多少个资讯系统，每个资讯系统都由独立的资讯中心进行维护。-机关之间需要实现资讯互联互通、资源共享，最终实现政务服务的协同操作，从而使社会大众真正享受到一站式办公服务（例如杭州市-工作报告中的“最多跑一次”改革）。事实上，许多互联网应用（包括机票、酒店、餐饮、租房、商品比价等服务）也是把来自不同资料来源中的资料进行有效整合后，对外提供统一的访问服务的。

资料整合把一组自治、异构资料来源中的资料进行逻辑或物理上的集中，并对外提供统一的访问界面，从而实现全面的资料共享。资料整合的核心任务是将互相关联的异构资料来源整合到一起，使使用者能够以透明的方式访问这些资料来源。整合是指维护资料来源整体上的资料一致性，提高资讯共享利用的效率；透明的方式是指使用者无需关心如何实现对异构资料来源资料的访问，只关心以何种方式访问何种资料即可。资料整合涉及的资料来源通常是异构的，资料来源可以是各类数据库，也可以是网页中包含的结构化资讯（例如表格）、非结构化资讯（网页内容），还可以是档案（例如结构化CSV档案、半结构化的XML档案、非结构化的文字档案）等。资料整合中涉及的资料来源具有自治性，这些资料来源可以在不通知整合系统的前提下改变自身的结构和资料。

资料来源的异构性和自治性是资料整合系统面临的两个主要挑战。针对这两个挑战，资料整合通常采用如下两种解决方案。

（1）资料仓库

人们把一组自治资料来源中的资料载入并存储到一个物理数据库（称为资料仓库）中，然后在资料仓库上对整合后的资料进行后续的操作和分析。图1显示了基于资料仓库的资料整合系统架构。资料仓库技术涉及的技术包括ETL、元资料管理和资料仓库本身涉及的技术。ETL定期地从各个资料来源中抽取（extract）、转换（transform）、载入（load）资料到资料仓库中。元资料管理涉及对资料来源的描述、对资料仓库中资料的描述、资料仓库中资料与资料来源中资料之间的语义对映。例如，针对关系数据库型别的资料来源，语义对映维护资料来源中的某个属性对应于资料仓库的某个属性，并指定如何把属性分配到不同的表中。此外，语义对映还要解决不同资料来源间资料描述的不统一、语义冲突、资料的冗余等问题。

图1 基于资料仓库的资料整合系统架构

（2）虚拟整合系统

在虚拟整合系统中，资料储存在原来的资料来源中，只在查询时才需要访问。图2显示了一个典型的虚拟整合系统的架构，该类整合系统使用中间模式建立全域性资料的逻辑检视，中间模式向下协调各资料来源系统，向上为访问整合资料的应用提供统一资料模式和资料访问的通用界面。各资料来源独立性强，虚拟整合系统则主要为异构资料来源提供高层次的资料访问服务。元资料维护资料来源的基本资讯以及中间模式到资料来源之间的语义对映等。虚拟整合系统接收到使用者的查询请求后，根据元资料资讯进行查询的重写，把对中间模式的查询转化为对资料来源的查询。类似于数据库的查询处理，虚拟整合系统也会进行查询的优化，包括访问资料来源的顺序、不同资料来源之间的操作访问（例如两个资料来源之间资料的连线算法）等。每个资料来源都连有一个封装器，负责把上层使用者的查询转发到资料来源，并把资料来源返回的结果转发给上层的应用。虚拟整合系统的关键问题是如何构造逻辑检视，并使得不同资料来源的资料模式对映到这个中间模式上。

图2 基于中间模式的资料整合系统架构

无论是基于资料仓库还是基于中间模式的资料整合系统，都需要完成实体与关联抽取、模式匹配（schema matching）、实体对齐（record linkage或entity resolution）和实体融合（data fusion）这4个步骤。面向结构化资料的实体与关联抽取技术比较直观，面向非结构化资料的实体与关联抽取可参考第4.1节。模式匹配主要用于发现并对映两个或多个异构资料来源之间的属性对应关系，在大规模资料背景下尤为重要。目前，基于朴素贝叶斯、stacking等机器学习算法的模式匹配得到了广泛的研究，并在某些特定领域得到了良好的应用。基于模式匹配，实体对齐的目标是根据匹配属性的记录特征，将资料来源中指代同一实体的记录连线起来。实体对齐主要分为3个步骤：获取候选集、成对匹配、聚簇处理。广义地说，实体对齐的方法可以划分为无监督学习和有监督学习。随着人工智能技术的发展，基于决策树、Logistic回归、支援向量机（support vector machine，SVM）的机器学习方法以及基于词向量（word embedding）的深度学习方法被应用于实体对齐，以提高算法的效能。使用实体对齐可以把一组资料来源中同一实体的不同记录连线起来，由于资料质量问题，这些记录在描述同一实体时可能存在资料冲突，例如同一个人的住址在不同资料来源之间的描述可能是不一样的。因此，在资料整合的最终环节中，实体融合旨在消除不同资料来源之间同一个实体属性值的冲突，将不同的资料资讯进行综合，从而提取出统一、丰富、高精度的资料。实体融合的主要方法包括基于规则的无监督学习、结合标注资料的半监督学习等。虽然基于标注资料的半监督学习在精度、召回率等方面均获得了令人满意的效果，但是其最大的挑战在于带标签训练资料的获取往往需要耗费较大的人力和物力。如何利用主动学习获取训练资料以降低研究代价，是当前学术界和工业界研究的热点话题。

4.3 资料清洗与资料质量评估

资料清洗是指从资料中检测并纠正可能的错误，以确保资料的质量并符合与领域相关的完整性约束。资料清洗是绝大多数资料驱动的任务的必要步骤。缺乏有效的资料清洗可能会使后续的资料分析产生垃圾进、垃圾出（garbage in,garbage out， GIGO）的不良后果。然而，由于资料越发显著的大规模、异质性、高噪音等特点，资料清洗也面临着极大的挑战，这也是近年来学术界和工业界的攻坚重点。一般来说，资料清洗可以分为两个基本的任务：错误检测，即发现数据中潜在的错误、重复或缺失等；资料修复，即针对发现的错误，对资料进行修复。下面结合一个具体的例项分别进行介绍。

错误检测任务旨在发现影响资料质量的错误因素。一般将错误因素划分为4类，下面通过图3的示例进行说明。

图3 资料清洗中错误检测的示例

（1）异常值

异常值是指明显不符合属性语义的取值。例如，图3中t2的年龄为5岁，显然与其有工作单位这一事实是相悖的。然而，设计一种方法让计算机自动地、通用地检测出异常值是个挑战性很大的问题。现有的代表性解决方案包含以下几类。

● 基于统计的方法：首先使用一定的分布对资料进行建模，进而检测某个取值是否显著性地偏离正常值。例如，针对图3示例中年龄的例子，可以使用正态分布对资料建模，并计算均值与标准差。如果某个取值在k倍的标准差（如k=3）外，则认定其为异常值。更进一步地，由于均值对异常值比较敏感，很多方法使用中位数作为均值。

● 基于距离的方法：度量资料值之间的距离，将与大多数资料距离过远的值认定为异常值。

（2）结构性错误

结构性错误是指资料不符合特定领域语义要求的完整性约束。例如图3示例中t1的工作单位是中国人民大学，其所在城市应该为北京，而非上海。检测结构性错误最直接的方法是从外部输入与领域相关的约束条件，如工作单位决定了所在城市。然而，这种方法往往耗时耗力，且很难达到通用性。因此，现有的大多数工作聚焦于从资料中发现潜在的约束条件，如条件函式依赖、拒绝约束规则等。近些年，也有些研究者考虑借助外部通用的知识图谱及互联网上公开可用的众包服务（crowdsourcing），其基本的思想是通过发现数据中与知识图谱或众包标注违背的部分，归纳出结构性错误。

（3）记录重复

记录重复在真实资料中十分普遍，其原因是多方面的，比如资料可能由不同的机构提供，或者资料整合自组织的内外部渠道。例如，图3中的t1和t4实际上指代同一个人，但由于资料存在结构性错误（如t1的城市）、缩写（如t4中的“人大”实为“中国人民大学”的缩写）、属性对应错误（t4中的姓氏与名字填反了）等问题，而被计算机认为是两条不同的记录。记录重复会对资料分析造成很大的影响。人们一般采取实体识别技术解决记录重复问题，其本质与上文提到的实体匹配是相同的。由于前文已经给出了详细的探讨，此处不再赘述。

（4）资料缺失

资料缺失是指资料的部分属性不存在于数据库中，例如，图3示例中的t3缺失了工作单位资讯。这会在两个层面给资料分析带来负面影响：一方面，资料缺失带来资讯的损失；另一方面，不同资料来源在资料缺失时使用的预设值不尽相同，如“NA”“NaN”“”等，这会进一步误导后续的分析过程。针对资料缺失，现有的方法是采用缺失值插补（data imputation）技术进行修复，其基本想法是使用合理的模型推断出缺失值。比较简单的办法是使用统一的全域性值或其他记录在该属性的平均值进行插补，然而这些方法没有考虑具体的资料记录，在实际中难以得到良好的效果。更为有效的办法是采用最大可能性的资料值并进行推理，例如找出最相似记录的相应取值并进行插补，或通过建立贝叶斯或决策树分类器，将缺失值插补建模成一个分类的问题。

资料修复任务是指根据检测出的错误对资料进行更新，以达到纠正错误的目的。与前文介绍的错误检测相比，资料修复的挑战性更大，因为通常缺乏对修复进行指导的讯号。为了应对这一挑战，现有的方法往往采用外部知识或一些定量的统计指标。最近，也有人提出一些新方法，即采用机器学习的手段融合多源讯号，将资料修复建模成一个联合推理的问题。

5 结束语

资料整理需要研究的工作还有很多。如何开展有针对性的研究工作，并系统化地整合各方面的相关研究工作，形成资料整理方面整体上的研究和应用影响力？威斯康辛大学麦迪逊分校的AnHai Doan教授等人[4]倡议，从事相关领域的研究学者应充分利用庞大的Python开源社群PyData，投入系统化的资料准备工具研制中，将研究成果更好地应用在实际场景中。这或许是一条较为可行的技术路线。

作者简介

杜小勇（1963-），男，博士，中国人民大学资讯学院二级教授、学术委员会主任、博士生导师，中国人民大学校长助理，资料工程与知识工程教育部重点实验室（中国人民大学）主任兼任教育部科学技术委员会资讯学部委员，国家重点研发计划“云端计算与大资料”专家组成员，中国计算机学会常务理事、教育工作委员会主任、数据库专业委员会主任，《大资料》期刊副主编，全国资讯科技标准化技术委员会大资料标准工作组副组长等曾担任中国人民大学资讯学院院长，国家“863”计划数据库重大专项专家组组长，国家“863”计划软件重大专项专家组成员等先后获得国家科技进步奖二等奖，北京市科技进步奖一等奖，教育部科技进步奖一等奖，中国计算机学会科学技术奖一等奖等奖项。

陈跃国（1978-），男，博士，中国人民大学资讯学院教授、博士生导师，中国计算机学会高阶会员，数据库专业委员会委员，大资料专家委员会通讯委员主要研究方向为高效能大资料分析系统和语义搜寻主持国家自然科学基金重点专案1项广东省科技应用重大专项1项，近年来在SIGMOD、SIGIR、ICDE、AAAI、TKDE、WWW等国际重要会议和期刊上发表论文20余篇。

范举（1984-），男，博士，中国人民大学资讯学院副教授、硕士生导师，中国计算机学会会员，数据库专业委员会委员，主要研究方向为大资料分析、资料整合与众包计算先后在SIGMOD、VLDB、ICDE、TKDE等国际重要会议和期刊上发表论文30余篇担任国际重要会议SIGMOD2020、VLDB2018/2020的程式委员会委员。

卢卫（1981-），男，博士，中国人民大学资讯学院副教授、硕士生导师，中国人工智能学会智慧服务专业委员会委员近年来主要从事数据库基础理论、大资料系统研制等相关领域的研究，先后在SIGMOD、VLDB、ICDE、SIGIR、AAAI、VLDBJournal、TKDE等国际重要会议和期刊上发表论文30余篇，主持和参与多项国家自然科学基金专案。

《大资料》期刊

《大资料（Big Data Research，BDR）》双月刊是由中华人民共和国工业和资讯化部主管，人民邮电出版社主办，中国计算机学会大资料专家委员会学术指导，北京信通传媒有限责任公司出版的中文科技核心期刊。

关注《大资料》期刊微信公众号，获取更多内容