APP下载

阿里巴巴副总裁车品觉:资料是一种信仰!

消息来源:baojiabao.com 作者: 发布时间:2024-05-16

报价宝综合消息阿里巴巴副总裁车品觉:资料是一种信仰!

中国阿里巴巴的数据技术及产品部副总裁,同时也是畅销书<<决战大数据>>作者车品觉今天来台在第二届资料科学爱好者年会演讲。他表示,本身是虔诚的资料信仰者,喜欢用资料做决策,像是他会比对阿里巴巴面试官给面试者的评语以及考绩,找出不适任的面试官,抑或是分析Linkedin上的资料,找出不常更新履历却深藏不露的潜在人才。车品觉以8年时间打滚于资料界的经验,发展了资料十诫,现在已到了4.0版本。

一切从定义“问题”开始,已知到未知的过程

“不是每一个问题都是资料的问题,不是每一个问题都是大资料的问题”车品觉说,要知道问题是否能靠资料解决,必须先思考5件事定义需要解决的问题,这是什么问题?谁的问题?这问题你来解决吗?需要现在解决吗?资料能解决吗?当这5个问题的答案皆为是,那或许就是当下可以靠资料解决的问题。中国现在每个城市都极力朝向智慧城市发展,但是对于城市来说,怎么样才是智慧,他说,如果没有定义智慧,那就不知道做出来的应用该如何衡量成效,“定义问题是从知道到不知道的过程。”

思考问题时,不能把没有资料当作借口,因为现在可以取得资料的方式太多了。车品觉举例,调查研讨会的品质当可以用最传统的问卷,也可以在场内跟场外架设手机探测器扫描会众手机ID,便能记录会众进出场内外的状况,进一步分析演讲品质。另外,如果想改善滴滴打车计程车服务品质,降低司机拒载的概率,那在当司机拒载的时候,提供客户评价的机制,而这也是取得解决问题的一种资料来源。“只要问题定义好,需要的资料都存在,思考应该凌驾在资料技术之上,思考方法才是产生价值最重要的一点。”

而资料来源非常多,车品觉将资料分为四个象限,以能否预料以及意见的正反向作为X与Y轴。他认为,其实企业要用资料解决的问题都围绕着商业公式(Business Equation ),思考产生更多商业价值的方法,像是怎么用更低的成本招揽更多的客户?如何留住客户?怎么定价?不少企业用问卷的方式,意图更了解客户的想法,但往往搜集的资料有所偏颇。

中国阿里巴巴的数据技术及产品部副总裁车品觉将资料分为四个象限,以能否预料以及意见的正反向作为X与Y轴,用以思考企业收集资料的完备性。

他举例,客人来吃了什么餐点,这是一个预料中的正向记录(Expect Positive),而预料中但反向(Expect Negative)的例子则是客人没吃完餐点的纪录,另一个电子商务例子则是,当有人到周大福买珠宝,记录了客户买了哪一个商品,这就是Expect Positive的纪录,而调查客户看了哪5个商品才买到了想要的戒指,则是Expect Negative,车品觉说,Expect Negative对于机器学习是重要的训练样本。

而预料之外的意见,则是大资料价值的机会所在,车品觉认为,大部分人思考方法都是演绎法形式,从已知推论未知,但是运用大资料技术可以逆转这个程序。他以行销作为例子,过去一项产品的行销,企业会主动设定目标客群,或许是三十几岁的女性等,针对这群人投放广告,但是现在的方法,可以透过历史的销售资料,找出购买行为的特征,逆向圈出目标客群。

资料科学处理资料有2个派别,其一是用庞大的模型和复杂的算法分析资料,另一种用简单的算法,但是分析大量或是过去没有搜集过的资料,车品觉倾向后者,他认为,因为复杂的算法,发生问题的概率也比较高,使用复杂算法预测出来的结果,要仔细检视预测对与错的概率,以及其结果的稳定性,往往寿命只有6个月,之后又要开始一项新的专案解决同一个问题。

让资料去助力描述、诊断、预测以及行动建议

资料在不同周期上能提供的价值也不同,以天为周期的资料可以描述状况,而1周需要知道的则是,上星期做的决策是正确还是错误的,1个月就必须了解竞争对手的策略与状态,1季就需要检讨组织是否达到设定的KPI。车品觉从以前必须求老板看看他做的资料,到现在老板会挑惕他准备的资料没有用,他认为,这是企业利用资料进化的结果,他发现美国许多企业不只拥有资料科学家,现在还多了决策科学家,负责用资料替公司做决定。

“阿里巴巴使用资料最大的分水岭在于从看到用”,车品觉前些日子在做的工作,正是把一整个部门淘汰改为完全自动化,他说,在那个时候他领悟到,资料的目的直接影响对资料品质的要求,因为仅用于观察还是实际使用,所需要的资料完全不同等级,他提到,像是无人机的控制,多个复杂模型交互作用下,必须依靠稳定充足的资料来源才能动作,而在这个找出可用资料来的过程,会发现底下有很多资料基本功没扎稳。“当没有资料就无法提供服务,那企业就走在对的道路上”,企业看待资料中断应该要等同于IT系统错误一样的严重,必须有人要受惩罚负责。

不只是自动化的服务,需要有非常完整的资料,在很多情境下,当没有完整的资料提供全面的资讯,往往会把某些结果归因于运气,但其实是没有被资料描述出来。像是在零售业中,顾客的购物的欲望可能起始于朋友推荐,经过了商品搜寻以及品牌官网收集资讯,顾客逛了电子商务网站,最后却在大卖场购买,这样的过程或许看似大卖场比较幸运最后成功销售商品给这位顾客,但其实不然。

车品觉表示,企业要知道的了解的资讯太多了,要有区分顾客喜好等级是有兴趣还是热爱这类细节的能力,以运动高尔夫球来说,顾客有兴趣顶多是看看比赛,但是热爱的话,可能就会想要购买高尔夫球竿,但是如果推荐高尔夫球用品给只是有兴趣的人,那等同于无用的广告。他提到,有时候顾客的小资料,却对结果影响超大,像是信用卡的还款时间,顾客因为要缴交信用卡的费用感到心痛,因此购物欲望下降,此时要顾客消费是困难重重,这虽然只是一项小资料,却也是整个顾客购物炼很重要的一环,他认为,企业应该检视所搜集的资料是否完整。

快加准的资料,能从已知规律产生价值

车品觉认为,多数人对使用资料有误解,应该分为快加准以及广加乱的资料。快加准的资料是那些公司很常在使用,能从已知的规律中产生价值,需要做的改善是加速资料更新的频率,或是加速资料整合的速度,以支援更快速的做出决策,以前要3小时才拿得到资料,现在期望能进步到即时,所以很适合用Spark这类大资料即时串流的解决方案。快加准的资料,要思考的议题是“有没有、准不准、细不细、全不全、稳不稳以及快不快。”

相对于快加准的资料是广加乱,广加乱的资料能从发现中颠覆已知,他认为,今天大资料绝大多数属于广加乱的资料,而这样也才能发现意料之外的事情,因此从这些资料提炼出来的资讯也比较有明显的价值,而Hadoop是适合用于这类应用的解决方案。

中国阿里巴巴的数据技术及产品部副总裁车品觉将企业的资料应用分为两类,快加准以及广加乱,而广加乱的资料正是大资料的特性,从广加乱资料提炼出来的资讯比较有明显的价值。

资料从布点/收集、储存/刷新、辨识/关联、挖掘/决策以及行动/反馈形成一个循环,车品觉认为,值得注意的是资料的刷新,像是有位顾客到北京旅行,如果企业立刻把顾客的居住地资料更新为北京就不太适当,他说,有时候反而要推延资料更新的时间。

另外,他认为辨识也是很重要的细节,以银行来说,很多时候账户名字是先生的,但是因为妻管严,所以几乎多为太太代为处理账务问题,银行应该有能力辨识账户性别是女性,甚至有能力知道这个账户有两个行为ID,女生占70%男生占30%。

也因为大资料多为广加乱的资料,因此车品觉认为,大资料不能只是独奏,而是不断连接无处不在的资料,各个产业共同分享的资料,能激发出更有价值的资讯,而资料生态系的连接,必须建立标准与规范。他分享企业跨组织共享资料的经验,他说,必须先要串连意愿强烈的合作伙伴,制定沟通的协定,进一步是设立公共资料资料槽,促使多方资料交换共享,车品觉说,阿里巴巴走得更前一步,他们已将资料资产化。

而当企业认为,大资料技术就是加速和累积资料、分析、服务的能力时,正是朝向成功大资料公司的路上,车品觉直言“大资料是一种能力,企业要有爱因斯坦的大脑以及健壮的身体”,大资料能力组成的因素有思想、血液以及骨骼,思想就是资料运算逻辑或模型等,血液则是资料,而骨骼是基础的硬件设备。

中国阿里巴巴的数据技术及产品部副总裁车品觉认为,大资料是一种能力,企业要有爱因斯坦的大脑以及健壮的身体

最后,他说大资料其实就是许多小资料的组成,或许不久后大资料这个词就会消失,但是资料是一种信仰,用资料解决问题的精神会永远存在。

2018-02-06 07:25:00

相关文章