APP下载

阿里巴巴分析大资料的关键10诫

消息来源:baojiabao.com 作者: 发布时间:2024-05-16

报价宝综合消息阿里巴巴分析大资料的关键10诫

阿里巴巴数据技术及产品部副总裁车品觉说,阿里巴巴使用资料最大的分水岭,在于从单纯分析到追求全自动化的应用,因为资料的品质要求完全不同档次。

图片来源: 

iThome

市值全球第2名的中国电商阿里巴巴,旗下诸多服务包括阿里巴巴B2B平台、淘宝拍卖网、天猫B2C商城,还有中国最大的第三方支付平台支付宝等, 而这些服务所产生的资料全归一个人管,那人是中国阿里巴巴数据技术及产品部副总裁车品觉。

车品觉以8年打滚于资料界的经验,以及在阿里巴巴实务应用下发展出“数据10诫”,现已修正到了4.0版本。作为阿里巴巴集团的资料最高领导人,车品觉说,他是虔诚的资料信仰者,喜欢用资料做决策解决问题。

企业要用资料解决问题,首先要履行数据10诫的第一条,清楚定义欲分析解决的问题是什么?车品觉举例,现在中国各大都市都极力发展智慧城市,但是对于城市来说,什么样的建设或是应用才能称为智慧,他说,如果没有定义智慧城市,那就难以衡量专案的成效,“定义问题是从知道到不知道的过程。”

虽然资料科学议题很夯,企业有许多问题都能从资料中找出答案,但也“不是每一个问题都是资料的问题,不是每一个问题都是大资料的问题。”车品觉说,要知道该问题是否能靠资料解决,必须先思考5件事,以明确了解需要解决的问题,“这是什么问题?谁的问题?这问题你来解决吗?需要现在解决吗?资料能解决吗?”当这5个问题的答案皆为是,那或许就是当下可以靠资料解决的问题。

 

阿里巴巴大资料心法:数据10诫 4.0版

1. 一切从定义“问题”开始,已知到未知的过程

2. 先假设资料都能获取来思考问题,包括衍生及循环思考

3. 让资料来帮助描述、诊断、预测以及行动建议

4.“快+准”的资料能从已知规律中产生价值

5.“广+乱”的资料能从发现中颠覆已知

6. 大资料不是独奏,而是不断连接无处不在的资料

7. 大资料技术就是加速和累积“资料、分析与服务”的能力

8. 资料生态的连接需要建立标准与规范

9. 大资料是来自很多小资料的组合

10. 资料是一种信仰!

资料来源:车品觉,iThome整理,2015年09月

 

然而不少企业知道要解决的问题,却苦无解决问题的资料,车品觉认为,思考问题解法时,不能把没有资料当作借口,因为现在可以取得资料的方式太多了。车品觉举例,调查研讨会的品质可以用最传统的问卷,也能用科技的方法解决,只要在场内跟场外架设手机探测器扫描会众手机ID,便能记录会众进出场内外的状况,进一步分析演讲品质。清楚定义分析的问题,不怕没资料

车品觉另外举了“快的打车”App的例子,他们想解决司机拒载乘客的问题,因此提供了评价的机制,当司机拒载的时候乘客得以反应,而这些评价资料也是在思考想解决的问题后才出现。所以“只要问题定义好, 需要的资料都存在,思考应该凌驾在资料技术之上,思考方法才是产生价值最重要的一点。”

以多面向归纳资料类型

因此资料并非不存在,重点在于企业能否周全收集资料,为了更清楚理解资料,归纳不同类型资料能发挥长处的时机,他用不同面向剖析资料。

首先,车品觉以能否预料以及意见正反作为X与Y轴,画出四大象限描述企业所收集的资料。他举例,餐厅纪录客人的餐点,这是收集Expect Positive(预料中的正面)的资料,而Expect Negative(预料中的反面)的例子则是客人没吃完餐点的纪录,另一个电子商务例子则是,当有人到周大福买珠宝,记录了客户买了哪一个商品,这就是Expect Positive的纪录,而调查客户看了哪5个商品才买到了想要的戒指,则是Expect Negative,车品觉说,Expect Negative对于机器学习是重要的训练样本。

另外,他也依可用性将资料分为“快+准”和“广+乱”2类。“快+准”的资料是那些企业能很快速地取得,或是经常性使用的资料,能从已知的规律中产生价值,能做的改善是加速资料更新的频率,抑或是加速资料整合的速度,以更快速的做出决策,或许过去须3小时才更新资料,改进后期望能进步到即时。他认为,“快+准”的资料要思考的议题是“有没有、准不准、细不细、全不全、稳不稳以及快不快。”

相对于“快+准”则是“广+乱”,“广+乱”的资料就是现今称作大资料的类型,来源广泛且格式多元,特性是能从发现中颠覆已知,车品觉认为,从“广+乱”的资料中,才能发现意料之外的事情,因此从这些资料提炼出来的资讯也比较有明显价值。

能有意料之的发现,正是资料的价值,品觉认为,大份人思考方法是演绎法形式,从已知推论未知,但是运用大资料技术可以逆转这个程序。他以行销作为例子,过去一项产品的行销,企业会主动设定目标客群,或许是三十几岁的女性等,针对这群人投放广告,但是现在的方法,可以透过历史的销售资料,找出购买行为的特征,逆向圈出目标客群。

车品觉也用时间维度分析资料特性,不同周期的资料所提供的价值也不一样,以天为周期的资料可以描述状况,而1周需要知道的则是,上星期做的决策是正确还是错误的,1个月就必须了解竞争对手的策略与状态,1季就需要检讨组织是否达到设定的KPI。

资料从分析到应用,品质要求大不同

阿里巴巴使用资料最大的分水岭在于“从看到用”,从资料用来分析现象,到用于控制全自动化的设备上。车品觉分享前些日子所做的工作,正是以自动化无人机器取代一整个既有的部门,他说,在那个时候他领悟到,资料的目的直接影响对资料品质的要求,因为用于分析观察还是实际使用,需要的资料属于不同等级。

他提到,像是无人机器的动作控制,需要多个复杂模型交互作用,而稳定且充足的资料来源是必要条件,在他们找出实际可用资料的过程,发现有很多资料的基本功没扎稳,像是资料须达高可用性等项目,需要一块一块的补上。

而当企业达到没有资料就无法提供服务的状态,就如同无人机器没有足够的资料就无法动作,车品觉认为,“此时企业就走在对的道路上”。也因为资料的重要性提升,企业看待资料中断应该要等同于IT系统错误一样的严重,一旦资料出错就必须有人负责。

不只是无人机器的控制需要有非常完整的资料,在很多情境下,当没有完整的资料描述事件发生的细节,企业往往会把事件原因归于运气。在零售业中,顾客的购物欲望可能起始于朋友推荐,经过了商品搜寻以及品牌官网收集资讯,顾客逛了电子商务网站,最后却在大卖场购买,这样的过程或许看似大卖场比较幸运最后成功销售商品给这位顾客,但其实不然,过程中有许多企业应该要知道的资料。像是顾客信用卡的还款时间,因为要缴交信用卡的费用感到心痛,因此购物欲望下降,此时要顾客消费是困难重重,这虽然只是一项小资料,却也是整个顾客购物炼很重要的一环,车品觉认为,企业应该检视所搜集的资料是否完整,因为企业忽略顾客的资料,有时候对结果影响甚巨。

车品觉直言“大资料是一种能力,企业要有爱因斯坦的大脑以及健壮的身体”,大资料能力组成的因素有思想、血液以及骨骼,思想就是资料运算逻辑或模型等,血液则是企业的资料,而骨骼便是最基础的硬件设备。

车品觉说,从以前必须求老板看看他做的资料,到现在老板会挑剔他准备的资料没有用,他认为,这是企业利用资料进化的结果,他发现美国许多企业不只拥有资料科学家,甚至还多了决策科学家,负责用资料替公司订定决策。

2018-02-05 16:25:00

相关文章