原阿里巴巴副总裁车品觉告诉你双十一的数据秘密
干货 原阿里巴巴副总裁车品觉告诉你双十一的数据秘密 干货 | 2017-11-08 13:49 原阿里巴巴副总裁车品觉告诉你双十一的数据秘密 盒饭财经

什么是断点?什么是数据零散?怎样让数据集中?车品觉在近两小时内还分享了哪些内容?

11月3日,原阿里巴巴副总裁、红杉资本中国基金专家合伙人车品觉在今今乐道读书会分享了他对数据的理解,并带来了新书《数据的本质》。他告诉你,精准预测每年双十一交易量的秘密,就藏在双十一的前半小时内。

口述丨车品觉

整编丨解夏

丨盒饭财经(ID:daxiongfan)


阅前思考


1. 什么样的数据才有价值?

2. 如何让数据落地?

3. 如何精准预测数据,例如双十一交易量?



车品觉

车品觉,红杉资本中国基金专家合伙人,原阿里巴巴副总裁,首任阿里数据委员会会长,中国数据化思考第一人,著有《决战大数据》《数据的本质》。


《数据的本质》

湛庐文化策划出版

首度披露数据之王们的数据化思考方式。



我今天尽量说多一点点数据的事情,也尽量说多一点点关于企业怎么样使用数据的东西。


数据源有哪些影响?


现在这里有一张10块的人民币,如果我的口袋里有10块钱的一半,或者10块钱的一倍,大家做一个选择,有谁愿意跟我换?



这个问题其实很简单,有一半的机会你会得到5块,有一半的机会你会得到20块,所以平均来讲,你会发现每一次你都应该来换,因为赚的时候是赚10块,亏的时候是亏5块。个问题需要大数据吗?不需要,但是今天有很多不懂大数据的人会把这个题目说这是大数据。


我想跟大家说,是不是所有东西都能用大数据来解决呢?其实大家有没有发现,这是一张1965年的10块钱,它的价值不是10块钱,如果我再问有谁愿意跟我换,是不是所有人都想换?


这里面又有一个问题,到底这张10块钱值多少钱?最快的方法是什么?有人说是百度,可能说到搜索大家想的就是百度,但是百度并不知道这张10块值多少钱。


其实还有一个方法是淘宝。它是动态的,所以最好去淘宝搜一下,昨天有谁买过1965年的10块,搜出来的金额一定比百度的静态结数据要准确。


所以,数据有时候会分为数据源有多准确。除了数据源之外,如果大家在淘宝搜,能看到这张10块大概值210块左右,实际上大概在180块到200块之间。


那么,什么东西会影响到这张10块跟其他10块不一样?有人讲品相,不是最主要的,有人讲数量,其实就是供需,但也不是最主要的。刚才有人讲编号,如果这张10块的编号全是8,大家猜价值多少钱?3万还是100万?


最近,有发行新的港元,编号全是8的100港元价值100多万,尽管我们去淘宝,但也会发现这些数据不足以猜到每张全同号港元的价值是多少,这种现象叫数据稀缺。就是虽然你有很多的数据,但这些数据对你要解决的问题本身没有用,这里有几个信息:


第一,有些情况下不用大数据就能解决问题;


第二,当你用大数据的时候,会发现整个数据源会影响到你的准确率,数据源影响整个东西的计算;


第三个是尽管你有数据源,你发现有些时候你数据不够,你是没有办法能给出一个非常准确预估。


给大家玩的游戏是5块、10块,先不说这个10块是很贵的10块,但是如果这是5万、10万,你的选择可能就不一样了。


所以,逻辑是一样的,算法是一样的,但是风险是不一样的时候,你的决定是不一样的。当我们用大数据在做营销的时候,你会发现还挺好用的,但是如果你用大数据来判断一个人有没有癌症的时候,可能你的影响是蛮大的,而且你错误的时候会产生的影响力可能是补偿不了你平时正确时候的影响。这一点也是很需要我们注意的。


如何预测数据?


下图是我在入行的时候,师父给我看过的第一张图,大概来讲,这是在2005年,亚马逊是如何看待自己客户的一个小片段。我在400张数据里截取了片段:



这里包括我们可以正常拿到和看到的数据:一个客户的姓名、性别、客户编号、邮箱、地址。


有一条信息你没有看到,就是你让我寄货(所选择地址附近的信息)。比如说以前我住在北京望京的华鼎世家,在沃尔玛对面,亚马逊要把一本书寄到华鼎世家,会问有多少书店在附近?三公里、五公里、十公里分别是多少家书店?这是在2005年的时候,亚马逊知道它的竞争对手是实体店,因为那个时候的人们还没有习惯去这样做(线上购物)。


所以,你看到图中简单地描述了一个客户的信息,其实埋藏的是大数据。当年的大数据,就是知道你的地址之后,从你的地址里猜附近有多少书店,从而知晓这个客户一直以来不频繁在线上购买的原因,就是因为旁边是沃尔玛,如果想让我在天猫超市买东西,是挺难的一件事,因为我五分钟到沃尔玛就可以买完东西,非常方便。


客户的信息里还有一条是他还有东西放在购物车里。亚马逊是有愿望清单的,他会告诉你这个客户今天的状态是怎样的,非常影响他今天的购物行为。


马上快到双十一了,以前,每年老板都会问我,你猜今年交易量会怎样?基于我们今天的信息你能猜今年双十一会不会破纪录?破多少?这个问题听起来很难,但如果真的看进去的时候,并不难。为什么呢?其实有一个数据影响每年双十一的购物量——购物车。从最近三个礼拜的购物车新增物品数,能判断双十一会是怎样的走势。


其实,每年双十一交易量是来自于前半个小时的,这半小时决定了今年双十一会做的怎样。但是,这前半个小时里用户的交易都是来自于哪里?购物车。没有人会在前半小时去找商品,实际上前半小时买单的人很多都是在购物车里选好购买的,而且很多都是用余额宝支付,没有经过银行。


所以,“余额宝+购物车”是前半个小时里面的交易量。讲到这里,大家就知道购物车为什么这么重要了吧。


大数据的分析很多时候会用到其他信息的蛛丝马迹,这些蛛丝马迹让我能推演到我对这个东西的预测。所以,当年我帮我师父拿这张图出来,就特别兴奋,做这个行业太神奇了,就是当你的眼光能看见一些别人看不见的东西,你在这件事情上就好像神一样。


当你真的深入后,会发现没那么神,只是你已经看见了一些别人看不见的东西。就像小偷一样,看到你家在黄金周时候,三天都没有亮着灯,家里人肯定去旅游了,小偷才来光顾这座房子。所以,小偷是看见信号的,他也看到了数据,如果小偷再聪明一点,应该扫一遍电表数据就知道了。


划重点:通过场内行为获得响应数据


从过去来讲,你去一家公司做会员,他们一般问你名字是什么、住哪里,因为知道人口社会的数据,就知道了你的生活。数据如果能理解你的生活方式是什么,你有什么兴趣,但是在这个客户数据预测金字塔里面,其实这并不重要,最重要的是——场内行为。



为什么会是这样呢?因为场内行为里面,比如说你今天买了机票去香港,有这个数据的人很快就知道你在香港可以订什么酒店,它的行为是相关联的,很多数据是有一个响应的,所以说响应数据变得很重要,我们会分析你下一步做什么。


今天在座的人会听分享到四点半,那么,到了四点半你差不多要吃晚餐了,如果是大众点评,基于你所在的地区,我会给你推荐一个饭店,根据你以往的历史记录,知道你喜欢吃什么,这种响应是来自于我知道你在这里听了两个小时分享,所以我猜到你五、六点钟要吃饭是很合理的。


今天如果如果在座的人是做Marketing的时候你要明白,今天其实整个世界从Marketing已经转移为Remarketing,从Targeting转移为Retargeting。


我举一个例子,在淘宝还能买彩票的日子,彩票的运营找我说,我很痛苦,我问为什么痛苦?他说,淘宝这么多人,但只有很少的人用淘宝买彩票,想找更多人来买彩票。


后来我突然灵光一现,告诉他一个办法。当时的淘宝有一个网站,叫中国站长,是很多小网站的Google Analytics(谷歌分析),它知道用户有没有去过一些小网站。


我把这种小网站的标签所有有关于彩票的内容全扫一遍,把三个礼拜里曾经看过彩票内容的人圈定,跟今天还没买彩票的再圈一遍,发现中间有一些淘宝用户,他们在三个礼拜里看过彩票,但没在淘宝买过彩票,这种东西的方法就叫Retargeting,不叫Targeting。


为什么?因为他上个礼拜已经对这个东西感兴趣,你是重新在别的地方找到的他。这个东西里面的关键点是来自这里,没有了这组数据你做不到我刚才讲的东西的。



有一次,内地朋友跟我说,让我进海关之后买六两金给他,从此之后,每次我的车到了香港机场旁边的那个买金公司,就会“叮”一下,问我要不要再买金,好像我是土豪一样,其实我只买过一次黄金,但这就是关联性。


所以他把这个东西关联成每一次只要我走到机场,我就有机会买黄金,它锁定了这个行为里面的响应。


还有一次我在上海的海关,我在香港去上海的时候,司机送了一个苹果给我,在经过海关的时候,海关说打开你的包看看,苹果。结果,海关记录了我带苹果这件事,当我再次从香港到内地的时候,我说这次肯定倒霉,因为电脑里肯定记录了我上一次带苹果,这次我带了一个苹果手机肯定会出事,所以不带。


其实就是用那个数据产生了一个响应,所以这种响应的数据是通过场内行为来的。他不需要知道我是男还是女的、我的偏好、生活方式,全都不用的,这种方法的本身在营销大数据来讲是一个非常关键的思考方法。


知道了这个思考方法你会省很多钱的,为什么呢?做媒体的都知道,过去买广告的人都喜欢怎么样?把广告放在与这条广告相关的内容里,如果你是卖广进的,谁都知道要收你很贵的钱。但是现在不是,因为Retargeting的关系,根本不需要关注这个页面是讲什么,因为他已经知道你对彩票感兴趣了,他只不过在任何地方去找到你,让你买彩票就可以了。


数据收集正越来越难


因为今天有了PC,有了手机,有了很多的终端,数据收集会很困难。



我第一次遇上这个困难是2013年,就是当20%的用户已经使用了智能手机来上网淘宝,那个时候我开始头痛了,为什么?过去来讲,我们说一个人到了PC,他来了,他看了商品,他买了,他付款了,是一个完整的销售漏斗。但有了手机之后,他在PC里面看完了之后他不买,然后过了一段时间回到另外一个地方在手机里面买。


以前我们是没有关联的,PC和手机是没有关联的,这个数据就变得零散,变得零散之后,我们要重新把两组数据合会一起。我们现在一般都带两部手机,如果将来有更多终端的时候,你的行为就是两部手机+家里的PC+办公室PC,一共四个终端,合并起来才是一个人的行为。



而且很多行为不是我的行为,例如是我太太用了我的手机,所以我在淘宝里有一个夸张的说法,说这个帐号是70%是女生,30%是男生。因为70%是我老婆买东西给自己,30%是她买东西给我,所以这个是一个购物性别,它不是一个真实性别。


这里搞过一些笑话,我们说最准确的数据是你身份证上的男女性别,结果在推荐系统发现效果并不好,反而70%女、30%男最准确,因为它是一个购物行为的性别。


在座大部分人都有这种感觉,你买东西不是完全给自己,你的数据都不能说他是纯粹的男生或女生偏向。


所以,终端多了,数据就乱了,而且当我们数据历史长了,例如三年里,加上你在五个终端上的购物行为,那个时候就发现数据很混乱,这个时候,就发现数据的能力体现出来了。


数据和大数据有什么区别?



我们现在看这张图,摄像头拍摄很多人在一条街上行走,蓝色是男性,红色是女性,绿色记录了在繁忙的阶段中有多少人在一分钟里走过,路径是怎么走的。这是数据吗?是的。只要你能把一个影像找出它的特征来,我们都说这是带着数据的。



还是每个人走过的时候,我们可以分解这个人穿着什么衣服,颜色是什么,这是数据吗?这也是。如果今天带着一个智能手表,他可以从每天的行为里猜到我在做什么动作,这也是大数据。



川普这张照片是愤怒,不是惊讶,如果你看照片时,你不可能说这就是数据,但他有识别的能力,所以我们开始说这个其实也是数据。


所以,到底什么是信息?什么是数据?今天已经越来越模糊了。就好像今天在这里拍照,这张照片是数据吗?如果它有人脸识别就是数据,因为里面有五个人我能知道我是认识的,所以说,大家到底集中精神看我分享还是在看手机呢?识别一下就知道了,这就是数据。


有人利用刚才的方法将一个城市所有大厦变成了刚才所说的环境数据,以及把环境数据放到这一个模型里,大概用这个方法知道这个城市在发生什么。


未来肯定会成为很多公司的壁垒


其实每家公司的数据有两组东西:一个是数据的自动化或自主化;另一个是以数据作为支持。


每家公司都不会说它完全是自动化或者是自主化的,它还是会有部分的东西要人类去决定的,为什么?这个进步是一个螺旋性行为,多一点数据支持,多一点自动化,一边走的时候,你会发现它整个数据化变得更完整了,所以它不是一条直线,说你不能这样改线,它是不断这样走。



刚才我们说这种数据其实不需要完美的,为什么它不需要完美的呢?好像我们做这种拼图一样,一般你拼到20片,我问你这张图(的图案),你是肯定已经能告诉我了。数据也是这样的,当有了很多的数据之后,它旁边的东西就能补了这些,也就是说数据自己本身能自动化的,就是数据知道了部分的东西,它能猜到其他的部分了,这也是今天大数据里面用的比较多的,而且特别是当使用第三方的数据来帮他猜他不知道的东西。


很多人在淘宝买东西,我问你在淘宝里面买多少类目,如果你是一般的人,最多买三个类目左右,所以我知道你的数据就是你在这三个类目里所买东西的行为,此外我没有你的数据。如果你买一个不是三个类目中的东西,我就需要用其他数据来补充了,就好像刚才讲的彩票,如果你没买过彩票,当然没有你买彩票的数据,但我需要用别的数据补充,今天在这张拼图里需要的数据。



一旦数据拼了很多的时候,你发现再放一张东西进去基本上是不费吹灰之力的,你就已经能搞定了,这就是大数据已经到了一个量的时候,你会发现它自我就可以做出循环,那个地方会非常关键。



我现在有一个任务,我要有数据,因为整个数据,我定位的这个问题,我做决策,我行动,再回去这个数据,这个东西是不断再循环的,但一般来说,这歌循环我报告给你,你看完报告会怎样做决定?这个闭环是不存在的,因为你做完你的决定之后,不会回头跟我说我的决定做的怎样。


这是第一次使用数据的时候,刚才我说刚进淘宝的时候,我报告更多的数据,结果这个数据怎么影响到这个人怎样做决策,我是没有数据的,但是到了第二次时候,我们把很多数据放了在工作流里面的时候你就会发现,这个闭环会稍微更完整一点了,但是到了刚才我讲的无人车整个部门都使用数据来转动的时候,100%的数据在这个闭环里面,所以这个东西叫什么呢?数据引擎。


它是一个数据的引擎不断滚动,数据越好解决数据的能力越大,解决数据的能力越大,数据越多,数据越多,又解决的能力越大,所以整个东西成为一种循环的时候,你就会发现它成为一家公司成功的核心动力了。


所以别的公司要跟它比较的时候就会发现,没有了这个数据的循环,没法打。因为它已经进了这个循环,如果你用打车工具的时候,越多的人使用某个打车工具,这个打车工具就越知道在哪里你能打到车,你第一次使用它的话,会发现老是打不到车,因为你根本没有这么多数据让它启动。


所以,一个是能启动,跟一个已经拿了非常多的数据循环的公司来讲,成为一个什么?壁垒。所以,数据未来肯定是成为很多公司的壁垒的,这个壁垒来自哪里?只要它拥有了一个庞大的数据引擎之后,你很难插进去。因为刚才给你看那条线是吧,我老是能推荐你要什么,我老是能知道什么价格你能接受,什么价格你不能接受,在那个时候你要进来跟它比较的时候,你发现你根本没有这么多数据跟它去打,所以我为什么特别要强调这个数据引擎。


如果我们说要打开数据引擎的话,我们要解决的大部分问题是发生了什么问题?为什么要发生?未来还会发生吗?如果发生了之后我可以怎么做?然后到了最终决策。所以呢,从数据到了决策,到行动其实是一个循环。只是说有了大数据之后我们多了第三方数据,有更多的不是你公司里面的数据能帮到你去做更多的决策。如果回到刚才那张拼图,里面的数据并不需要靠自己的能力,我可以找其他人来帮我填。


什么是断点?什么是数据零散?怎样让数据集中?车品觉在近两小时内还分享了哪些内容?

-END-

本文由盒饭财经投稿一鸣网,本文仅代表作者个人观点,文章非经授权请勿转载,

向一鸣网投稿,请点击投稿按钮,详情请参阅《一鸣网投稿须知》。

互联网人都在关注的微信号

难道你还没有关注?