数据中台实战:手把手教你搭建数据中台

微信读书
很快过了一遍(这些理论到了实操层面,还是非常非常困难的:人员协调,细节攻克,)
耗时:2h

笔记

在这里插入图片描述

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
《数据中台实战:手把手教你搭建数据中台》

董超华
94个笔记

第三章 内容简介

◆ 2024/02/23发表想法

2024-02-23 13:57:30 互联网,领军人物“阿里巴巴”

原文:自从2015年阿里巴巴提出中台的概念后,数据中台的概念就火遍了整个互联网圈。

◆ 自从2015年阿里巴巴提出中台的概念后,数据中台的概念就火遍了整个互联网圈。


第四章 推荐序

◆ 2024/02/23发表想法

2024-02-23 14:21:15 中台不必须,要达到一定程度。(如微服务一般,小项目就单体,项目工程模块多,上微服务)

原文:只有业务密度和复杂度达到一定量级的公司,才有中台存在的必要。


第七章 1.1 什么是中台

◆ 业务数据、日志数据、行为数据等

◆ 集中处理,存放在数据中心

◆ 分层建模

◆ 用户的行为数据和用户的业务数据

◆ 用户画像

◆ 打通产品线之间的数据

◆ 打通后的数据赋能业务人员

◆ 2024/02/23发表想法

2024-02-23 14:31:59 美团的数据智能

原文:美团外卖为例,美团如何调动千万量级的商户和遍布全国的外卖骑手将外卖安全、快速地送到用户的手上呢?如果靠人力进行调度,以美团如此大的业务量,其需要花费的人力是难以想象的。因此美团一定拥有一套不断迭代的智能调度算法,这套算法可以帮助用户找到合适的餐馆,帮助餐馆找到合适的骑手,从而以最高的效率将外卖送到用户手上,所以美团是一家数据智能的公司。

◆ 美团外卖为例,美团如何调动千万量级的商户和遍布全国的外卖骑手将外卖安全、快速地送到用户的手上呢?如果靠人力进行调度,以美团如此大的业务量,其需要花费的人力是难以想象的。因此美团一定拥有一套不断迭代的智能调度算法,这套算法可以帮助用户找到合适的餐馆,帮助餐馆找到合适的骑手,从而以最高的效率将外卖送到用户手上,所以美团是一家数据智能的公司。

◆ 数据智能的标志就是由机器代替人工去决策,未来数据智能是一个企业的核心竞争力之一。

◆ 如果公司没有业务中台,也可以搭建数据中台,只不过要多做一些工作,要从各条产品线分别采集数据

◆ 一旦开发相关系统,前期的投入比较大

◆ 具备核心的业务能力和数据能力之后,再去扩展产品线时,新建产品线所需的成本就没那么高了

◆ 至少三条产品线以上


第八章 1.2 双中台实战案例

◆ 打版服务

◆ 2024/02/23发表想法

2024-02-23 14:42:02 行为埋点

原文:用户的浏览行为、点击行为,这些行为会做相应的埋点

◆ 用户的浏览行为、点击行为,这些行为会做相应的埋点

◆ 数据的分层主要包括操作数据层(Operational Data Store,ODS)、维度数据层(Dimension,DIM)、明细数据层(Data Warehouse Detail,DWD)、汇总数据层(Data Warehouse Summary,DWS)和应用数据层(Application Data Store,ADS)

◆ 数据根据需求封装成一个个的接口

◆ 如果电商产品的活跃用户持续减少,数据中台如何通过数据帮助他们找出原因

◆ 个性化商品推荐,让“货找人”而不是“人找货”,提高了人货匹配的概率,同时也提高了用户的下单概率


第九章 1.3 数据中台人员构成

◆ 架构设计

◆ 标签平台、推荐平台

◆ 底层模型直接决定数据中台数据指标的质量和可扩展性

◆ 全面、多维度的建模是数据中台的基础


第一十章 1.4 数据中台开发流程

◆ 数据指标涉及的业务逻辑

◆ 指标定义、统计周期、计算方式

◆ 一般来说,最终对外提供服务的数据存储在ADS层

◆ 基于ADS层的数据将数据封装成对外服务的接口


第一十一章 1.5 数据中台内外合作机制

◆ 2024/02/23发表想法

2024-02-23 14:56:58 业务取数要申请

原文:[插图]图1-10 业务人员取数申请表格

◆ [插图]图1-10 业务人员取数申请表格

◆ ETL即Extract-Transform-Load,指数据从来源端经过抽取(extract)、转换(transform)、加载(load)等步骤至目的端的过程。


第一十三章 2.1 数据采集的分类

◆ 用户产生的行为数据都分为两种:一种是浏览数据,一种是点击数据。

◆ 用户对某商品的1次点击,代表用户对该商品的兴趣度增加10分,而用户的3次点击代表他对这件商品非常有兴趣。


第一十四章 2.2 用户行为数据采集

◆ 前端开发工程师需要按照第三方移动应用统计公司的对接要求,集成第三方移动应用统计公司提供的数据采集SDK(Software Development Kit,即软件开发工具包)。

◆ 访问主路径每个步骤的用户数,从而可以分析出哪两个步骤之间的转化率比较低,接着可以进一步分析转化率低的原因,从而根据原因进一步优化产品。


第一十六章 2.4 数据埋点实战案例

◆ (加购、收藏按钮


第一十七章 第3章 数据存储与计算

◆ 统一的定义数据的标准,没有统一的数据存储规范


第一十八章 3.1 数据指标的定义

◆ 2024/02/23发表想法

2024-02-23 15:08:06 交易额,概念模糊(下单金额,支付金额,)

原文:交易额就是一个比较模糊的指标。我们以电商产品为例,电商交易的流程是包含下单环节和支付环节的,那么交易额到底是指下单金额、还是指支付金额(减去优惠金额)?如果指下单金额要绑定下单时间,如果指支付金额就要绑定支付时间。另外要不要考虑订单状态,要不要考虑退款?在这种情况下,如果没有一个统一的标准,公司内部沟通的效率就会变得极低,因为每个人的理解都不同。

◆ 交易额就是一个比较模糊的指标。我们以电商产品为例,电商交易的流程是包含下单环节和支付环节的,那么交易额到底是指下单金额、还是指支付金额(减去优惠金额)?如果指下单金额要绑定下单时间,如果指支付金额就要绑定支付时间。另外要不要考虑订单状态,要不要考虑退款?在这种情况下,如果没有一个统一的标准,公司内部沟通的效率就会变得极低,因为每个人的理解都不同。

◆ 将一个数据指标拆解到不能再继续拆解为止,这样就能够最大限度地保证大家的理解无误。

◆ [插图]图3-1 数据指标的拆解方法

◆ (1)业务板块:即面向业务的大的模块,就是公司的产品线,不会经常变。比如一个公司有三条产品线分别是产品线A、产品线B、产品线C,那么这三条产品线分别属于不同的业务板块。(2)数据域:数据所属的领域。例如,电商产品中的用户、商品、交易等大的功能模块都属于数据域。(3)业务过程:完成某个业务所涉及的全部过程。如电商业务中的下单、支付、退款等环节都属于业务过程。(4)时间周期:就是统计的时间范围,如“近30天”“自然周”“截止到当天”等。(5)修饰类型:对修饰词的描述。如电商中的支付方式、终端类型等。(6)修饰词:除了维度以外的限定词,如电商支付中的微信支付、支付宝支付、网银支付等。(7)原子指标:即不可再拆分的指标,比如支付金额、支付件数等指标。(8)维度:是指度量单位,用来反映业务的一类属性。常见的维度有地理维度(国家、地区等)、时间维度(年、月、周、日等)、订单的维度等。(9)属性:隶属于维度。如地理维度中的国家名称、省份名称等都属于属性。(10)派生指标:一组对应的原子指标、修饰词、时间周期就组成了一个派生指标,如图3-2所示。[插图]图3-2 派生指标


第一十九章 3.2 数据模型设计

◆ 业界比较通用的分层方式是将数据模型分为5层:①ODS层(Operate Data Store,操作数据层)、②DIM层(Dimension,维度数据层)、③DWD层(Data Warehouse Detail,明细数据层)、④DWS层(Data Warehouse Service,汇总数据层)、⑤ADS层(Application Data Store,应用数据层)。

◆ [插图]图3-4 分层模体系


第二十三章 4.1 标签平台设计思路

◆ 亚马逊公司的创始人Jeff Bezos曾说过他的梦想:“如果我有一百万个用户,我就会做一百万个不同的网站!”

◆ 实现“千人千面”效果的底层技术就是用户个性化推荐系统。


第二十四章 4.2 标签平台快速入门

◆ 2024/02/23发表想法

2024-02-23 15:22:26 标签定义案例

原文:表4-3 标签体系的基础标签例子[插图]

◆ 表4-3 标签体系的基础标签例子[插图]

◆ 表4-4 标签体系的业务标签例子[插图]

◆ 2024/02/23发表想法

2024-02-23 15:24:12 哇,还可以这样来操作。“标签工厂”

原文:[插图]图4-3 标签工厂

◆ [插图]图4-3 标签工厂

◆ [插图]图4-4 用户客观标签圈选

◆ [插图]图4-5 用户行为圈选案例

◆ [插图]图4-6 基于客观标签与用户行为结合圈选

◆ [插图]图4-7 基于主观标签的用户圈选


第二十五章 4.3 用户画像

◆ [插图]图4-8 个人用户画像示例

◆ 2024/02/23发表想法

2024-02-23 15:57:52 标签,年龄段占比

原文:通过群体用户画像功能,还可以选择两个人群,做对比分析。可以通过标签如性别、年龄段、城市等级的三维交叉细分,借助算法模型,找到目标人群的典型特征。典型特征是指在一定占比基础上,和基准人群相比,TGI(Target Group Index,即目标群体指数)最高的特征,具体如图4-10所示。[插图]图4-10 群体画像的对比分析

◆ 通过群体用户画像功能,还可以选择两个人群,做对比分析。可以通过标签如性别、年龄段、城市等级的三维交叉细分,借助算法模型,找到目标人群的典型特征。典型特征是指在一定占比基础上,和基准人群相比,TGI(Target Group Index,即目标群体指数)最高的特征,具体如图4-10所示。[插图]图4-10 群体画像的对比分析


第二十六章 4.4 标签平台实战案例

◆ RFM模型,此处详细说明下:R(Recency),即用户最近一次交易时间的间隔,R值越高,表示客户交易发生的日期越久,反之则交易发生的日期越近;F(Frequency),即用户在一段时间内交易的次数,F值越高,表示客户交易越频繁,反之则表示客户交易不够活跃;M(Monetary),即用户在一段时间内交易的金额,M值越高,表示客户价值越高,反之则表示客户价值越低。

◆ 2024/02/23发表想法

2024-02-23 16:04:38 RFM模型分析

原文:表4-6 基于RFM的用户分群[插图]

◆ 表4-6 基于RFM的用户分群[插图]


第二十九章 5.2 用户拉新分析

◆ 2024/02/23发表想法

2024-02-23 16:42:22 广告渠道。用户转化率

原文:比如在百度上投放SEM广告,每天要花费大量的金钱。在百度上投放关键字广告,如果关键字设置合理,每天都能拉来一批用户,而注册转化率每提高一个百分点,就相当于每天为公司增加很多用户,特别是在大面积投广告的情况下,注册转化率越高,带来的用户就越多。如表5-1所示,可以十分清楚地看出来哪个渠道的注册转化率比较高。表5-1 注册渠道转化率[插图]

◆ 比如在百度上投放SEM广告,每天要花费大量的金钱。在百度上投放关键字广告,如果关键字设置合理,每天都能拉来一批用户,而注册转化率每提高一个百分点,就相当于每天为公司增加很多用户,特别是在大面积投广告的情况下,注册转化率越高,带来的用户就越多。如表5-1所示,可以十分清楚地看出来哪个渠道的注册转化率比较高。表5-1 注册渠道转化率[插图]


第三十章 5.3 用户活跃分析

◆ [插图]图5-6 电商主路径相关数据指标


第三十一章 5.4 用户留存分析

◆ 表5-2 访问留存率[插图]


第三十三章 5.6 用户裂变分析

◆ 2024/02/23发表想法

2024-02-23 17:14:11 裂变。转发/分享

原文:[插图]图5-7 用户传播链路图

◆ [插图]图5-7 用户传播链路图


第三十四章 5.7 用户生命周期分析

◆ [插图]图5-10 用户生命周期变化情况


第三十七章 6.2 商品售中分析

◆ 表6-2 商品销售相关指标[插图]


第四十章 7.1 网页分析

◆ 表7-1 网页分析相关指标[插图]


第四十一章 7.2 路径分析

◆ 表7-2 产品访问路径数据[插图]


第四十四章 8.1 针对公司领导层的交易分析设计

◆ 2024/02/23发表想法

2024-02-23 17:22:52 销售大屏

原文:[插图]图8-4 电商项目数据大屏案例

◆ [插图]图8-4 电商项目数据大屏案例


第四十七章 9.1 自助分析平台产品方案

◆ GrowingIO、诸葛io、神策。这三个产品的数据看板模块功能的设计有一个共同点,它们都有两个主要功能:一是制作看板,二是使用看板。

◆ 通过设置指标、维度、过滤条件、特殊条件等选项,以拖曳的方式就可以定制自己的看板。在看板制作完成后,可以分类存储,形成自己的看板库。


第四十八章 9.2 快速入门三种数据自助分析可视化产品

◆ 第一个是商用收费的数据自助分析可视化产品叫帆软,其在国内做得比较好。


第五十二章 10.1 自动化营销平台的设计思路

◆ [插图]图10-1 活动的通用流程

◆ (1)活动策划。首先要确定活动的目的是什么,为什么要做这场活动,是为了拉新还是为了沉默用户的促活,或者是为了老用户的复购

◆ (2)圈人。要定义活动的目标用户

◆ (3)做活动。首先要确定活动的内容,比如我们做一个简单的抽奖活动,那就需要确定活动什么时候开始/结束、奖品是什么等信息。接着要选择推送渠道,即通过什么样的方式告诉目标用户来参加活动,比如短信推送、微信群通知等

◆ (4)看效果。要看体现活动效果的数据。我们需要查看活动进行中的数据怎么样,确定我们应该关注哪些指标,这些指标是否有升高或者降低。我们还要查看活动后的数据怎么样,确定如何通过这些数据做快速调整,让下次活动做得更好。


第五十三章 10.2 自动化营销平台介绍

◆ [插图]图10-4 优惠券活动设置界面

◆ [插图]图10-7 H5小游戏抽奖营销配置

◆ 表10-1 活动中效果分析[插图]


第五十九章 11.4 两种经典的推荐算法

◆ 2024/02/23发表想法

2024-02-23 17:32:37 123都有a,12有b,3无b。(b->3)

原文:[插图]图11-7 基于物品的协同过滤算法案例

◆ [插图]图11-7 基于物品的协同过滤算法案例


第六十二章 11.7 从0到1打造一个离线推荐系统

◆ 第一个召回算法是基于物品的协同过滤算法

◆ 第二个召回算法是基于商品分词的算法


第六十三章 11.8 从0到1打造一个实时推荐系统

◆ (1)获取用户短时间内的兴趣,比如记录用户近几次的行为数据或者近一段时间内的行为数据,比如浏览、点击、收藏、加购、下单了某些商品

◆ (2)通过用户感兴趣的商品列表在商品库中寻找相似的商品。