本文由 发布,转载请注明出处,如有问题请联系我们! 发布时间: 2021-05-16SparkSQL电商用户画像(四)之电商用户画像数据仓库建立

加载中
SparkSQL电商用户画像(四)之电商用户画像数据仓库建立

六、  电商用户画像数据仓库建立

7.1  数据仓库准备工作

为什么要对数据仓库分层?星型模型 雪花模型

User----->web界面展示指标表

l    用空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库会存在大量冗余的数据;

l     如果不分层的话,如果源业务系统的业务规则发生变化将会影响整个数据清洗过程,工作量巨大

l     通过数据分层管理可以简化数据清洗的过程,因为把原来一步的工作分到了多个步骤去完成,相当于把一个复杂的工作拆成了多个简单的工作,把一个大的黑盒变成了一个白盒,每一层的处理逻辑都相对简单和容易理解,这样我们比较容易保证每一个步骤的正确性,当数据发生错误的时候,往往我们只需要局部调整某个步骤即可。

数据仓库标准上可以分为四层:ODS(临时存储层)、PDW(数据仓库层)、MID(数据集市层)、APP(应用层)

ODS层:

为临时存储层,是接口数据的临时存储区域,为后一步的数据处理做准备。一般来说ODS层的数据和源系统的数据是同构的,主要目的是简化后续数据加工处理的工作。从数据粒度上来说ODS层的数据粒度是最细的。ODS层的表通常包括两类,一个用于存储当前需要加载的数据,一个用于存储处理完后的历史数据。历史数据一般保存3-6个月后需要清除,以节省空间。但不同的项目要区别对待,如果源系统的数据量不大,可以保留更长的时间,甚至全量保存;

PDW层:

为数据仓库层,PDW层的数据应该是一致的、准确的、干净的数据,即对源系统数据进行了清洗(去除了杂质)后的数据。这一层的数据一般是遵循数据库第三范式的,其数据粒度通常和ODS的粒度相同。在PDW层会保存BI系统中所有的历史数据,例如保存10年的数据

MID层:

为数据集市层,这层数据是面向主题来组织数据的,通常是星形或雪花结构的数据。从数据粒度来说,这层的数据是轻度汇总级的数据,已经不存在明细数据了。从数据的时间跨度来说,通常是PDW层的一部分,主要的目的是为了满足用户分析的需求,而从分析的角度来说,用户通常只需要分析近几年(如近三年的数据)的即可。从数据的广度来说,仍然覆盖了所有业务数据。

APP层:

为应用层,这层数据是完全为了满足具体的分析需求而构建的数据,也是星形或雪花结构的数据。从数据粒度来说是高度汇总的数据。从数据的广度来说,则并不一定会覆盖所有业务数据,而是MID层数据的一个真子集,从某种意义上来说是MID层数据的一个重复。从极端情况来说,可以为每一张报表在APP层构建一个模型来支持,达到以空间换时间的目的数据仓库的标准分层只是一个建议性质的标准,实际实施时需要根据实际情况确定数据仓库的分层,不同类型的数据也可能采取不同的分层方法。

 

这里我们采用的是京东的数据仓库分层模式,是根据标准的模型演化而来。

数据仓库分层:

BDM:缓冲数据,源数据的直接映像

FDM:基础数据层,数据拉链处理、分区处理

GDM:通用聚合

ADM:高度聚合

 

先把数据从源数据库中抽取加载到BDM层中,

然后FDM层根据BDM层的数据按天分区

 

7.2  数据仓库基本表介绍

 

 

 

 

 

 

BDM层数据表

(贴源缓存层)

 

 

订单表

 

 

itcast_bdm_order

 

订单明细表

 

 

itcast_bdm_order_desc

 

订单商品表

 

 

itcast_bdm_order_goods

 

 用户表

 

 

itcast_bdm_user

 

 购物车表

 

 

itcast_bdm_order_cart

 

用户上网记录表

 

itcast_bdm_user_pc_click_log

itcast_bdm_user_app_click_log

 

 

 

 

 

 

 

 

 

FDM层数据表

(拉链表、分区表)

 

 

用户宽表

 

itcast_fdm_user_wide

 

购物车表

 

itcast_fdm_order_cart

 

订单表

 

itcast_fdm_order

 

订单表明细表

 

itcast_fdm_order_desc

 

用户app端view表

 

itcast_fdm_user_app_pageview

 

用户pc端view表

 

itcast_fdm_user_pc_pageview

 

 

 

 

GDM层数据表

(通用数据模型层)

 

 

客户基本属性表

 

itcast_gdm_user_basic

      

客户消费订单表

 

itcast_gdm_user_consume_order

 

订单模型表

 

itcast_gdm_order

 

客户购买类目表

 

itcast_gdm_user_buy_category

      

客户访问信息表

 

itcast_gdm_user_visit

评论(0条)

刀客源码 游客评论