- 需求分析
- 方案设计(技术选型)
- 数据设计
- 编码实现(功能)
- 测试(小数据量 -> 大数据量 -> 测试机)
- 生产(试运行)
- 点击行为
- 下单行为
- 支付行为
- 需求: 商品、热门(点击行为)Top10,区域
- 分析的数据
- 用户访问行为数据 user_visit_action
- 进行筛选过滤 date
- 区域:city_id
- 点击商品 click_product_id
- 依据不同维度进行分组、统计、排序、TopKey
- 城市信息表 city_info -> MySQL关系型数据库
- city_id
- city_name
- area
- ......
- product_id
- product_name
- extend_info
- JSON 格式数据
- product_status(0,自营商品;1,第三方商品)
-
企业开发,统计
-
-b,分组
可能会涉及到与基础信息表进行JOIN
按照不同的类别(依据某个字段)进行分类(分组)
-
-c,统计
Count,是否去重
类似WordCount
-
-d,排序
通常情况下,依据统计字段统计值,降序,涉及到一些维度
-
-e,TopKey
取前多少位
ROW_NUMBER
sqlContext.read.jdbc() // 多个重载方法,暗示不同场景选择不同方式,达到性能
dataFrame.write.