sql 连续活跃天数

1. 背景

已知数据集为：

目的：
计算每个uid的连续活跃天数，并且每一段活跃期内的开始时间和结束时间

2. 步骤

第一步：处理数据集
处理数据集，使其满足每个uid每个日期只有一条数据。
第二步：以uid为主键，按照日期进行排序，计算row_number.

SELECT  uid          ,`征信查询日期`          ,ROW_NUMBER() OVER(PARTITION BY uid ORDER BY `征信查询日期` ASC) AS `rn`          ,first_value(`征信查询日期`)over(PARTITION BY uid ORDER BY `征信查询日期` ASC) `fir`          ,first_value(`征信查询日期`)over(PARTITION BY uid ORDER BY `征信查询日期` desc) `las`FROM   input

两个关键点：

序号rn可以看做一直活跃的情况下，活跃日期最大值和活跃日期最小值之间的天数差。那么，日期最大值与日期最小值之差如果不等于序号，就表明中间有不连续。
用’征信查询日期’ – rn 可以计算一列”关键列”,连续时间段内，它的关键列值是一样的

select *,DATE_SUB(`征信查询日期`,`rn`) as `关键列` from (SELECT  uid          ,`征信查询日期`          ,ROW_NUMBER() OVER(PARTITION BY uid ORDER BY `征信查询日期` ASC) AS `rn`          ,first_value(`征信查询日期`)over(PARTITION BY uid ORDER BY `征信查询日期` ASC) `fir`          ,first_value(`征信查询日期`)over(PARTITION BY uid ORDER BY `征信查询日期` desc) `las`FROM   input)

第三步：以uid和关键列作为主键。

select uid, `关键列`,count(*) as `连续活跃天数`, min(`征信查询日期`) as `活跃开始时间`, max(`征信查询日期`) as `活跃结束时间` from (select *, DATE_SUB(`征信查询日期`,`rn`) as `关键列` from (SELECT  uid          ,`征信查询日期`          ,ROW_NUMBER() OVER(PARTITION BY uid ORDER BY `征信查询日期` ASC) AS `rn`          ,first_value(`征信查询日期`)over(PARTITION BY uid ORDER BY `征信查询日期` ASC) `fir`          ,first_value(`征信查询日期`)over(PARTITION BY uid ORDER BY `征信查询日期` desc) `las`FROM   input  ) )group by uid, `关键列`

sql 连续活跃天数

最新关注

热文推荐

LeetCode：210课程表Ⅱ（图论：拓扑排序判断是否有环）

使用Libevent创建TCP连接的入门指南

Intellij IDEA中使用mapstruct的坑

Luogu P4552 [Poetize6] IncDec Sequence 更好的题解

fly-barrage 前端弹幕库（1）：项目介绍

金融科技迈入2.0时代，数字化技术都做了什么？

sql 连续活跃天数

相关文章

最新关注

热文推荐