如何正确的做增量加工|做增量_在线学习

回到十多年前，增量加工这个方法并不是一种需要特别需要提出的方法，因为关系数据库的存储与计算性能十分有限（即便是MPP数据库平台也不是全都是做全量加工），增量加工是最普遍的方式。

数据库系统是支持事务的，ACID（原子性、一致性、隔离性、持久性）四大特性可以完美的支持在一个数据表上同时做更新、删除、插入操作。数据库系统的数据存储是到每一个4K或者8K这种大小的数据块上的，详细的统计信息与索引结构都允许我们高效来做增量数据处理。

1.1.问题简述

在当前的MaxCompute这种分布式文件系统上，这些操作都变得不容易了。我们的数据块已经是64MB，不是KB这个量级。我们也没有索引这种加速从一千万数据中找到五十行数据的结构。

那么我们怎么在MaxCompute做增量加工呢？说实话，不太好做。因为没有索引结构，我们每一次的处理都是全量数据检索。如果还是跟之前在关系数据库一样频繁的提交，不但无法体现增量加工的性能与资源优势，反而成为了劣势。（如果我们还想使用关系数据库支持的delete、update这些特性，可以看下MaxCompute公共云近期上线的新特性“Transactional表”。）

那么我们要不要做呢？总结一句话：能做的地方还是可以做一下，但是不要勉强，不要大规模的去做，毕竟做增量加工不容易。

增量加工的前提是我们获取到了增量数据，相比全量数据增量数据是一个更小的集合，然后我们希望利用这个小增量集合来完成数据加工的过程而不是使用全量，这样就可以更快速、更节约的完成整个数据加工过程。

但是增量加工在MaxCompute总结为两个场景：

场景一，全量加工所需资源无法满足时效性要求，性能急需优化；

场景二，增量加工逻辑简单，相比全量加工性能优势明显；

2.1.加工原则

然后我们需要确立一些使用增量加工的原则，突破或者不遵守这些原则都是不合理或者不正确的。

二、2张增量表不能直接关联，必须要有至少一张表是全量；

四、多个表关联情况下，需要取多个表的增量标识，只要某一个表的关联行是增量就使用该表增量标识；

五、只有主表或则INNERJOIN的表的INSERT和DELETE状态可以传递到下一层，其他表的增量状态都是UPDATE；

2.2.MERGE逻辑

增量集成到MaxCompute平台的数据落地后，需要做一次MERGE才会产生ODS层的全量数据。所以，MERGE逻辑是最简单和经典的增量加工逻辑。最简单的MERGE逻辑如下：

INSERTOVERWRITETABLEtable_oldPARTITION(ds='${ds}')

SELECT`(ds)+.+`

FROMtable_olda--全量表

LEFTANTIJOIN

table_newb--增量表

ONa.pk=b.pk

ANDb.ds='${ds}'

WHEREa.ds='${lastdate}'

UNIONALL

SELECTb.*

FROMtable_newb

WHEREb.ds='${ds}'

--ANDb.operationnotin('D')

;

这个逻辑使用了一个JOIN加上一个UNION实现了一个MERGE逻辑，把增量合并成一份全量。这里有一个选项【--ANDb.operationnotin('D')】，是否要把物理删除从当前全量表中删除，可以根据实际业务需求选择。

2.3.

业务计算逻辑

MERGE逻辑是最简单的一个涉及到增量的逻辑，但是实际业务计算逻辑要比这个场景更加复杂一些。

2.3.1.2张增量表的处理

我们在MERGE里面虽然也是2张表，但是其实这是一张表的增量与全量。如果是2张增量表，那么该如何处理呢。基于两张增量表无法关联的原则，我们必须引入全量表。

1.我们需要利用2张表的当日增量与全量，也就是说有4张表参与计算。

2.如果不想让全量直接关联，那么就需要先找到两个增量表的主键的并集。然后从两个表的全量中拆出这个并集的集合，再去关联。

逻辑如下：

--ta_addta表的增量表

--ta_allta表的全量表

--tb_addtb表的增量表

--tb_alltb表的全量表

--注意这个场景使用了mapjoin，增量表的数据量是有限制的

withtx_addas(

selectdistinctpkfrom(

selectpkfromta_addwhereds='${ds}'

unionall

selectpkfromtb_addwhereds='${ds}')t)

,ta_add2(

select/*+mapjoin(t2)*/t1.*

fromta_allt1jointx_addt2ont1.pk=t2.pk

wheret1.ds='${ds}'

,tb_add2(

fromtb_allt1jointx_addt2ont1.pk=t2.pk

insertoverwritetabletc_addpartition(ds='${ds}')

select*

fromta_add2t1jointb_add2t2ont1.pk=t2.pk

这个逻辑利用了增量表比较小，可以利用了MAPJOIN的特性，可以快速的产出两个可以关联的并集再去关联。因为避免了大表的重分布，所以，可以大幅提升运行效率，降低资源消耗。（在这里增量的意义是表真的很大，如果全量是两张百万级的表，建议测试一下性能，可能直接关联更简单效率更高。所以，在MaxCompute做增量加工计算很多场景是没必要的。）

2.3.2.2张以上增量表的处理

我们一般说的增量加工的表还是指业务表，而不是代码表、参数表这种小表。这种万级的小表，增量与全量关联计算的性能差距可以忽略。百万级这种量级的表，增量计算也是意义不大的。我们看下上一小节那段冗长的逻辑，其实原本只需要2行就可以，现在已经变得如此的复杂。2张以上的表，如果使用同一PK关联，2张以上表的这个逻辑还是可以沿用的。如果有多个不同的关联PK，这个问题就从一维搞成了二维，除非实在不得已，不建议再去搞增量加工了。

我在这个优化工作的过程中遇到的场景，就是远远大于2张以上的表的增量加工，并且关联的PK也是多个。原来开发者选取了主表作为增量表，其他的表都是全量表的计算逻辑。因为这是一个分钟级的任务，原来的开发者应该还是希望从性能的角度做一些高效的设计。

索性，我就直接改为全量加工了，这样就没问题了。但是这样就无法识别出哪些数据是加工都的增量了，这就涉及到下面要提到的增量推送的问题。

2.4.增量推送逻辑

有两种思路可以获取需要推送的增量，一种是从原始增量开始就一直保留增量标志字段，另一种是从最终结果中利用T和T+1两个全量比对出增量。在上面提到的场景，我们就遇到了第一个场景，我们需要在加工环节保持增量识别标志，并对这个字段在关联后的结果进行计算。

2.4.1.增量标志计算

所以，我们在这里使用的逻辑如下:

select...

,casewhena.etl_partition='${ds}'thena.etl_partition

whenb.etl_partition='${ds}'thenb.etl_partition

...

elsea.etl_partitionendasetl_date

,casewhena.etl_partition='${ds}'thena.operation

whenb.etl_partition='${ds}'then'U'

elsea.operationendasoperation

fromtableaa

leftjointablebona.pk=b.pk

where...;

所以这种方式是可以把增量状态保持下去的，但是因为这个计算后的结果其实一次次的叠加后，可能就不知道对不对了。所以，在具体的业务场景还要具体的去看。

2.4.2.全字段比对

全字段比对是一种暴力的计算方法，不需要增量加工，我也可以计算出增量。并且这种计算结果还是真实可靠的，相对于一个经过多层计算后的业务结果表来说，更是如此。

全字段比对逻辑如下：

一、T+1日表比T日表多的记录，INSERT状态；

二、T日表比T+1日表多的记录，DELETE状态；

三、T+1日表比T日表，关联后相同主键的非主键字段值不一致的，UPDATE状态；

这个比对十分消耗计算资源，尤其是一些最细业务粒度的交易表、事件表。但是对一些用户表这种表来说，问题倒是不大。比对逻辑如下：

--I

selecta.*,'I'asoperation

fromtable1a

leftjointable1bona.pk=b.pkandb.ds='${lastdate}'

wherea.ds='${ds}'

andb.pkisnull

--D

selecta.*,'D'asoperation

leftjointable1bona.pk=b.pkandb.ds='${ds}'

wherea.ds='${lastdate}'

--U

selecta.*,'U'asoperation

jointable1bona.pk=b.pkandb.ds='${ds}'

and(coalesce(b.col,'')<>coalesce(b.col,'')--字符

orcoalesce(b.col,0)<>coalesce(b.col,0)--数值

orcoalesce(b.col,'0001-01-01')<>coalesce(b.col,'0001-01-01'))--日期

全字段比对看起来其实并不优美，实在是有点粗暴。当然你也许会有更容易识别增量的方式，可以多试试，这将是你保底的方法。

通过上面的内容，我们对增量加工的方法有了一定了解。希望我文中提到的方法能帮助大家在日后在项目中正确的使用增量加工的方法，并通过这个方法在部分场景获得显著的性能改进。另外我还是要提到一点，就是增量加工逻辑比全量加工更加复杂，并且还会遇到更为复杂的异常排查、补数据等维护等问题。大家在实际项目中，一定要权衡好利弊，再定夺方案。

THE END

如何正确的做增量加工

业绩增量金额商业模式增量金额

如何正确的做增量加工

销售人员如何做增量管理?Worktile社区

在优质存量上做大增量

前端遇上Go:静态资源增量更新的新实践

大讲堂第812讲高手如何做决策？一市场体量1.体量很重要如果只能看一个要素，就是行业体量。听起来非常简单，但答案却是非常难给的。因为这一步就已经决定成...

聚焦优势产业链统筹做好存量增量

共同为促进全球互联互通做增量（和音）新闻频道

数据仓库的超全总结

mysql三种备份方式四海骄阳

做好抖音电商，关键在于这4个底层逻辑

关注中央经济工作会议｜专家访谈：成渝“双圈”将发力新赛道打造增长极

药酒的历史沿革与发展现状

Qtus昆塔斯：创新打造婴童出行场景覆盖更多市场中国玩具婴童网

监管严惩虚假贸易，整改后国企供应链公司合规业务从哪里来？如何实现保量与增量？