HTAP

  • HTAP技术
    • 传统的HTAP解决方案
    • HATP的要求
    • TiDB的HTAP架构
    • TiDB的HTAP特性
    • 使用场景
  • MPP

HTAP技术

传统的HTAP解决方案


HATP的要求

  • 可扩展性
    • 分布式事务
    • 分布式存储
  • 同时支持OLTP与OLAP
    • 同时支持行存和列存
    • OLTP与OLAP业务隔离
  • 实时性
    • 行存与列存数据实时同步

TiDB的HTAP架构

数据存到TiKV的同是也会同步(也是使用raft算法,并且它不参与选举,只用于同步)到TiFlash,并且是它是列式。列式的意思就是数据块当中存的不是一行数据,而是一列的数据。

对于数据一致性要求的查询,会去到TiKV当中(行存)处理数据。例如银行转账
对于某列的数据大量更新,则会去到TiFLASH当总(列存)处理数据。


TiDB的HTAP特性

  • 行列混合
    • 列存(TiFlash) 支持基于主键的实时更新
    • TiFlash作为列存副本
    • OLTP与OLAP业务隔离
  • 智能选择(CBO自动或人工选择)
  • MPP架构
  • 强一致性,自动同步

MPP: 大规模平行并发处理。 它在TiFLASH中处理。

使用场景

HTAP—— TiDB 在线事务与在线分析处理 (Hybrid Transactional and Analytical Processing,HTAP) 功能。

TiDB HTAP 可以满⾜企业海量数据的增产需求、降低运维的⻛险成本、与现有的⼤数据栈⽆缝缝合,从⽽实现数据资产价值的实时变现。
以下是三种 HTAP 典型适⽤场景:

  • 混合负载场景
    当将 TiDB 应⽤于在线实时分析处理的混合负载场景时,开发⼈员只需要提供⼀个⼊⼝,TiDB 将⾃动根据业务类型选择不同的处理引擎。
  • 实时流处理场景
    当将 TiDB 应⽤于实时流处理场景时,TiDB 能保证源源不断流⼊系统的数据实时可查,同时可兼顾⾼并发数据服务与 BI 查询。
  • 数据中枢场景
    当将 TiDB 应⽤于数据中枢场景时,TiDB 作为数据中枢可以⽆缝连接数据业务层和数据仓库层,满⾜不同业务的需求。
  • 大数据量
    ⼤数据场景 (100 T) ,推荐使⽤ TiFlash MPP 作为 HTAP 的主要⽅案,TiSpark 作为补充⽅案。

MPP

  • 大量数据的join聚合查询
  • 所有MPP计算都在TiFlash节点内存中完成
  • 目前只支持等值连接
  • Enforce_mpp 帮助验证是否可以使用MPP

    实现了聚合和连接的一个加速。MPP只在TiFlash上完成。

SQL过来,TiDB Server作为协调者,Tidb 会将每个TiFLASH 上面的列存做交换,交换后让表连接需要的数据只在一个TiFLASH上。(不会跨TiFlash做表连接)
另外TiFlash也会走计算下推到它,例如过滤,交换,连接,聚合等等。
每个TiFlash 在这里还有个专用名称(MPP WORKER)

先做过滤


然后数据交换

让pid相等(符合条件)的数据 都到一个节点上来。 这样在连接的时候,就只需要在本节点连接即可。
pid:hash(pid) = 0,1,2 : 假设分片的时候是按照hash或者求模的方式操作。 数据交换也可以根据对应的规则进行交换。

然后做连接的时候,只发生在本节点,不需要到其他节点查找数据,这样就可以并行执行了。

那如何对聚合做提速?
group by order.state 提速

state = cn 80个 的全放到一个TiFlash USA 15个 放到一个节点 Jp 77个都放到一个节点,


这个计算就下推到每个TiFLASH上。