目录
- 什么是数据倾斜问题
- SQL如何解决数据倾斜问题
- having和where的区别
- 在union和join的区别
- 举例说明
- 使用union
- 使用join
- count(*)、count(字段)和count(distinct字段)的区别
什么是数据倾斜问题
- 数据倾斜问题是指在数据分布不均匀的情况下,某些特定的数据分区或键值会出现过多的数据,导致计算负载不均衡,可能会导致一些计算资源长时间处于高负载状态,影响查询性能和效率。
SQL如何解决数据倾斜问题
- 数据预处理:在数据导入之前,对数据进行预处理,通过一些技术手段将数据进行分散、均匀化,减少数据倾斜的可能性。
- 数据重分布:对于已经存在数据倾斜的表