Java基础数据结构之哈希表

概念

顺序结构以及平衡树中，元素关键码与其存储位置之间没有对应的关系，因此在查找一个元素时，必须要经过关键 码的多次比较。顺序查找时间复杂度为O(N)，平衡树中为树的高度，即O( log2N)，搜索的效率取决于搜索过程中元素的比较次数。理想的搜索方法：可以不经过任何比较，一次直接从表中得到要搜索的元素。 如果构造一种存储结构，通过某种函数(hashFunc)使元素的存储位置与它的关键码之间能够建立一一映射的关系，那么在查找时通过该函数可以很快找到该元素。当向该结构之中插入元素时，根据该元素的关键码和特定的函数计算出该元素应存放的位置，并且按此位置存放，而在取元素时按同样方式计算出所处位置。这样的话，存储和查找的时间复杂度就可以达到O(1)。该方式即为哈希（散列）方法，用到的函数称为哈希（散列）函数。构造出来的结构称为哈希表或散列表哈希函数设置为： hash(key) = key % capacity ; capacity 为存储元素底层空间总的大小。比如一个长度为10的数组如果要放13，hash(13)=13%10=3所以放在3下标，但如果要放14，会出现什么问题？

冲突（碰撞）

1.概念：

对于两个数据元素的关键字和 (i != j) ，有ki != kj ，但有： Hash(ki ) == Hash( kj) ，即： 不同关键字通过相同哈 希函数计算出相同的哈希地址，该种现象称为哈希冲突或哈希碰撞 。

2.冲突的发生是必然的，我们要做的就是降低冲突率

3.冲突的避免–哈希函数的设计

引起哈希冲突的一个原因可能是： 哈希函数设计不够合理 。 希函数设计原则 ：哈希函数的定义域必须包括需要存储的全部关键码，而如果散列表允许有 m 个地址时，其值域必须在 0 到 m-1 之间哈希函数计算出来的地址能均匀分布在整个空间中哈希函数应该比较简单

1.直接定制法（常用）

取关键字的某个线性函数为散列地址： Hash （ Key ） = A*Key + B。优点：简单均匀；缺点：需要事先知道关键字的分布情况；使用场景：适合于查找比较小且连续的情况。 例如：Hash(key)=key-minval;对于数据97，95，91，93，96，minval是91，所以将97放到6下标，95放到4下标…… 2.除留余数法散列表中允许的地址数是m（就是下标从0到m，注意哈希表的底层首先是一个数组），那么就取小于等于m，接近于m的质数p作为除数，用函数 hash(key) = key %p来求得地址 3. 平方取中法–(了解) 假设关键字为1234，对它平方就是1522756，抽取中间的3位227作为哈希地址；再比如关键字为4321，对、它平方就是18671041，抽取中间的3位671(或710)作为哈希地址 平方取中法比较适合：不知道关键字的分布，而位数又不是很大的情况 4. 折叠法–(了解)折叠法是将关键字从左到右分割成位数相等的几部分(最后一部分位数可以短些)，然后将这几部分叠加求和，并按散列表表长，取后几位作为散列地址。折叠法适合事先不需要知道关键字的分布，适合关键字位数比较多的情况 5. 随机数法–(了解) 选择一个随机函数，取关键字的随机函数值为它的哈希地址，即H(key) = random(key),其中random为随机数函数。通常应用于关键字长度不等时采用此法 6. 数学分析法–(了解) 设有n个d位数，每一位可能有r种不同的符号，这r种不同的符号在各位上出现的频率不一定相同，可能在某些位上分布比较均匀，每种符号出现的机会均等，在某些位上分布不均匀只有某几种符号经常出现。可根据散列表的大小，选择其中各种符号分布均匀的若干位作为散列地址。 注意：哈希函数设计的越精妙，产生哈希冲突的可能性就越低，但是无法避免哈希冲突

4.冲突的避免–负载因子调节

散列表的载荷因子（负载因子）=填入表中的元素/散列表的长度

由于表长是定值，所以填入的元素越多，负载因子越大，产生冲突的可能性就越大。一般要将载荷因子控制在0.75以下，当超过0.75时，就应该对哈希表中的数组进行扩容

5.冲突的解决之闭散列

闭散列：也叫开放地址法，当发生哈希冲突时，如果哈希表未被装满，说明在哈希表中必然还有空位置，那么可以 把key存放到冲突位置中的“下一个” 空位置中去。那么如何找到下一个空位置呢？ 法一：线性探测从发生冲突的位置开始，依次向后进行探测，直到找到下一个空位置。缺陷是产生冲突的元素会堆积在一块，例如：想要插入11，21，31，41，就会依次放到2，3，8，0下标法二：二次探测找下一个空位置的方法为：Hi = (H0+ i^2)% m, 或者： Hi= (H0-i^2 )% m。其中：H0是通过哈希函数计算出的下标， i = 1,2,3… ，表示的是发生冲突的次数，例如想要放21，通过哈希函数计算出来是1，即H0=1，这是第一次发生冲突，所以i=1，所以Hi= (H0+i^2 )% m即Hi=(1+1)%10=2。

6.冲突的解决之开散列（哈希桶）

开散列法又叫链地址法(开链法)，首先对关键码集合用散列函数计算散列地址，具有相同地址的关键码归于同一子集合，每一个子集合称为一个桶，各个桶中的元素通过一个单链表链接起来，各链表的头结点存储在哈希表中。比如要放11，通过散列函数计算出下标为1，所以可以通过头插法或者尾插法将11查到对应的链表里这就是我们所说的哈希表实际上是数组+链表+红黑树（当数组长度>=64&&链表长度>=8以后，就会将其变成一棵红黑树） java的HashMap就是用这种哈希表的方式来解决哈希冲突的