x86平台SIMD编程入门(2)：通用指令

1、重解释转换

虽然128位的XMM寄存器在硬件上只是256位YMM寄存器的下半部分，但在C++中它们是不同的类型。有一些intrinsic函数可以将它们重新解释为不同的类型，如下表所示，行代表源类型，列代表目标类型。

	`__m128`	`__m128d`	`__m128i`	`__m256`	`__m256d`	`__m256d`
`__m128`	=	`_mm_castps_pd`	`_mm_castps_si128`	`_mm256_castps128_ps256`
`__m128d`	`_mm_castpd_ps`	=	`_mm_castpd_si128`		`_mm256_castpd128_pd256`
`__m128i`	`_mm_castsi128_ps`	`_mm_castsi128_pd`	=			`_mm256_castsi128_si256`
`__m256`	`_mm256_castps256_ps128`			=	`_mm256_castps_pd`	`_mm256_castps_si256`
`__m256d`		`_mm256_castpd256_pd128`		`_mm256_castpd_ps`	=	`_mm256_castpd_si256`
`__m256i`			`_mm256_castsi256_si128`	`_mm256_castsi256_ps`	`_mm256_castsi256_pd`	=

这些函数不会被编译成任何指令，所以性能上几乎没有损耗，因为它们不改变寄存器中的值，例如32位float浮点数1.0f转换成32位整数后会变为0x3f800000。将128位值转换成256位值时，上半部分是未定义的。

2、类型转换

类型转换只支持带符号的32位整数，例如：

函数示例	说明
`_mm_cvtepi32_ps`、`_mm256_cvtepi32_ps`	将32位整数转换成对应的32位浮点数
`_mm_cvtepi32_pd`、`_mm256_cvtepi32_pd`	将32位整数转换成对应的64位浮点数
`_mm_cvtps_epi32`、`_mm256_cvtps_epi32`	将32位浮点数转换成对应的32位整数
`_mm_cvtpd_epi32`、`_mm256_cvtpd_epi32`	将64位浮点数转换成对应的32位整数

当浮点数转换为整数时，函数使用MXCSR寄存器中指定的舍入模式，若要更改模式，可以使用宏_MM_SET_ROUNDING_MODE。此外，也有一些名称中带有额外t的函数会忽略MXCSR寄存器，并始终使用向零截断（_MM_ROUND_TOWARD_ZERO）的模式，例如_mm_cvttpd_epi32、_mm_cvttps_epi32。

此外还有一些函数可以在32位浮点数与64位浮点数之间进行转换，例如_mm256_cvtps_pd将32位浮点数转换成64位浮点数。

3、内存访问3.1、加载

对齐/非对齐加载：所有数据类型都支持对齐加载和非对齐加载。对齐加载例如_mm_load_si128或_mm256_load_ps，它们要求源地址是16字节或者32字节对齐的，否则可能会导致崩溃；非对齐加载例如_mm_loadu_si128或_mm256_loadu_ps，它们函数名中额外的u表示unaligned，它们的速度可能会慢于对齐加载的版本。
单通道加载：__m128和__m128d支持单通道加载，即只加载第一条通道并把其它通道设置成0.0，例如_mm_load_ss和_mm_load_sd。
逆序加载：__m128和__m128d支持逆序加载，即以逆序方式将数据加载到寄存器中，例如_mm_loadr_ps和_mm_loadr_pd。
广播加载：在AVX指令集中， __m128、__m256、__m256d支持广播加载，也就是把单个值加载到多个寄存器通道中，例如_mm256_broadcast_ss等。
掩码加载：AVX引入了掩码加载，即根据掩码的值选择性地加载数据，例如_mm_maskload_ps等。
跨距加载：AVX2引入了跨距加载，它可以利用索引寄存器来加载非连续地址的数据元素，不过速度较慢，例如_mm_i32gather_ps等。
流加载：这类指令绕过缓存，直接将内存数据加载到寄存器中，从而减少缓存污染和缓存替换的开销，适用于一次性读取大量数据并进行向量化计算的场景，例如_mm_stream_load_si128、_mm256_stream_load_si256等。

3.2、存储

对齐/非对齐存储：与对齐/非对齐加载同理，对应的存储指令也有_mm_store_ps、_mm_storeu_ps等。
单通道存储：与单通道加载类似，只把第一条通道的数据写入内存，例如_mm_store_ss等。
逆序存储：与逆序加载类似，它以逆序方式将数据写入内存中，例如_mm_storer_ps等。
掩码存储：与掩码加载类似，根据掩码的值选择性地存储数据，例如_mm_maskstore_ps等。
流存储：与流加载指令类似，绕过缓存直接将数据写入内存，从而减少了缓存写回的开销，适用于大规模数据的存储操作，例如_mm_stream_ps、_mm256_stream_si256等。

4、向量寄存器初始化

所有向量寄存器类型都有_mm_setzero_ps或_mm256_setzero_si256这样的函数，用于将寄存器初始化为全零，它可能会被编译成xorps xmm0, xmm0, xmm0这样的指令，其执行效率很高。

虽然CPU无法使用0以外的常量来初始化寄存器，但编译器还是提供了一些函数来实现非0初始化，例如_mm_set_ps可以用不同的值初始化各个通道，_mm256_set1_epi用相同的值初始化所有通道。这些函数的实现依据具体情况而定：如果参数是编译时的常量，它们通常会被编译成二进制文件中的只读数据；如果编译时无法确定参数，编译器就会执行其它合理操作，例如寄存器大部分为0，而我们只设置了一条通道，那么编译器可能会执行插入指令，再比如参数来自变量，编译器就可能会先实行洗牌或标量存储、然后再进行向量加载。

5、向量寄存器与通用寄存器的转换

数据类型	数据复制方向	函数示例
整数	向量寄存器最低通道 ==> 通用寄存器	`_mm_cvtsi128_si32`、`_mm_cvtsi128_si64`
整数	通用寄存器 ==> 向量寄存器最低通道	`_mm_cvtsi32_si128`、`_mm_cvtsi64x_si128`
浮点数	向量寄存器最低通道 ==> 通用寄存器	`_mm_cvtss_f32`、`_mm_cvtsd_f64`
浮点数	通用寄存器 ==> 向量寄存器最低通道	没有对应的转换函数，但可以使用`_mm_set_ps`或`_mm_set1_ps`实现相同功能

上表中列举的转换函数只操作向量寄存器的最低通道，除此之外还有一类函数可以将整数向量寄存器任意通道的值复制到通用寄存器，它们是_mm_extract_epi8、_mm_extract_epi16等。

当程序是32位时，所有通用寄存器也都是32位的，在向量寄存器和通用寄存器之间移动64位整数的指令不可用。

6、位运算

浮点数和整数有一套完整的位运算指令，它们包含AND、OR、XOR、ANDNOT指令，例如_mm_and_ps、_mm256_xor_epi32等。如果需要位运算NOT，最快的方法可能是与所有1进行XOR，例如：

__m128i bitwiseNot(__m128i x){    const __m128i zero = _mm_setzero_si128();    const __m128i one = _mm_cmpeq_epi32(zero, zero);    return _mm_xor_si128(x, one);}

test指令将计算结果直接保存到int型的通用寄存器中，部分test函数及其功能如下表所示：

函数示例	返回结果
`_mm_testz_si128`、`_mm256_testz_si256`	`return ((a & b) == 0) ? 1 : 0`
`_mm_testc_si128`、`_mm256_testc_si256`	`return (((~a) & b) == 0) ? 1 : 0`
`_mm_testnzc_si128`、`_mm256_testnzc_si256`	`testz`和`testc`结果都为0时返回1，否则返回0
`_mm_test_all_ones`	把输入向量取反后与全1向量按位与，如果等于0则返回1，否则返回0
`_mm_test_all_zeros`	把输入向量与掩码向量按位与，如果等于0则返回1，否则返回0