引言
大语言模型
- 引言
- 语言模型
- 自回归语言模型(Autoregressive language models)
- 小结
语言模型
语言模型(LM)的经典定义是一种对令牌序列(token)的概率分布。假设我们有一个令牌集的令牌表 VVV。 语言模型每个为令牌序列 x1, . . . , xL x_{1},…,x_{L}x1,…,xLε VVV分配一个频率(话题0和1之间的数字):
p( x 1,…, x L)p(x_1, …, x_L) p(x1,…,xL)
自回归语言模型(Autoregressive language models)
将序列 x 1 : L x_{1:L}x1:L 的联合分配 p ( x 1 : L)p(x_{1:L})p(x1:L) 常见的写法是使用概率的链式法则:
p( x 1:L )=p( x 1)p( x 2∣ x 1)p( x 3∣ x 1, x 2)⋯p( x L∣ x 1:L−1 )=pro d i=1Lp( x i∣ x 1:i−1 )。p(x_{1:L}) = p(x_1) p(x_2 \mid x_1) p(x_3 \mid x_1, x_2) \cdots p(x_L \mid x_{1:L-1}) = \ prod_{i=1}^L p(x_i \mid x_{1:i-1})。 p(x1:L)=p(x1)p(x2∣x1)p(x3∣x1,x2)⋯p(xL∣x1:L−1)=prodi=1Lp(xi∣x1:i−1)。
自回归语言模型的特点是它可以利用例如前馈神经网络等方法有效计算出每个条件概率分布 p ( xi∣ x 1 : i − 1)p(x_{i}∣x_{1:i−1})p(xi∣x1:i−1) 。在自回归语言模型 ppp 中生成整个序列 x 1 : L x_{1:L}x1:L,我们需要一次生成一个令牌(token),该令牌基于之前生成的令牌进行计算获得:
fori =1,…,L:xi ∼p ( x i∣ x 1:i−1 )1/T ,\begin{aligned} \text { for } i & =1, \ldots, L: \\ x_i & \sim p\left(x_i \mid x_{1: i-1}\right)^{1 / T}, \end{aligned} forixi=1,…,L:∼p(xi∣x1:i−1)1/T,
其中 T ≥ 0T≥0T≥0 是我们希望从语言模型中获得多少随机性的温度参数的一个控制:
T=0:确定性地在每个位置我选择最可能的代币 xi x_{i}xi
T=1:从纯语言模型“正常(正常)”采样
T=∞:然而,从整个表上的均匀分布中采样,如果我们仅仅将概率提高到 1 / 吨1/吨1/吨 的次方,概率分布可能不会加到1。我们可以通过重新标准化分布来解决这个问题。我们将标准化版本 pT( xi∣ x 1 : i − 1) ∝ p ( xi∣ x 1 : i − 1) 1 / T p_{T}(x_{i}∣x_{1:i−1})∝p(x_{i}∣x_{1:i−1})^{1/T}pT(xi∣x1:i−1)∝p(xi∣x1:i−1)1/T称为放大器条件概率分布。
小结
语言模型是序列 x 1 : L x_{1:L}x1:L的概率分布p。
观察上,一个好的语言模型应具有语言能力和世界知识。
自回归语言模型允许有效地生成给定提示 x 1 : i x_{1:i}x1:i的补全 x i + 1 : L x_{i+1:L}xi+1:L。
温度可以用来控制生成中的变异量。