摘要 递归神经网络(RNN)由于其表达能力和低计算要求而非常适合解决资源受限系统中的序列任务。然而,仍然需要弥合 RNN 在效率和性能方面的能力与实际应用需求之间的差距。将每个时间步的所有神经元的激活传播到每个连接的神经元所产生的内存和计算要求,以及激活的顺序依赖性,导致训练和使用 RNN 的效率低下。我们提出了一种受生物神经元动力学启发的解决方案,使 RNN 单元之间的通信稀疏且离散。这使得通过时间反向传播 (BPTT) 的后向传递在计算上也变得稀疏且高效。我们的模型基于门控循环单元(GRU),并将其扩展为发出离散事件以由阈值触发的通信的单元,以便在没有事件的情况下不会将信息传递给其他单元。我们从理论上证明,单元之间的通信以及前向和后向传递所需的计算随着网络中事件的数量而变化。我们的模型在不影响任务性能的情况下实现了效率,与现实世界任务(包括语言建模)中最先进的循环网络模型相比,展示了具有竞争力的性能。动态活动稀疏机制也使我们的模型非常适合新型节能神经形态硬件。

代码可在 https://github.com/KhaleelKhan/EvNN/ 获取。

1 简介

GPT-3(Brown 等人,2020)和 DALL-E(Ramesh 等人,2021)等大型模型已经证明,将深度学习模型扩展到数十亿个参数不仅可以提高其性能,还可以带来全新的结果概括的形式。但对于资源有限的环境,由于训练和推理过程中的计算和内存要求,变压器是不切实际的。循环神经网络(RNN)可能在这种资源匮乏的环境中提供可行的替代方案,但需要进一步的算法和计算优化。虽然尚不清楚扩大循环神经网络是否可以导致类似形式的泛化,但扩大规模的限制阻碍了对这种可能性的研究。每个时间步的计算对前一个时间步的输出的依赖阻碍了模型计算的轻松并行化。

此外,在每个时间步中传播所有单元的激活在计算上效率低下,并且在使用时间反向传播(BPTT)进行训练时会导致较高的内存需求。

在实现非凡任务性能的同时,生物大脑的循环架构非常节能(Mead,2020)。大脑达到如此高效率的策略之一是活动稀疏。在大脑中,(异步)基于事件和活动稀疏的通信是由特定物理和生物基质的属性产生的。

大脑已经建成。生物学上真实的尖峰神经网络和神经形态硬件旨在利用这些原理来构建节能的软件和硬件模型(Roy 等人,2019;Schuman 等人,2017)。然而,尽管近年来取得了进展,但与基于 LSTM 和 GRU 的循环架构相比,它们的任务性能对于实际任务来说仍然相对有限。

在这项工作中,我们提出了一种受生物神经元模型启发的活动稀疏机制,以减少 RNN 在每个时间步所需的计算量。我们的方法向循环单元添加了一种机制,以发出离散事件以进行由阈值触发的通信,以便在没有事件的情况下不会向其他单元传送任何信息。通过基于事件的通信,模型中的单元可以决定何时向其他单元发送更新,然后触发接收单元的更新。

当谨慎发送事件时,这会导致活动稀疏,大多数单元在大多数时间不会向其他单元发送更新,从而在训练和推理过程中节省大量计算量。

我们使用一种新颖的方法将网络的梯度更新制定为稀疏的,将计算节省的好处扩展到训练时间。我们从理论上证明,在连续时间限制内,计算权重更新的时间复杂度与网络中的事件数量成正比。我们使用门控循环单元 (GRU)(Cho 等人,2014)作为案例研究来演示这些属性,并将我们的模型称为基于事件的门控循环单元 (EGRU)。然而,我们注意到,我们的动态活动稀疏机制可以应用于任何 RNN 架构。

总之,本文的主要贡献如下:

1.我们引入了一种具有事件生成机制的 GRU 变体,称为 EGRU。

2.我们从理论上证明,在连续时间限制内,EGRU 中的前向传递计算和参数更新计算都与事件(活动单元)的数量成比例。

3. 我们证明 EGRU 在现实世界的机器学习基准上表现出与最先进的循环网络架构相媲美的任务性能。

4. 我们凭经验表明,EGRU 在推理(前向传递)和学习(后向传递)过程中都表现出高水平的活动稀疏性。

我们在这里注意到,参数稀疏性训练或改进长期依赖性处理的方法都与我们的方法正交,并且可以与我们的方法相结合(我们计划在未来的工作中这样做)。在本文中,我们的重点仅在于使用活动稀疏性来提高 RNN(特别是 GRU)的效率。与 GRU 相比,我们期望我们的方法更高效,但在处理远程依赖方面并没有更好。

后向传递的稀疏性克服了使用大型循环模型的主要障碍之一,即有足够的计算资源来训练它们。我们演示了 PyTorch 中实现的模型的任务性能和活动稀疏性,但当使用适当的软件范例实现时,这种公式还允许模型在基于 CPU 的节点上高效运行。此外,在像 Davies 等人这样的新型神经形态硬件上实现(2018); Höppner 等人 (2017) 面向基于事件的计算,可以使模型更加节能(Ostrau 等人,2022)。

2 相关工作

RNN 中的活动稀疏性先前已被提出(Neil 等人,2017;2016;Hunter 等人,2022),但仅关注在推理过程中实现它。条件计算是 Fedus 等人 (2022) 中使用的一种活动稀疏形式,用于将前馈变压器架构扩展到 1 万亿个参数。最近提出了一种专门针对图神经网络的基于异步事件的架构(Schaefer 等人,2022)。 QRNN(Bradbury 等人,2017)、SRU(Lei 等人,2018)和 IndRNN(Li 等人,2018)的目标是在不直接使用活动稀疏性的情况下增加循环网络中的并行性。与 Fedus 等人(2022)使用单独的网络来决定哪些子网络应该处于活动状态(Shazeer 等人,2017)不同,我们的架构使用单元本地决策过程来实现动态活动稀疏性。与 Neil 等人 (2017) 相比,我们的模型的计算成本较低,并且可以实现事件之间的中间更新的并行计算,同时其输出中的活动也稀疏。

最近针对前馈网络提出了基于稀疏通信的可扩展性模型(Yan et al, 2022),使用局部敏感性哈希来动态选择下游单元用于通信激活。这是参数稀疏性的动态形式(Hoefler et al, 2021),它与我们的活动稀疏性方法正交且互补,并且可以组合以获得额外的增益。在 IRNN 等循环网络中使用修正线性单元 (ReLU)(Le et al, 2015)密切相关,并且可能导致稀疏激活。但目前的文献缺乏从效率的角度对此类模型进行分析。此外,使用 ReLU 激活需要仔细的权重初始化,与其他 RNN 模型相比,它在任务性能方面似乎落后(Li et al, 2018)。

生物学上真实的尖峰网络(Maass,1997)通常使用基于事件的更新来实现,并且已扩展到巨大的规模(Jordan 等人,2018),尽管没有任何与任务相关的性能评估。具有循环尖峰网络的深度学习模型(Bellec 等人,2018 年;Salaj 等人,2021 年)主要侧重于对生物真实记忆和学习机制进行建模。

此外,尖峰神经网络中的单元实现基于生物学的动力学,并且仅通过单一事件进行通信,而 EGRU 中的单元向其他单元发送实值信号,并且具有不同的动力学。最近提出了一种稀疏学习规则(Bellec 等人,2020),它是随时间反向传播的局部近似,但不是基于事件的。

连续时间 EGRU 基于事件的学习规则的理论分析受到 Wunderlich 和 Pehle (2021) 中尖峰神经元分析的启发和推广。正如在那篇论文中一样,我们对常微分方程 (ODE) 使用伴随方法 Pontryagin 等人 (1962); Chen 等人(2018)结合了混合离散/连续系统的敏感性分析(Galán 等人,1999;Chen 等人,2020)。使用代理梯度通过非微分阈值函数进行反向传播最初是在 Esser 等人 (2016) 中针对前馈尖峰网络提出的,并在 Bellec 等人 (2018) 中进一步发展;曾克和甘古利 (2018)。

Perez-Nieves 和 Goodman (2021) 最近描述了在离散时间前馈尖峰神经网络中使用适当的代理梯度时,BPTT 学习的稀疏性。

Beer (1995) 提出了 S 形 RNN 的连续时间版本,De Brouwer 等人 (2019) 提出了 GRU。后者在收到输入事件时使用贝叶斯更新来更新网络状态,但网络本身并不是基于事件的。正如 Neil 等人 (2016) 中所述; Lechner 和 Hasani (2020) 的研究重点是对不规则间隔的输入数据进行建模,而不是基于事件的网络模拟或活动稀疏推理和训练。 Chang 等人(2019)最近还提出了一种连续时间循环网络,可以实现更稳定的学习,无需基于事件的机制。 Jordan 等人(2021)在连续时间内制定了 GRU,用于分析其自主动态。

3 基于事件的 GRU 3.1 时间稀疏 GRU 公式 我们的模型基于 GRU(Cho 等人,2014 年),为方便起见,如图 1A 所示。它由用于更新 (u) 和重置 (r) 的内部门控变量组成,决定内部状态 y 的行为。状态变量z决定外部输入x和内部状态之间的相互作用。 GRU 单元层在时间步 t 的动态由一组向量值更新方程给出:

其中Wu/r/z、bu/r/z表示网络权重和偏差,表示逐元素(Hadamard)乘积,σ(·)是向量化的sigmoid函数。符号表示向量串联。函数 g(·) 是元素级非线性,通常是双曲正切。

我们通过使用整流器(阈值函数)增强 GRU 来引入事件生成机制。参见图 1B 的说明。通过这种添加,仅当内部动态达到阈值 ϑi 时,内部状态变量 y hti i 才非零,并且随后立即清除,从而使 y hti i 基于事件。形式上,我们在模型中添加一个辅助内部状态 c hti i ,并将 y hti = (y hti 1 ,y hti 2 ,…) 替换为基于事件的形式:

图 1:EGRU 示意图。 A:原始 GRU 模型的单个单元改编自 Cho 等人

(2014)。 B:具有事件生成机制的EGRU单元。 C:Heaviside 函数和代理梯度。

D:两个 EGRU 单元(i 和 j)的正向状态动态。 E:两个 EGRU 单元(i 和 j)的活动稀疏后向动态。请注意,我们只需反向传播每个时间步中处于活动状态或状态接近阈值的单元。

其中 H(·) 是 Heaviside 阶跃函数,ϑi >0 是可训练的阈值参数。 H(·) 是这里的阈值门控机制,当 cti 穿过阈值 ϑi 时生成单个非零输出。也就是说,在所有时间步 t 中,cti< ϑi ,∀i,我们有 y t = 0。 (2) 使得同一单元不太可能发射多个连续事件,因此有利于整体稀疏活动。通过这种公式,每个单元仅在从外部或从网络中的另一个单元接收到输入时才需要更新。这是因为,如果第 i 个单元的 x ti= y (t-1)i= 0,则 u ti 、 r ti、 zti 本质上是常数,因此 y ti 的更新可以为对下一个传入事件进行有效追溯计算。

3.2 稀疏近似BPTT 阈值激活函数H(c)决定是否发出方程中的事件。 (2) 在阈值 ϑi 处不可微。我们在该点定义一个替代梯度来计算反向传播梯度。代理梯度被定义为分段线性函数,对于介于 ϑi+ε 和 ϑi−ε 之间的状态 ci 值,该函数不为零,如图 1C 中的插图所示。由于每当单元的内部状态低于 ϑi−ε 时,代理梯度就为零,因此所有此类单元的反向传播梯度也为 0,从而使后向传递变得稀疏(参见图 1D、E 的说明)。请注意,内部单元状态高于 ϑi+ε 的情况往往不会经常发生,因为在这种情况下,单元将发出事件,并且内部状态将在下一个模拟步骤中被清除。

3.3 稀疏性导致的计算和内存减少 对于 EGRU 的前向传递,α 的活动稀疏性(即每个模拟步骤的 α 事件的平均值)导致乘法累加运算(MAC)减少 α 因子。我们专注于 MAC 操作,因为它们是迄今为止这些模型中最昂贵的计算操作。 MAC 也与我们对资源受限系统的关注相关,这些系统更可能基于 CPU 而不是 GPU。如果以最佳方式实现,与标准 GRU 相比,80% 的活动稀疏度所需的 MAC 操作将减少 80%。与外部输入相关的计算仅在输入时间执行,因此在时间和空间上与输入一样稀疏。在向后传递过程中,基于向后传递稀疏性 β(通常小于 α),观察到类似的计算减少因素。这是因为,当内部状态值不在阈值 ϑ 的 ±ε 范围内时,将跳过向后传递,如第 3.2 节所述。由于我们的后向传递也是稀疏的,我们只需要存储激活的 β 部分以供以后使用,因此也减少了内存使用量。

在我们所有的实验中,我们报告通过模拟计算的活动稀疏值。

4 EGRU 的理论分析

为了进一步分析 EGRU 的动力学,我们开发了该模型的连续时间版本。这使我们能够将模型参数作为动态系统来研究。

4.1 连续时间方程的限制离散时间模型的 (1) 只考虑整数时间点的 GRU 动态,t0 = 0, t1 = 1, t2 = 2,…但是,通常可以表达任意时间的 GRU 动态步骤 Δt,其中 tn = tn−1 + Δt。离散时间 GRU 动力学可以直观地解释为常微分方程 (ODE) 的欧拉离散化(Jordan 等人,2021)(参见补充材料),我们进一步扩展它以制定 EGRU。这相当于采用连续时间限制 Δt→0 来获得内部状态 c(t) 的动态。在生成的动态系统方程中,输入仅在事件时间引起状态变化,而事件之间的动态可以通过 ODE 表示。为了得出连续时间公式,我们引入神经元激活 au(t)、ar(t) 和 az(t),其中

其中 τs 和 τm 是时间常数,c(t)、u(t) 和 z(t) 是 c hti 、 u hti 和 z hti 的连续时间类似物,a˙ X 表示 aX 的时间导数。 t= 0 时的边界条件定义为 aX(0)=c(0)=0。方程中的函数F。 (4) 确定 EGRU 在事件时间之间的行为,即当 x(t) =0 和 y(t) =0 时。非零外部输入和内部事件导致 c(t) 和 aX(t) 跳跃。为了理论上的易处理性,我们在方程 1 中的 ODE 中添加了一个衰减项 −aX。 (3),在离散时间模型中用小时间常数或零时间常数来实现。

为了描述这些动态,我们引入内部事件集合 e,ek ∈ e,ek = (sk,nk),其中 sk 是连续(实值)事件时间,nk 表示哪个单元被激活。事件生成机制的制定上面介绍的(2)可以表示为每当cnk(t)到达ϑ时触发的事件ek。更确切地说:

其中上标 .

– (.

+) 表示事件发生之前(之后)的数量。连续时间内的清除机制表示为在事件时间 s 之后立即将 ci(s) 重置为零。这是因为在连续时间内,内部变量 ci(s) 达到阈值 (ci(s)=ϑi) 的确切时间 s 可以以非常高的精度确定。因此,ci(s)的值和yi(s)的瞬时幅值在时间点s同时逼近ϑi,使得式(1)中的-yi项为: (2) 在事件触发后立即有效地将 ci(s) 重置为零。

在此事件发生时,连接到单元 nk 的所有单元 m6=nk 的激活经历其状态值的跳跃。 aX,m 的跳跃由下式给出: a + X,m(sk)=a − X,m(sk)+wX,mnk rX,nk c − nk (sk), (6) 其中 X ∈ {u, r, z}, rX = 1,当 X ∈ {u,z} 时,rX =r,当 X = {r} 时。这相当于 yi =c − nk 是每个网络单元的输出。外部输入到达时会经历类似的跳跃,而是使用适当的输入权重(具体信息请参阅补充)。该更新方案的基于事件的异步性质可以在以下命题中形式化。

命题 1. 令 u(t) 和 c(t) 的动态由 (3) 和 (4) 给出。内部状态 c(t) 的未扰动动态(在没有输入的情况下)是解耦的(c(t) 的变量不会相互影响)。

证明。证明直接来自定义(4)。虽然单个单元的变量相互作用(例如

ui(t) 和 ci(t)),在没有输入的情况下,所有单元的变量动态相互解耦。

4.2 使用伴随方法的基于事件的梯度下降 为了表明 EGRU 梯度更新是基于事件的,我们将持续时间 T 内的损失定义为 R T 0 `c(c(t),t)dt,其中 `c(c( t),t) 是 t 时刻的瞬时损耗。 T 是特定于任务的持续时间,在此期间将训练样本作为事件提供给网络,并读出输出。一般来说,`c(c(t),t) 可以任意依赖于 c(t),但是在实践中,我们选择瞬时损耗仅在特定输出时间依赖于 EGRU 状态,以遵守我们完全基于事件的算法。

损失通过包含拉格朗日乘数 λc,λaX 的项来增强,以添加定义方程 1 中系统动力学的约束。 (3)、(4)。总损失 L 为

拉格朗日乘子在本文中被称为伴随变量,并且可以自由选择,因为 τmc˙(t)−F(t,au,ar,ax,c) 和 τsa˙ X+aX 在构造上都为零。

我们可以为伴随变量选择事件的动态和跳跃,以便它们可用于计算梯度 dL dwji 。考虑事件时间的不连续跳跃来计算偏导数取决于隐函数定理的局部应用,这要求事件时间是参数的可微函数。完整的推导请参见补充。

伴随变量的时间动态由以下方程给出,边界条件为 λc(T)=λaX (T)= 0:

对于 X ∈ {u,r,z},MT 表示矩阵 M 的转置。补充中描述了伴随事件的更新。实际上,λ 的积分是在时间上向后进行的。与命题 1 类似,我们发现前向动力学具有以下性质。

命题 2. 令 λc(t) 和 λaX (t) 由伴随动力学方程给出。 (8)。令 λc 的初始条件由 λc(sk) 给出。然后,sk−1 < t<sk 的微分方程组 λc(t) 是解耦的(λc 的变量彼此不相互作用)。

证明。证明由(8) 得出。由于 aX 和 c 的动力学在事件之间是解耦的(单位方面),如命题 1 所示,因此 λc 的动力学也是解耦的。项 (∂F /∂aX) T λc 简化为没有跨单元相互作用的向量,如补充中所示。

对于 X ∈u,r,z 的不同参数矩阵 WX 的循环权重 wX,ij,我们可以仅使用在事件 ek 计算的数量来编写权重更新,即 ΔwX,ij = ∂ ∂wX,ij L(W) 。我们发现权重更新具有以下属性。

定理 1. 令 λc(t) 和 λaX (t) 由伴随动力学方程给出。 (8) 使得命题1和2成立。设 µ − X(sk) = r − X (sk) c −(sk)。那么权重更新 ΔwX,ij = ∂ ∂wX,ij L(W) 彼此独立,并完全由 µ − X(sk) 和 λ − aX (sk) 确定,即在事件时间评估的 EGRU 状态集sk,即 ΔwX,ij = −τs PK k=1μ − X(sk)⊗λ + aX (sk)。

证明草图。这里, ⊗ 是外积,c − 指事件 ek 之前的 c(t) 值,r − X = 0 对于 X ∈ {u,z} 且等于事件之前 r(t) 的值ek 对于 X = {r},λ + aX 指的是事件 ek 之后伴随变量 λaX (t) 的值,并且 K =|e|是事件总数。因此,r(t),c(t)的值只需要在事件时间存储,并且λaX(t)只需要在这些时间计算,使得梯度更新基于事件。有关证明的更多详细信息以及输入权重和偏差的更新规则,请参阅补充。最后,我们找到了学习算法的算法复杂度的以下推论。

推论 1. 给定 µ − X(sk) 和 λ − aX (sk),参数更新计算 ΔwX,ij 的时间复杂度随 K(事件数量)线性增长。

证明。证明来自定理 1。外积 µ − X(sk)⊗λ + aX (sk) 所需的计算取决于网络大小,并且与事件总数 K 无关。

因此总和随 K 线性增长。

5 结果 5.1 手势预测

图 2:A:示例类(右手挥手)的 DVS 手势分类数据图示。

开启(红色)和关闭(蓝色)事件随着时间的推移而显示,并合并到摘要图像中以供说明(不呈现给网络)。 B:输入和 EGRU 单元的稀疏活动(每层显示 30 个单元的随机子集)。

我们评估了我们的手势预测模型,这是 RNN 的现实世界中流行的基准,并广泛应用于神经形态研究。 DVS128 手势数据集(Amir 等人,2017)提供基于稀疏事件的输入,使我们能够展示模型的性能和计算效率。该数据集包含使用 DVS128 事件摄像机记录的 29 名受试者的 11 个手势(Lichtsteiner 等人,2008 年)。每个事件对照明的相对变化进行编码,并以 128×128 像素传感器上的 X/Y 位置的时空坐标和时间戳的形式给出。

我们通过将原始事件时间在 25 毫秒的时间窗口中进行分箱,将它们组合成“帧”,然后使用 maxpool 层将它们缩小到 32×32 像素。

表 1:DVS 手势识别任务的模型比较。 MAC 操作的有效数量如第 3.3 节所述。 DA 代表数据增强。

手势预测的模型性能比较如表 1 所示。第 3.3 节中描述的后向稀疏性是在第 100 轮时计算的。在该任务上,EGRU 始终以小幅优势优于相同大小的 GRU 网络。正如 Innocenti 等人 (2021) 之前所做的那样,通过应用随机裁剪、平移和旋转来添加数据增强 (DA),将纯 RNN EGRU 架构的性能提高到 97% 以上,接近最先进的水平架构无需昂贵的 AlexNet 预处理。我们使用改编自 ALexNet 的 CNN 特征提取头、应用于隐藏到隐藏权重的 DropConnect(Wan 等人,2013 年)和 Zoneout(Krueger 等人,2017 年)改进了这一结果,远远优于 Innocenti 等人(2021 年)。更少的参数和 MAC 操作的数量级减少。进一步的实验细节、消融研究和不同运行的统计数据可以分别在补充部分 E.1、E.1.1 和表 S1、S4 中找到。

5.2 顺序

MNIST 我们在顺序 MNIST 和置换顺序 MNIST 任务上评估了 EGRU(Le et al, 2015),这是广泛使用的 RNN 基准。在顺序 MNIST 任务中,MNIST 手写数字一次一个像素作为输入,在输入序列的末尾,网络输出用于对数字进行分类。对于排列顺序 MNIST 任务,在以相同方式将像素作为输入给出之前,使用固定排列对像素进行排列。我们训练了一个具有 590 个单元的 1 层 EGRU(与 512 个单元 LSTM 的参数数量相匹配)。在这项任务中,我们没有使用任何正则化来增加稀疏性,这样我们就可以测试 EGRU 中自然产生的稀疏性(无论是前向还是后向)有多少。

在表 2 中,我们报告了离散时间 EGRU 以及其他最先进架构的结果。

EGRU 实现了与以前的架构相当的任务性能,同时使用的操作少得多(与 GRU 相比,有效 MAC 操作减少了 5 倍以上)。更多实验细节和不同运行的统计数据可以分别在补充部分 E.2 和表 S5 中找到。

表 2:顺序 MNIST (sMNIST) 和排列顺序 MNIST (psMNIST) 任务的模型比较。 Top-1 测试分数,以百分比准确度给出,越高越好。 coRNN 是 Rusch 和 Mishra (2021) 中描述的模型。

5.3 语言建模 我们基于 PennTreebank(Marcus 等人,1993)数据集和 WikiText-2 数据集(Merity 等人,2017)评估了我们的语言建模任务模型。在这项工作中,我们只关注 RNN 模型,没有考虑神经缓存模型(Grave 等人,2017)、Softmaxes 混合(Yang 等人,2018)或动态评估(Krause 等人,2018)等技术。 ),所有这些都可以在我们的模型之上使用。 Merity 等人 (2018) 为基于门的 RNN 架构建立了强大的基线。同样,我们的模型由三个堆叠的 EGRU 单元组成,没有跳跃连接。 DropConnect(Wan 等人,2013)应用于隐藏到隐藏的权重。最终 Softmax 层的权重与嵌入层相关(Inan 等人,2017 年;Press 和 Wolf,2017 年)。所有实验细节和不同运行的统计数据可以分别在补充部分 E.3.1 和表 S6 中找到。

表 3 中的结果表明 EGRU 取得了与 AWDLSTM 相媲美的性能(Merity 等人,2018)。同时,EGRU 固有地表现出活性稀疏性,减少了所需的计算操作(分析计算)。对于资源受限系统来说,EGRU 的另一个理想特性是通过修剪最不活跃单元来进行模型压缩的自然方法。我们在补充材料中使用语言模型作为案例研究讨论了这种修剪技术的实验结果(参见第 E.4 节)。

6 讨论 这项工作介绍了 EGRU,这是一种新形式的循环神经网络,它使用受生物学启发的活动稀疏机制。 EGRU 通过使用阈值的事件生成机制扩展了 GRU,并使用代理梯度通过 BPTT 训练模型,这导致计算上稀疏的前向和后向传递。我们从理论上证明,在连续时间限制内,模型的推理和训练规模与生成的事件数量和神经元数量成正比,而不是像传统 RNN 模型那样与参数数量成正比。