AB Data

Posted: **Sat Dec 28, 2024 4:11 am**

如图所示梯度下降能够减少ℓ但无法将其降至零。与其他层和自注意力机制一样研究人员将输入序列,…,映射到输出序列,…,的算法可以被编程到序列建模层的前向传播中使用上述的隐藏状态、更新规则和输出规则。即使在测试时新层仍然为每个输入序列训练一个不同的权重序列,…,。因此研究人员将其称之为测试-时间训练层。 . 使用层训练神经网络层的前向传播也有相应的后向传播。层与层、自注意力机制有着相同的接口因此可以在任何更大的神经网络架构中替换它们。值得一提的是训练带有层神经网络的方式与训练任何其他模型相同。可以使用相同的数据、方法和目标（如下一个k预测）来优化网络其余部分的参数。

在此研究人员将训练乌干达电话号码表更大的神经网络称为外循环（）而在每个层内训练称为内循环（）。它们之间梯度计算的区别是内循环针对的是（即模型的参数）外循环针对的是网络其余部分的参数θ。 . 学习自监督任务可以说最重要的部分是自监督任务因为它决定了从测试序列中学习的特征类型。在这个任务的设计上研究人员采取了更加端到端的方法——直接优化自监督任务以实现下一个k预测的最终目标。具体来说研究者将自监督任务的学习作为外循环的一部分。从如上公式中的简单重构任务开始添加了一些外循环参数来让这个任务可学习。最新的自监督损失是：在内循环中只有被优化因此作为ℓ的参数写出；θ们是这个损失函数的“超参数”。

在外循环中θK,θ,θ与θ一起被优化而实现为层的参数类似于自注意力中的K参数。总的来说θK,θ,θ所有可能的选择构成了一系列多视图重构任务外循环可以被理解为从这个任务组中选择一个具体任务。为了简单起见研究人员在这里将所有视图设计为线性投影。 . - 并行化目前开发的原生层在浮点运算（）次数方面已经非常高效。然而其更新规则：无法实现并行化因为在两个位置上依赖于-：负号和▽。对此研究人员提出了-梯度下降用表示批大小。研究中使用 = ▽’;其中’ = – ,其中代表着前一个-的最后一个时间步（或者第一个- ）因此可以一次并行个梯度计算。

AB Data

仅仅是一个隐藏状态不是参数。

仅仅是一个隐藏状态不是参数。