ICML 2025
发布时间:2025-05-10 14:56
长文本功能对于语言模型(LM,语言模型)尤其重要。试想一下,如果LM可以处理无尽长度的文本,我们可以提前喂养所有LM参考,并且在处理人类问题时,LM可能会很强大。但是,LM通常仅在短窗口长度下进行训练,这可能会产生过度拟合,并且只知道指定范围内的位置关系,但不了解尚未学到的位置关系。为了减轻这个问题,目前最受欢迎的事情是引入旋转位置位置的箭头时间(口香糖的旋转位置,绳索)。由于时间 - 时间 - 时间会导致一定距离的数字重复,因此使用某些周期中学到的经验可以在更多的周期中成为健康的人。但是奇怪的是,使用绳索的LMS仍在直接在训练时间之外运行和其他算法(例如纱线)运行(例如)应使用来帮助他们外推。那么,绳索周期的延伸到底是什么,因此限制了LM外推的长度?因此,Tsinghua大学董事长Zhou Bowen教授,上海AI实验室的主任/科学家对此问题进行了研究。傅立叶审查工具用于解释使用绳索概括长文本的能力不足。通过绳索概括长文本能力不足的原因之一是绳索膨胀受到对光谱受伤影响的绳索的扩张。此外,本文提出的FOPE(FOPE)的傅立叶位置极大地改善了变压器整体文本的长期文本。纸张标题:傅里叶位置嵌入:改进概括性链接链接的定期扩展注释:https://避免浪费浪费浪费浪费浪费浪费浪费浪费浪费浪费浪费浪费浪费浪费浪费的浪费的作者浪费浪费浪费浪费浪费浪费浪费结束频谱损坏的the骨的结局被定义为对隐藏状态的每个尺寸的单个流量,并且该维度的opemantic语言信息会根据该长度的长度影响其他位置的语义。因此,绳索周期性扩展的开始是“隐藏状态的每个尺寸都有一个单频语义。”如果每个量表都具有不同频率的语义,但是该语义的定律仍由单个频率的长度估算,则绳索带来的周期性扩展将导致混乱,然后将无法实现长文本概括。不幸的是,在使用绳索的LMS中,此假设仅保留LM的第一层,但在所有后续层中都不保留。由于随后的层的每个尺寸都掺杂到主要频率以外的其他频率组件上,因此该现象可以称为频谱损坏。有三个麦n damage到频谱的资源:①线性函数; ②激活函数; ③时域截断。线性函数如果假设线性层的重量为,则大小的每个输出都由每个维度维度的线性组合组合:处理输出以获得输出,考虑到与每个维数相对应的频率,因此所有成分输入输入输入输入均已掺杂。根据高级数学的激活功能,给定两个频率,所获得的输出将具有许多频率组件,这些频率将是输入频率的绘图组合:函数和任何独立于时间独立的非线函数。该结论只能通过扩展泰勒来证明,或者在频率更多的情况下通常是任意的。可以看出,通过线性层后,每个尺寸都用许多频率掺杂。激活激活后,这种掺杂变得更加激烈。截断of给出的单个频率函数在长度为n上截断的时间可以通过傅立叶变换获得(有关详细信息,请参见文章的末端)此函数的频谱是:它大于截止n的长度,信号到噪声的比例将非常低,这将完全阻止频率的研究。顺便说一句,绳索确实使用了大量的低频和长期组件,因此这个问题尤其严重。强度扩散到周围频率,降低了信噪比。如果操作周期无数,但整数为1,则单个运行时间在其他位置为零值。可以看出,域截断的时间将导致主频率除以截断的长度和时间长度和圆形。算法 - 频域的稳定性是调节长文本的关键。在以前的研究中,人们普遍认为D仅关注会影响外推的长度。但是,从上面的检查中可以看出,整个模型的线性层,激活和时间 - 到期的激活也将对推断的长度产生影响,并且会产生有害的效果(即对上述光谱的损害)。为了通过文本的长文本化来改善频谱破坏的不利影响,本文建议将宝石进入傅立叶位置,以提高域频率的稳定性和模型的合理性表达,从而改善了文本的长文本化。 FOPE的主要思想是“如果您不打败它,请加入。”考虑到线性层和激活功能可以带来更强的识别能力,并且无法通过硬件限制更改域截断的时间,因此FOPE仅对每一层都保持光谱损害,而是建议对频谱编码更强的位置。改进Sta能力主要来自两个方面:①由于每个尺寸是不可避免的混合物 - 与其他频率,我们只能在傅立叶的Asrye中对每个尺寸进行建模。尽管这种建模并不能阻止频谱破坏,但FOPE可以解码每个大小(使用Trigonome正交函数)的更多频率信息; ②由于极低的频率成分的期限太长,因此无法学习这些频率成分的周期性特征,然后将它们裁剪成频率为0的DC组件。考虑到DC组件的良好属性(可以将其视为无限的短期和无限期的均值延长的频率),但也可以使新的频率延伸到周期性的情况下,不仅允许频繁的频率,因此,该频率是频繁的,即频繁的频率,以下信息。 词汇;总而言之,可以编写FOPE公式:其他实验,文章比较各种混乱方法,与Haystack一起找到针的精度以及许多基准测试流中的任务。该实验发现,FOPE在这些活动中具有扎实的性能,这不仅仅是与大多数绳索使用绳索的模型。潜在的影响纸上审查和算法获得的算法的结论可能具有更广泛的潜在价值,并有可能应用于更多的领域和任务:①在AI领域:长时代视频,KV-CACHS压缩,多模型合作伙伴等; ②在AI字段之外:语义通信,光学计算和大脑计算机界面。