打破视频的长期瓶颈:混合编码混合位置提高了

Li Haoran是一名从CMU的机器研究部门毕业的学生,​​他对上下文,一致性和生成主要模型的长期建模有一个研究方向。当今的视觉语言模型(VLM,视觉语言模型)在多模式活动(例如视觉和图像描述)中取得了出色的性能。但是,他们仍然没有执行长时间的视频理解和捕获等值的上下文活动。尽管旋转位置(绳索,宝石的旋转位置)被广泛用于改善大语言模型的整体通用语言的长度,但如何有效地扩展多模式域中的绳索仍然是空的问题。具体而言,一种常用的扩展方法是使用不同的绳索频率来结论不同位置信息(x,y,t)。但是,由于每个尺寸都带有不同的频率到绳索,因此存在不同的拨款技术。所以,到底是什么扩展多模式领域绳索的最佳方法?来自CMU和Siaohongshu的研究团队对此问题进行了深入的研究,他们首次提出了用于多模式绳索量表的理论框架,并指出,现有多模式绳索不足的原因之一是对长篇小说模型的所有负面影响。基于这篇评论,他们建议的混合编码位置(希望,嵌入位置的混合动力)极大地改善了VLM的整体一般一般情况,而Nakamit是长期视频和收购等任务中最佳性能。纸张标题:希望:模型中的一般通用长度的混合位置嵌入:https://arxiv.org/pdf/2505.2044代码链接:https://github.com/hrlics/hope/hope the Discovery-discovery-discovery-cuttine tocusignion-discovery-cutionding tocusignion-discovery-cutting the All Multimodal Luxel Lux Query,the All Meltimele the Martirele nirreleleal isele erele erele erelece。如果无法保证这个基本财产,那么应注意的上下文部分不会引起注意,这将影响将军的能力的长度。但是,通过现有的分配多模式绳频率的方法,在长篇小说情况下无法保证语义偏好特征。原因是在时间大小上的任何非零频率ginamit都会在长篇小说中产生过度的旋转,从而导致语义相似的查询,关键对不期望强度标记低于语义上无关的查询,关键对。基于语义偏好特征的多模式绳索审查框架(1)低时时间建模优于作者指定的高频建模时间语义偏好特征,可以简化以下形式:其中将频率分配到时间(t)和空间(x,y)到相对Query和Key之间的位置。考虑长的上下文方案,即基于SEM的评论框架反偏好特征可能首先显示出为什么在多模式绳索中,使用最大的时间维度频率(videorope)优于建模时间(M-Lubid)的最大频率维度。首先,语义偏好特征中的空间术语几乎对图像大小的勇敢几乎不满意。但是,由于较大的漫长背景。语义偏好特征中的时间术语很容易为阴性,因此破坏语义偏好属性:因此,易于获得,高频使用作为时间维度的模型更有可能破坏语义偏好属性,而不是使用低频,从而在长上下文中表现差。 (2)在长篇小说中,建模时间的低频仍然不可靠。尽管使用低频建模时间复杂来维持语义偏好特征,但这种财产仍将在漫长的背景下被破坏。在最极端的情况下,使用的频率建模时间大小的多模式绳是最小的绳频频率,即,语义偏好特征的时间术语可以降低到:但是,当上下文的长度足够大时,满足:存在,因此偏好的语义特征是不正确的。算法 - 零频率时间和多尺度计时研究的建模,在先前的研究中,注意力分析通常用于确定在多峰绳索中分配频率的方法。这项研究是理论上分析了各种频率分配策略对VLM首次对VLM一般能力的影响,它指出了维持所有频率的技术可防止以下多模式长度进行语义建模。基于这篇综述,该研究提出了编码的混合立场(希望,嵌入混合动力),旨在改善长篇小说中VLM的语义建模,从而进一步提高掩盖将军的能力的长度。特别是,在频率分配方法中,Hope提出了一种提供混合频率的方法,该方法结合了时间的不一致和空间维度的多模式位置,从而实现了在任何上下文中稳定维持偏好特征的影响。具体而言,与任何其他频率分配方法相比,对时间尺寸的零频率进行建模提供了更强的语义偏好保证:也就是说,在任何相对距离下,注意到引人注目的语义注意QK样QK对比语义独立于QK的QK大。 R的可能性更大。相应的矩阵相应如下:就编码的位置而言,某些过程在视觉令牌的编码时间(t)中采用了非尺度方法。考虑到视觉令牌信息的冗余和密度与文本令牌有所不同,是采用固定方法进行扩展的一种方式。相比之下,Hope考虑了在实际场景(例如纪录片和动作电影)中开发各种视频的不同速度,并且在视觉令牌(T)时采用了动态的扩展方法。在训练阶段,N The VLM将通过获得量表中的不同因素来学习不同尺度的时机的时机,从而在不同的视频速度下增强其稳定性。此外,在理解过程中,可以根据不同的应用情况来调整比例因素,从而提供AGPANG选择。实验本文将不同的技术与长期视频理解和长时间视频获取的许多基准进行了比较,从而确认依靠多模式长上下文的剩余性能,几乎在不同的模型维度,测试长度和测试任务中实现了最佳性能。