Mamba 模型在视频理解任务中展现出强劲潜力打败Transformer

原标题：Mamba 模型在视频理解任务中展现出强劲潜力打败Transformer

导读：

原来在敦煌壁画中常见的反弹琵琶和飞天还蕴藏着学习语文的奥秘北大才女乐乐老师从敦煌壁画中提炼出写作密码并带领学生将这种写作思维运用到实际生活中超级语文课第五期今天山东卫视播出一起...

原来在敦煌壁画中常见的“反弹琵琶”和“飞天”还蕴藏着学习语文的奥秘！北大才女乐乐老师从敦煌壁画中提炼出写作密码，并带领学生将这种写作思维运用到实际生活中。《超级语文课》第五期今天20:30山东卫视播出，一起走进沙漠中的瑰宝——敦煌文化！...

划重点:

⭐ 模型在视频专用和视频 - 语言任务中展现出强劲的潜力，实现了效率与性能的理想平衡

⭐ Mamba 模型的 Video Mamba Suite 套件12个视频理解任务中得到全面评估，显示出潜在的优势和多样化角色

⭐ 通过在视频时间任务、多模交互任务等领域的表现，Mamba 模型展现出与 Transformer 不同的优越性能和效率

4月30日消息:近日，来自南京大学、上海人工智能实验室、复旦大学、浙江大学的研究队发布了一项关于视频理解的开创性工作。该研究全面审视了 Mamba 模型在建模中的多重角色，提出了针对14种模型 / 模块的 Video Mamba Suite，并对其在12项视频理解任务中进行了深估。

研究结果显示，Mamba 模型在视频专用和视频 - 语言任务中均展出强劲的潜力，实了效率与性能的理想平衡，为视频理解领域带来了革命性变革。

过去，视频理解技术一直是计算机视觉领域的关键驱动力之一。从循神经网络、三维卷积神经网络到最近的 Transformer 模型，每一次技术的飞跃都极大地拓了对视频数据的理解和应用。然而，传统架构在处理长视频序列的能力上渐暴露出局限性，而状态空间模型架构 Mamba 以其线性计算复杂度的优势，为视频理解领域带来新的可能性。Mamba 模型的 Video Mamba Suite 套件被用于评估12项视频理解任务，结果表明 Mamba 模型在视频时间任务、多模态交互任务等领域展现出了强大的潜力和性能。

该研究 Mamba 模型在视频理解领域的多种角色进行了深入研究，包括时序模型、多模态交、时空模型等。研究团队展示了 Mamba 模型在视频时间任务上的性能优越性相较于现有 Transformer 模型展现出了更加卓越的性能。此外，Mamba 模型在多模态交互任务中也呈现出了强大的表现。综合实验结果显示，Mamba 模型在视频理解领域具潜在的优势和多样化的角色，为未来视频理解研究提供了有力的推动和参考价值。

论文链接:https://arxiv.org/abs/2403.09626