比分割大模型SAM更惊人,可以跟踪清明上
月初Meta发布了"分割一切"AI模型(SAM),该模型可以为任何图像或视频中的任何物体生成mask,即使是没有见过的物体和图像类型。这项技术被认为是计算机视觉领域的里程碑之一,并在社交媒体上引起了热议。
虽然SAM具有巨大的潜力,但目前其应用主要集中在图像领域,在视频领域的应用仍然未被深入探索。对视频目标的跟踪/分割仍然面临着巨大挑战,包括现有跟踪模型的局限性,如场景切换对精准定位的影响以及需要准确的模版初始化等问题。
针对这些问题,南方科技大学某个团队提出了基于SAM二次创作的"跟踪一切"(TAM)交互工具。TAM可适用于视频领域的任意目标跟踪任务,并通过简单鼠标点击实现对任意视频任意目标的像素级跟踪。
相比现有跟踪模型,TAM解决了跟踪模型的局限性,同时保持了跟踪的交互性、灵活性和可用性。因此,TAM的推出被视为进一步完善和发展计算机视觉领域的重要一步。
Track-Anything是一个灵活交互的视频物体跟踪和分割工具。它基于SegmentAnything进行开发,可以通过用户点击指定任何需要跟踪和分割的内容。在跟踪过程中,用户可以自由更改要跟踪的对象或者纠正感兴趣区域中的任何不明确部分。这些特点使Track-Anything适用于:
带有镜头切换的视频物体跟踪和分割
视频物体跟踪和分割的可视化开发和数据注释
面向对象的下游视频任务,如视频修补和编辑
Track-Anything可以跟踪视频上移动的物体,比如会动的清明上河图。《清明上河图》作为一幅历史名画,人物众多、形态各异,还包含各种动作等元素,想要从中跟踪出目标难度较大。TrackAnything在该场景下很好地跟踪了物体:
以及球赛现场捕捉球员,球赛现场,运动员动作激烈,奔跑跳跃很难捕捉,但是TrackAnything很好地进行了追踪。
接下来我们实际操作一下看看它到底怎么样首先任意选择一个视频或者自己上传一段视频,它就会自动分割视频中的物体。
技术原理:
TrackAnything通过将使用者作为SAM和VOS模型的中介,实现交互式组合,使其具备强大的视频目标跟踪能力。
该工具提供用户友好的操作界面,只需要简单的点击操作,即可任意地跟踪一个或多个用户感兴趣的目标区域,并根据用户需求灵活调整目标对象。该工具还自带纠错和视频编辑功能,技术流程如下:
1.基于SAM,用户通过选取正负样本点确定在视频中某一帧的空间区域内的目标对象。
2.使用该区域初始化跟踪模型,通过建立每个视频帧与模板区域之间的密集关联,将用户选择信息向整个视频传递以实现目标跟踪。
3.用户可以随时暂停跟踪过程,通过正负样本选取方式实现对其他目标的追踪或修正当前目标的追踪结果。
4.基于跟踪结果,用户可以使用目标擦除或视频修复功能,对特定区域进行编辑。
转载请注明:http://www.abuoumao.com/hyfw/4824.html