25个视频神同步,谷歌开源最新自监督算法

?

小凹从凹寺[p>

量子产品|公共号码QbitAI

对于AI,识别视频中发生的事情并不困难。训练它的方法是使用带有标记视频数据集的监督学习。

例如,我们使用“棒球”标签查看AI,然后它知道它是什么。但这还不够。我们希望它不仅能够知道它是什么样的运动,而且还希望能够预测球何时会被抛出。

但是,AI很难理解视频中每个帧的内容,因为您无法逐帧标记视频。使用有监督的学习是不切实际的。132.jpg因此,Google研究人员提出了一种用于时间周期一致性学习(TCC)的自我监督学习算法,该算法可以在连续过程中找到每个帧与特定行为之间的对应关系。

目前,谷歌已经开源TCC代码,希望允许用户在自己的程序中使用这种最新算法。

TCC原则

当一个人想要倒一杯饮料时,他会伸手去拿茶壶,瓶子或杯子。这是按特定顺序发生的事件。相同类型的视频将具有类似的时间顺序对应关系。

关键帧对于所有倾倒视频都是类似的,并且存在许多变化,例如视点,对象大小,容器形状或倾倒速度的差异。

TCC使用周期性一致性原则在同一动作视频中找到这种对应关系,并通过对齐视频来学习有用的视觉表示。140.gif首先,训练算法通过分别提取每个帧来产生视频帧的嵌入。然后选择用于TCC学习的两个视频,其中一个用作参考视频,并且其帧嵌入用于从第二视频的相同动作识别最近的帧。

随着训练过程的进行,渐变器在动作的上下文中产生对每个视频帧的语义理解,从而改善和减少周期性一致性的损失。

在下图中,Google显示了一个使用TCC的培训模型,该视频来自在宾夕法尼亚州行动数据集中练习深蹲的人的视频。162.gif图左侧的每个点对应于帧嵌入,并且点的位置随着当前视频帧的移动而改变。尽管在姿势,灯光,身体等方面存在许多差异,但TCC可以在不提供注释的情况下同步两个视频。

谷歌还将TCC与其他监督学习算法进行了比较。在识别高尔夫挥杆和网球发球的两个动作时,监督学习需要50个标记样本以达到与TCC相同的精度,而TCC具有高精度且仅有一个标记样本。195.jpg实际应用

TCC可以仅使用一个标记视频对其他类似视频的动作阶段进行分类,并且可以将多个剪辑视频与参考视频一次对齐以实现“同步”。

以下是TCC完全同步25个棒球投手视频的动作的示例:204.gif此外,TCC还可以将与一个视频中的任何帧相关联的元数据传送到另一个视频。例如,一个倒置视频中的声音被发送到另一个视频,因此声音和图像是同步的,这听起来并不矛盾。

博客地址:

源代码地址:

- 结束 - 阅读原文