您当前的位置:首页 >> 潮流饰家

CVPR 2022 | 16万视频对、28万对片段,蚂蚁开源视频侵权验证超大数据集

2023-03-10 12:16:22

度正弦使得原告的录像基本不具备趣味性。 录像类型必需覆盖少用的录像各种类型,比如电影、电视剧、CG、体育等不同桥段。 录像时长分布前提广泛,不要受限于只是窄录像或者只是长录像。

基于以上三个建议,该深入研究打标顺利完成了 VCSL(Video Copy Segment Localization)图表集。深入科学界从 Youtube 和 Bilibili 上选用了 122 个叶子录像,每个叶子录像也与URL系统性联。在打标步骤当中,深入科学界三维了事实,让打标同学顺利完成搜索寻找或许原告的录像然后便顺利完成打标比对,滤除可能会造出现的录像并标造出造出理论上原告的星期图片。

表 1. VCSL 与其他史学界原先图表集的相比较

VCSL 图表集与史学界其他图表集的对比由表 1 附注,可以看见 VCSL 在原告录像对总数和原告图片总数上都比原先史学界图表集高造出两个总数级。并且在录像时长、原告图片时长、录像各种类型的分布上越来越为广泛。

录像图片几张测定的新赞赏这两项

史学界范围内,在此之后在 Muscle-VCD[5]和 VCDB[4]当中明确提造出过图片分级几张测定的赞赏这两项,这几年相比较少用的史学界工作主要用了 VCDB[4]当中度量的图片的比不下和免职不下:

比不下和免职不下的底物之外为错误被测定到的图片,其当中错误测定到的图片度量为只要与理论上的原告图片有一帧的重合即度量为错误测定。比不下的有理函数为所有被测定到的图片总数,免职不下的有理函数为理论上打标真实几张的图片总数。另外,VCDB 文章当中还度量了帧的比不下和免职不下:

与图片量值完全相同,只不过统计资料维度是在帧量值。

上述提到的图片比不下 / 免职不下和帧比不下 / 免职不下都有其受限性。最重要的一点是,该赞赏这两项只简便图片和录像的几张测定,即必需打标好的被原告图片与或许原告的录像作为匹配,而不是两段零碎的录像作为匹配,这种赞赏方式则在理论上桥段下是不真实的。同时,对于图片比不下 / 免职不下,测定到的图片只要和理论上的打标图片有一帧重叠就认为是错误的计算造出来方式则,或许会造成了赞赏这两项对原告有别于的精度的感知相比较更差。另外,这些这两项不能考虑到录像几张的一些重要物理性质,即请注意提到的切分等效性。

在此之后的赞赏这两项必需将标造出好的图片和录像相比较,这个并不简便理论上的应用。在该深入研究明确提造出的赞赏这两项当中,他们用两个零碎的录像作为匹配来测定这两个录像当中或许依赖于的几张图片。另外,该深入研究在注意到录像几张的标造出图表当中发现了录像几张一个物理性质,即图片切分等效物理性质。这种物理性质是由于在某些才会,很难确定几张图片的边界,如下由此可知附注,录像大部分的当中间帧被修改以及窄暂放入其他录像帧,如下由此可知 2(a)附注,另外由此可知 2(b)这种混剪的状况也完全相同,该深入研究认为在这些才会,将几张录像图片标造出为一整段和多段年中的图片都是适当的。因此该深入研究在外观设计越来越进一步赞赏这两项时,必需将这种图片切分等效物理性质考虑进去,使得赞赏这两项对这种切分是鲁棒的。

由此可知 2. 录像原告案例,(a),(b)由此可知左侧为按星期复合的录像图片帧,左侧为录像帧序列相像由此可知,横传动装置和纵传动装置分别代表着两个录像的星期传动装置,黑框内内声称理论上标造出的原告事件图片,概要推论由此可知也可见于后文由此可知 6 左侧。

这个赞赏这两项的声称可以通过录像帧相像由此可知顺利完成声称,如下由此可知附注。几张图片对在相像由此可知上展现为一个测定框内,而这个几张图片,可以展现为在相像由此可知上的一条直线,这声称了帧的顺序对应。而橘红色框内声称理论上打下述 GT 几张图片,浅蓝色框内声称插值控制器的计算几张图片。

由此可知 3. (a-b)描述了该深入研究明确提造出的插值计算造出来步骤,(c-f)描述了四种对比该深入研究明确提造出的赞赏这两项和在此之后这两项对比的修改状况。虚线声称原告帧在时域上的位置,同时也或许会有其他越来越复杂的原告状况展现为越来越复杂的 pattern。

具体来说,首先该深入研究寻找每个 GT 框内与所有的计算框内的博览群书周围,如上由此可知 (a) 附注,几周计算造出来这个紧扣周围在 x 传动装置和 y 传动装置上的并集间距。同时计算造出来造出每个 GT 框内的间距和阔度,先前底物为紧扣周围的并集间距类推,有理函数为 GT 框内的间距类推,即可给与 recall,如上由此可知 (a) 附注。

完全相同的,首先该深入研究寻找每个计算框内与所有 GT 框内的博览群书周围,如上由此可知 (b) 附注,几周计算造出来这个紧扣周围在 x 传动装置和 y 传动装置上的并集间距。同时计算造出来造出每个计算框内的间距和阔度,先前底物为紧扣周围的并集间距类推,有理函数为计算框内的间距类推,即可给与 precision,如上由此可知 (b) 附注。除此以外的是,该深入研究并不能用史学界常用的国土面积,而是采用了 x y 传动装置的三维顺利完成计算造出来,这是为了赞赏这两项对图片切分越来越为鲁棒。先前,将 recall 和 precision 相结合,给与 F-score,作为赞赏常量。

录像图片几张测定插值 benchmark

首先将录像几张测定插值的一彻底解决问题流程分成三个大部分:录像预一彻底解决问题,录像外观上提炼和录像原告有别于,如下由此可知附注。

由此可知 4. 录像几张测定插值一彻底解决问题流程。

基于 VCSL 图表集和越来越进一步赞赏这两项,该深入研究首先复现了迄今为止少用的原告有别于插值,有数霍夫投票者(Hough Voting)、时域网络(Temporal Network)、动态规划(Dynamic Programming)、动态星期扭曲(Dynamic Time Warping),并相结合少用的Apache帧外观上插值,给与如下由此可知附注的 benchmark。

其当中 SPD 是该深入研究团队在去年 ACM MM21 当中明确提造出的原告有别于插值,也是意味着录像原告有别于真实感最好的插值。其当中 SPD 下划线 1 声称在在此之后Apache图表集 VCDB 上训练的真实感,下划线 2 声称在 VCSL 图表集上训练的真实感。可以看见后者真实感好于前者,这也说明了大体量图表集的重要性。

这里也单纯简述下该深入研究在 ACM MM21 上刊登的文章《Learning Segment Similarity and Alignment in Large-Scale Content Based Video Retrieval》,他们明确提造出了一种录像图片相像度和有别于网络(Segment Similarity and Alignment Network,SSAN),主要由两个大部分组成:自督导关键帧测定 (Self-supervised Keyframe Extraction,SKE) 和相像由此可知原告有别于测定(Similarity Pattern Detection,SPD)。关键帧测定(SKE)主要用作提炼鲁棒且有代表性的关键帧,去除相像冗余帧;相像由此可知原告有别于测定(SPD)主要用作录像相像图片有别于。整个 SSAN 可以后端到后端顺利完成训练,给与全面性最好的图片分级原告有别于真实感。

文章地址:

由此可知 5. SSAN 插值本体,有数了关键帧抽走可选,基于帧的录像查询和时域原告有别于可选

在相像由此可知原告有别于测定(SPD)这个可选当中,该深入研究巧妙地将原告有别于缺陷变为一个要能测定缺陷,如下由此可知附注,这样就只必需多于的精确度就可以给与原告有别于的结果,并且具有多段原告测定并能。

由此可知 6. 左由此可知,时域原告有别于 SPD 插值示意由此可知,右由此可知,相像由此可知降解与原录像对示意由此可知

本文的所有标识符都仍然Apache,追捧大家交流提问和摘录!

另外在今年的 CVPR22 上,毛虫企业集团与复旦大学计算机系统创新与产业深入该中心,在 Biometric Workshop 上联合举办活动“老鼠人类外观上定位竞赛”,近期已在阿里云天池应用软件拉开帷幕。通过举办活动本届赛事,毛虫企业集团希望与合作伙伴独自,推行计算造出来器听觉电子技术在人类外观上定位层面的进步,鼓励为中心真实桥段的电子技术创新,为世界带给微小而愉快的扭转。

越来越多比赛信息:

供参考

[1] Over P, Awad G, Michel M, et al. Trecvid 2012-an overview of the goals, tasks, data, evaluation mechanisms and metrics[J]. 2013.

[2] Jiang Q Y, He Y, Li G, et al. SVD: A large-scale short video dataset for near-duplicate video retrieval[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019: 5281-5289.

[3] Kordopatis-Zilos G, Papadopoulos S, Patras I, et al. FIVR: Fine-grained incident video retrieval[J]. IEEE Transactions on Multimedia, 2019, 21(10): 2638-2652.

[4] Jiang Y G, Jiang Y, Wang J. VCDB: a large-scale database for partial copy detection in videos[C]//European conference on computer vision. Springer, Cham, 2014: 357-371.

[5]

艾得辛疗效好不好
镇江看白癜风哪家比较好
黑龙江男科医院挂号咨询
石家庄白癜风医院哪个最好
艾得辛艾拉莫德片效果如何
相关阅读
友情链接