ECCV2018|商汤37篇论文入选,为你解读精选论文(附链接+开源资源)

AI科技大本营 2018-09-13 11:16
关注文章


【导读】9 月 8 日-14 日,每两年举办一次的 2018 欧洲计算机视觉大会(ECCV 2018)在德国慕尼黑召开,本次会议总共收到了 2439 篇有效的论文,相比上一届 2016年会议增加了 65% ,其中有 776 篇被接受( 31.8 % )。可以说,今年是国内各高校、企业研究机构收获丰富的一年,无论是过去的 CVPR、ICCV 大会,都是华人的成果占据半壁江山,可见国内计算机视觉这两年来的迅猛的发展。


聚焦 ECCV 2018

今年 ECCV 2018 大会共有 11 个 Tutorial,讨论的议题涵盖目前热门的方向:对抗性机器学习;对人、物体和环境的超快三维感知、重建与理解;面部追踪及其应用、行人重识别的表征学习、视觉定位、视觉识别的前沿课题等。更过具体信息可访问 workshops_tutorials 进行了解。

https://eccv2018.org/program/workshops_tutorials/

在 ECCV 还没有召开之前,大家对优秀论文的关注度就非常高,可以看到很多关于有突破、有意义研究成果的分享。例如:

《Pixel2Mesh: Generating 3D Mesh Models from Single RGB Images》

由腾讯 AI Lab 与复旦大学、普林斯顿大学、Intel Labs 合作提出一种端对端的深度学习框架,可从单张彩色图片直接生成三维网格(3d mesh)。


《Recurrent Squeeze-and-Excitation Context Aggregation Net for Single Image Deraining》

北大已经开源的深度单图去雨算法。图像中雨水条纹会严重降低能见度,导致许多当前的计算机视觉算法无法工作,比如在自动驾驶场景下图像去雨就变得非常重要。该文提出了一种基于深度卷积和递归神经网络的新型深度网络体系结构,用于单图像去雨。


华中科技大学白翔老师团队在自然场景文本检测与识别领域成果颇丰。

《Mask TextSpotter: An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes》是其最新力作。引入 Mask R-CNN 思想通过语义分割进行任意形状文本检测与识别。


MVSNet:非结构化多视点三维重建网络被 ECCV 2018 选为 Oral 的论文,来自香港科技大学和Altizure公司的研究团队提出了一种既高精度又高效率的三维重建网络。

巴西阿雷格里港大学的学者发表于 ECCV 2018 的论文《License Plate Detection and Recognition in Unconstrained Scenarios》

给出了一整套完整的车牌识别系统设计,着眼于解决在非限定场景有挑战的车牌识别应用,其性能优于目前主流的商业系统,代码已经开源,非常值得参考。


今年,商汤科技及联合实验室共有 37 篇论文入选,甚至超过了微软、Google、Facebook 等国外科技巨头公司。在大规模人脸与人体识别、物体检测与跟踪、自动驾驶场景理解与分析、视频分析、3D 视觉、底层视觉算法、视觉与自然语言的综合理解等领域均有重大突破。这些新颖的计算机视觉算法不仅有着丰富的应用场景,使得更多的智能视觉算法能应用于日常生活之中,还为后续研究提供了可贵的经验和方向。我们精选了部分论文进行了解读,感兴趣的同学们可以进一步研究。



大规模人脸与人体识别

1.人脸识别的瓶颈在于数据集噪声(The Devil of Face Recognition is in the Noise)



随着人脸数据集规模的逐渐扩大,研究者们设计出了各种更快更强的人脸识别网络。但是对于现有人脸数据集中的标签噪声问题,学界的理解依然有限。为了解决这个问题,本文对于人脸识别领域作出以下贡献:


(1)清理出了现有大规模人脸数据集(包括 MegaFace 和 MS-Celeb-1M)的干净子集,并提出了一个新的无噪声人脸数据集 IMDb_Face;

(2)利用原始数据集以及清理后的干净子集,对 MegaFace 和 MS-Celeb-1M 数据集中的噪声特性和来源做了全面的分析,发现干净子集对于提高人脸识别精度效果显著;

(3)本文提出了一种用于数据清理的标注流程,大量的用户调研显示该流程是高效且可控的。


IMDb-Face 数据集开源地址:

https://github.com/fwang91/IMDb-Face


2.基于模型共识的大规模无标注数据标签传播方法(Consensus-Driven Propagation in Massive Unlabeled D ata for Face Recognition)



人脸识别中,随着深度学习模型参数量的增大,所需要训练数据的人工标注量也越来越多。然而人工标注的错误难以避免,当人工标注的可靠性不如模型本身的时候,数据标注所带来的增益会远远低于标注本身耗费的劳动量。此时,需要使用一种合理的方式来利用无标注数据。该问题与“半监督学习”任务相似,但在人脸识别这类数据量和类别数量都很大的任务中,则存在显著的不同之处:首先,真实情况下,无标注数据的来源通常没有限制,因此光照、姿态、遮挡等会有很大的差异,这种情况下基于单模型的半监督方法会产生较大偏差。其次,传统的半监督学习通常假设无标注数据的标签集合和已标注数据的标签集合是完全重合的,从而标签可以在无标注数据上进行传播。然而,在人脸识别任务中,由于无标注数据来源无限制,因此无法保证获取的无标注数据的标签在已标注数据中出现过。这些差异使得传统的半监督学习无法直接运用在这个问题上。本文工作不仅突破了这些限制,还证明了无标注数据可以达到和有标注数据相接近的效果。作者用 9% 的有标注数据和 91% 的无标注数据,在 MegaFace 上达到了 78.18% 的准确性,接近使用了 100% 的有标注数据的结果 78.52%。


论文地址:

http://cn.arxiv.org/abs/1807.11649

http://cn.arxiv.org/abs/1809.01407



物体检测与跟踪

1.量化模仿-训练面向物体检测的极小CNN模型(Quantization Mimic: Towards Very Tiny CNN for Object Detection)

由于极小 CNN 模型有限的模型表达能力,训练针对复杂视觉任务(如物体检测)的极小 CNN 通常充满挑战。本文致力于提出一种简单而通用的框架—量化模仿,来训练面向物体检测任务的极小 CNN 模型。在本文框架中,作者提出联合模仿与量化的方法来减小物体检测 CNN 模型的参数量实现加速。模仿方法通过转移教师网络(teacher network)所学习到的物体检测知识,来增强学生网络(student network)的物体检测性能;量化方法在不降低模型检测性能的条件下,将全精度网络的参数进行量化,实现网络加速。如果大型教师网络通过量化实现加速,那么小型学生网络的搜索空间会大大降低。本文基于该性质,提出了先量化大型教师网络,然后使用学生网络模仿量化后大型教师网络的方法,实现面向物体检测的极小型 CNN 模型的训练。本文使用了不同的主干网络(VGG和ResNet)和不同的检测框架(Faster R-CNN和R-FCN)充分检验了该训练框架的性能和泛化能力。在有限计算量的限制下,该框架在 Pascal VOC 和 WIDER Face 数据集的物体检测性能超越了当前物体检测的先进水平。



2.可分解网络--基于子图表示的高效场景图生成算法(Factorizable Net: An Efficient Subgraph-based Framework for Scene Graph Generation)



随着计算机视觉的发展,场景图生成得到越来越多业内研究人员的关注。场景图生成不仅需要检测出来图像中的物体,还需要识别物体之间的关系。与一般的物体检测任务相比,场景图因为引入了物体之间的两两关系,极大的扩充了输出结果的语义空间,因而可以蕴含更多图像的语义信息。但是,由于物体之间可能存在的关系数目和图像中物体数目的平方成正比,而目前已有的场景图生成算法往往对每一个可能存在的关系都用一个特征向量表示,因此大量的关系特征向量使模型过于庞大且缓慢,极大限制了物体候选框的数目。本文针对已有场景图生成算法的缺点,通过共享语义相近的关系特征(称为子图特征),极大简化了网络在中间阶段的特征表示,并且提高了模型的检测速度。此外,本文还提出了“空间加权信息传递”模块和“空间感知关系检测”模块,使模型在信息传递和最终的物体关系检测时,能够更加充分的利用物体之间的空间联系,得到更好的物体检测和关系识别结果。在目前主流的 VRD 和 Visual Genome 上的实验结果表明,本文提出的基于子图特征的高效场景图生成算法在识别精度和测试速度上均超过目前业内最好结果。


算法的 PyTorch 版本开原地址:https://github.com/yikang-li/FactorizableNet


3.基于干扰对象感知的长时单目标跟踪算法(Distractor-aware Siamese Networks for Visual Object Tracking)



近年来,孪生网络结构因为性能和速度的平衡性在跟踪领域受到了极大的关注。但是大多数的孪生网络跟踪器使用的特征都只能区分前景和非语义背景。而跟踪过程中,也有语义的背景带来的干扰,其通常是限制跟踪性能的重要因素。在本文中,作者首先分析了训练过程中样本对跟踪过程的影响,发现正负样本不均衡是导致跟踪性能瓶颈的主要原因。本文从两个角度解决这个问题,训练过程中,通过控制采样方式来控制正负训练样本的分布,并且引入含有语义的负样本;测试过程中提出干扰物感知模块来调整跟踪器,使其适应当前的视频。除此之外,作者还设计了一种局部到全局的搜索区域增长方法,将算法扩展到长期跟踪。在 UAV20L、UAV123、VOT2016、VOT2017 数据集上,本文提出的方法均可取得目前最好的结果,同时速度可达到160FPS。


本文提出的方法在 ECCV 2018 召开的 VOT Challenge Workshop上获得了实时目标跟踪比赛的冠军。


VOT Challenge 是视觉目标跟踪领域一年一度的国际权威比赛,其为跟踪领域提供了精细的数据标注和评测方式,并在 2017 年引入了实时比赛:被评测算法在跟踪物体的同时必须保持至少 60fps 跟踪速率,来模拟现实场景中的跟踪情况。今年的 VOT 2018 在 ECCV 2018 期间举办,共有 72 只队伍参赛,包括微软亚洲研究院、牛津大学等知名企业与高校。商汤科技的参赛算法能够在 60FPS 的速率下获得精确的跟踪结果,并且在其他两项项目(普通跟踪和长时跟踪)也获得了骄人的成绩。


论文地址:

http://cn.arxiv.org/abs/1805.02152

http://cn.arxiv.org/abs/1806.11538

http://cn.arxiv.org/abs/1808.06048?context=cs.CV


视频分析

1.基于视觉特征链接和时序链接的视频人物检索

(Person Search in Videos with One Portrait Through Visual and Temporal Links)



虽然人脸识别和行人再识别已经在学术界取得了非常多的研究成果,但是在复杂庞大的视频数据库中(如监控视频或电影数据库),很多时候并不能看到人物清晰的正脸,这时人脸识别就无法发挥作用。而行人再识别关注的通常是一小段时间内一个比较小的区域的行人匹配,也就是说在行人再识别的问题中,人物的服饰装扮以及周围的环境都不会有太大的变化。该假设大大限制了行人再识别技术在实际场景中的应用。针对这些缺陷,本文提出了一个更加贴近实际应用的研究问题--人物检索,即给定一张人物正面照,在一个非常大的图像(视频)库中检索出该人物的所有实例。例如,给定一个犯人的画像,在一个城市的监控视频中找出所有他/她出现过的视频片段,或者给定一个演员的自拍,找出他/她在所有电影和电视剧中的镜头。为了研究这个问题,本文首先建立了一个大规模的数据集--Cast Search in Movies (CSM),包含了 1218 位演员以及他们来自的 192 部电影的超过 12 万个短视频。人物检索问题的主要难点在于,给定的图像和该人物在数据库中的实例在视觉观感上有时有较大差别。为了应对这个难点,本文提出了一种基于基于特征和时序链接的标签传播算法。并且提出了一种竞争共识机制,来解决标签传播中容易受噪声影响的问题。同时通过渐进式迭代的方式,大大提高标签传播的效率。实验证明,这种传播算法在人物检索中大大优于单纯应用人脸识别和行人再识别技术。


论文地址:http://cn.arxiv.org/abs/1807.10510



自动驾驶场景理解与分析

1.基于逐点空间注意力机制的场景解析网络(PSANet: Point-wise Spatial Attention Network for Scene Parsing)

场景解析(scene parsing)是基于自动驾驶任务中的一个重要问题,能够广泛应用于机器人导航、自动驾驶等领域。场景图像中的上下文信息(contextual information),尤其是大范围的上下文信息,对于场景解析有着非常重要的作用。传统的卷积神经网络因为其结构,信息流动局限在当前像素周围的局部区域中,对于大范围的上下文信息获取和表达能力有限。在本篇论文中,作者提出了一种逐点的空间注意力机制神经网络模块(point-wise spatial attention network),来有效获取图片中大范围的上下文信息,显著改善神经网络的场景解析性能。针对视觉特征图(feature map)中的每一点对,该模块会预测两个点之间的上下文依赖,且该预测会同时考虑到两个点原本的语义信息以及两个点之间的位置关系。最终预测出的点与点之间的上下文依赖关系,可以用逐点的注意力机制进行表示。为了充分实现特征图中大范围的信息流通,作者设计了一种双向信息流动机制,来实现上下文信息的充分融合,提升模型的场景解析性能。实验表明,本文提出的逐点空间注意力模型能够显著改善基准模型的场景解析性能,在多个场景解析与语义分割数据集上,本文算法都达到了当前的最优性能。


2.基于局部相似性的半监督单目深度估计(Monocular Depth Estimation with Affinity, Vertical Pooling, and Label Enhancement)



单目深度估计在基于视觉传感器的自动驾驶和辅助驾驶任务中有着重要的作用。虽然边缘、纹理等绝对特征可以被卷积神经网络(CNNs)有效地提取出来,但基于卷积神经网络的方法大多忽略了图像中相邻像素之间存在的约束关系,即相对特征。为了克服这个缺陷,本文提出了一种结合相对特征和绝对特征的端到端网络,对不同图像位置的关系进行了显式的建模。另外,作者利用了深度图中一个显著的先验知识,即深度图中距离变化主要处于竖直方向上,认为对竖直方向上的特征进行建模将有利于深度图的精细化估计。本文的算法中使用了竖直方向的池化操作来对图像在竖直方向上的特征进行了显式建模。此外,由于从激光雷达获得的真实深度图中的有效数值非常稀疏,作者采用了已有的立体匹配的算法生成高质量的深度图,并用生成的密集深度图作为辅助数据用于训练。本文实验证明了提出的算法在 KITTI 数据集上取得了优异的效果。


3D 视觉

1.基于参数化卷积的点云深度学习

(SpiderCNN: Deep Learning on Point Sets with Parameterized Convolutional Filters)



尽管深度学习在大量计算机视觉问题上取得了成功,如何将深度学习应用于非规则数据上依然是一个极富挑战性的问题。在这篇文章中,作者提出一种新型的卷积结构 SpiderCNN,来有效提取点云中的几何特征。具体来说,SpiderCNN 利用参数化卷积技术,将传统的卷积操作从规则网格拓展到非规则网格。我们利用阶跃函数之积来表征点云的局部几何特征,然后利用泰勒多项式来保证该结构的表达能力。SpiderCNN 同时继承了传统CNN 的多尺度特性,从而能够有效地提取层级化的深度语义信息。SpiderCNN 在 ModelNet40 这个标准测试集上取得 92.4% 的优异结果。


论文地址:http://cn.arxiv.org/abs/1803.11527



底层视觉算法

1.基于生成对抗网络的增强超分辨率方法

(ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks)



基于生成对抗网络的图像超分辨率模型SRGAN能够生成更多的纹理细节。然而,它恢复出来的纹理往往不够自然,也常伴随着一些噪声。为了进一步增强图像超分辨率的视觉效果,本文深入研究并改进了 SRGAN 的三个关键部分——网络结构、对抗损失函数和感知损失函数,提出了一个增强的ESRGAN 模型。具体地,本文引入了一个新网络结构单元 RRDB (Residual-in-Resudal Dense Block);借鉴了相对生成对抗网络(relativistic GAN)让判别器预测相对的真实度而不是绝对的值;还使用了激活前的具有更强监督信息的特征表达来约束感知损失函数。得益于以上的改进,本文提出的 ESRGAN 模型能够恢复更加真实自然的纹理,取得比之前的 SRGAN 模型更好的视觉效果。ESRGAN 模型同时在 ECCV 2018 的 PIRM-SR 比赛中获得了最好的感知评分,取得了第一名。 


论文地址:http://cn.arxiv.org/abs/1809.00219

GitHub地址:https://github.com/xinntao/ESRGAN


视觉与自然语言的综合理解

1.重新研究图像语言描述中隐变量的表达(Rethinking the Form of Latent States in Image Captioning)



本文重新审视了图像描述模型中隐变量的表示方式。循环神经网络如 LSTM 作为解码器在图像语言描述中有大量的应用,现有的图像描述模型通常固定得将解码器的隐变量表示成一维向量。这样带来两个问题:

(1)为了和隐变量保持一致,图像也被压缩成了一维向量,丢失了重要的空间信息,导致描述生成时的条件减弱,模型更多得依赖于多元词组的统计信息,更容易产生出现频率更高的词组;

(2)一维向量的表示,使得对隐变量在解码过程中的变化,即解码过程的内部动态,难以进行可视化和分析。

基于以上几点考虑,本文提出将隐变量表示为多通道二维特征是更好的选择。其利用二维特征的空间性提出一种简单有效的方式成功的可视化和分析了解码过程中神经网络的内部动态,以及中间介质的隐变量、作为输入的图片、作为输出的单词三者之间的联系。同时,由于二维特征保留了更多的图片信息,对应的描述模型能产生与图片更匹配的描述。在拥有同样的参数数量的情况下,采用二维特征来表示隐变量的描述模型仅使用最简单的 cell,即 RNN,也超过了采用一维向量来表示隐变量的描述模型使用LSTM 的效果。


2.面向视觉问答的问题引导混合卷积(Question-Guided Hybrid Convolution for Visual Question Answering)



本文提出了一种面向视觉问答任务的问题引导混合卷积操作,能够有效的融合输入问题和输入图像的高层语义信息,实现高准确率的视觉问答。现有的视觉问答系统在融合输入问题和图像时,抛弃了图像中的空间信息。为了解决该问题,本文提出由输入问题预测卷积核,对图像特征图进行问题引导的卷积操作,得到语言和图像的融合特征图。虽然这种由问题引导卷积生成的融合特征图能够充分的融合语言和视觉的多模态信息,但是往往也会带来更多的学习参数。为了降低参数量,作者提出在视觉特征卷积时使用组卷积(group convolution),仅用问题来引导生成一部分卷积核,而另一部分卷积核与问题解耦,该方案能够有效的降低模型参数量并且防止模型过拟合。本文提出的问题引导卷积方法,能够作为现有多模态特征整合方法的有效补充,实现高准确率的视觉问答,在多个视觉问答的数据集中的实验结果证明了该方法的有效性。

论文地址:http://cn.arxiv.org/abs/1807.09958

http://cn.arxiv.org/abs/1808.02632


商汤原创技术的不断进步在重要的比赛中也得到了验证,不仅在 VOT 2018 上夺冠,在 2018 年的 COCO 比赛中,商汤科技研究员和香港中文大学-商汤联合实验室同学组成的团队,在最核心的物体检测(Detection)项目中夺得冠军。在此次竞赛中,商汤团队创造性地开发了三项全新的技术,获得了大幅度的性能提升:

(1)新的多任务混合级联架构(hybrid cascade)。通过把不同子任务进行逐级混合,这种新架构有效地改善了整个检测过程中的信息流动。

(2)通过特征导引产生稀疏锚点,而不是使用传统的规则分布的密集锚点。这种特征导引的方案使得锚点的投放更为精准,平均召回率提升了超过10个百分点。

(3)采用一种新型的FishNet网络结构,它有效地保留和修正多个尺度的信息,能更有效地用于图像级,区域级,以及像素级预测任务。

在 test-dev 上,商汤团队对上述框架进行了全面测试,其中单模型和多模型(最终提交的结果来自于五个模型混合的框架)的 mask AP 分别达到了47.4% 和 49.0%,比去年冠军(也是商汤团队获得)的结果,44.0% 和  46.3%,有约 3 个百分点的明显提高。 在传统的基于检测框的指标 bbox AP上,这个新的框架也分别达到了单模型 54.1% 和多模型的 56.0% 的性能,比去年冠军的结果,50.5% 和 52.6%,也有较大的提升

此外,在 ECCV 期间,香港中文大学-商汤联合实验室还开源了检测库 mm-detection。这个开源库提供了已公开发表的多种视觉检测核心模块。通过这些模块的组合,可以迅速搭建出各种著名的检测框架,比如 Faster RCNN,Mask RCNN,和 R-FCN 等,以及各种新型框架,从而大大加快检测技术研究的效率。

mm-detection 开源地址:

https://github.com/open-mmlab/mmdetection

整理 | Jane 

 出品| AI科技大本营
评论
支持Markdown和数学公式,公式格式:\\(...\\)或\\[...\\]

还没有评论