Displets论文读后感

1.论文基本信息

题目:Displets:Resolving Stereo Ambiguities using Object Knowledge

来源:Conferenceon Computer Vision and Pattern Recognition (CVPR)

时间:2015.6

作者:Fatma Guney, Andreas Geiger

2.论文摘要

立体技术近年来发展迅速,但仍然存在一些具有挑战性的问题。一个比较显著的问题是,传统的方法不易对具有反射性和无纹理的平面恢复重建。该论文在较大的距离上进行规范,使用图像分类技术确定目标视差位置(displets),采样时使用基于稀疏视差评估的逆图像技术以及语义分割技术。Displets指出,特定类别的物体形状不是随意的,它具有典型有规律的结构。综合上述思路,针对“车”这一类别进行试验,利用CRF框架将目标转化为超像素,在KITTI立体评估中,该方法排名第一。

3.引言

计算机视觉的目标是从摄像机得到的二维图像中提取三维信息,从而重建三维世界模型,主要分为四个步骤,如图所示:

该论文主要针对立体匹配阶段,其基本原理是从两个视点观察同一景物以获取立体图相对,匹配出相应像点,从而计算出视差并获得三维信息。一般情况下,一幅图像中的某一特征基元在另一幅图像中可能会有很多候选匹配对象,可真正同名的结构基元只有一个,因此可能会出现歧义匹配。该论文就是为了解决立体歧义问题。

大部分的双目视觉立体匹配算法集中对文字特征和平滑假设做处理,忽略了语义信息的重要性。该论文集中研究中级阶段的目标识别和语义分割技术,而且注重目前研究较少的三维重建部分。如下图所示,当前算法面临的主要问题是由于目标类的弱纹理性,反射性,半透明性,通过使用目标识别知识,增加可能的目标之间的距离,提高匹配效果。

4.文章基本原理

使用SLIC算法将图像分解为一系列的超像素平面,关于displets的说明:

采样三维CAD模型结构(上,中图),通过局部平面和视差图的匹配获取平面参数,其实S代表超像素平面,ni表示平面的法向量。

1)能量函数

立体匹配算法主要是通过建立一个能量代价函数,通过此能量代价函数最小化来估计像素点视差值。立体匹配算法的实质就是一个最优化求解问题,通过建立合理的能量函数,增加一些约束,采用最优化理论的方法进行方程求解。该论文的能量函数如下:

(1)DataTerm(能量函数第一部分)

该数据项指出,左图像和右图像中一致的点在外观上应该相似。由于可能存在很多相似的点,因此用一个半密集的特征区域匹配算法从初始的稀疏视差图得到惩罚偏差如下:

(2)LocalSmoothness(能量函数第二部分)

在能量函数中,鼓励局部平滑度,通过惩罚超像素边缘的不连续性,鼓励具有相似方向的相邻像素。平滑项可分解为:

表示超像素i和超像素j之间一系列共享的边界像素,和控制每个式子的重要性。如果相邻的超像素i和j很容易被一个闭塞的边界分开,就降低和的权值。

(3)DispletPotentials(能量函数第三部分)

Displet Potentials标识一个符合特定语义类的可能的几何区域。Displet的一元可能性(unary potential)被定义为,该可能性用来描述图像中形状符合特定目标类的区域被指定给语义类标签

在每个displet和所有超像素之间定义一个可能性,加上一个变量代表平面的法向量,确保displet不会重叠。

2)Rapid Inverse Graphics(快速逆图像)

该部分描述如何使用逆图像从无限大空间的视差图中再次采样,用MCMC画一组符合特定目标类的代表性采样。该过程从原始摄像机中生成视差图,呈现的视差图和输入的视差图进行对比,返回一个表示一致程度的分数。这确保该算法可以抵抗不能程度的光照变化,特别是反射性和半透明的表面。

(1)Semi-ConvexHull(半凸面车身)

从Google上得到的CAD模型中有成千上万的顶点和面,常用的QSlim算法和MATLAB处理不适用,因此提出一个简单方法用来进行网格简化,可以减少CAD模型中的几何类,同时保留车身形状,不影响呈现的深度图。初始化一个凸面车身的网格,在该模型的体积约束下逐渐平滑逼近,该表达被称为Semi-Convex Hull。其最小化了所有网格顶点之间的距离,并且对原始模型上的点进行密集采样。简化算法如下:

(2)Samplingthe Space of Displets(采样Displets空间)

对于一个指定的物体类,c重点研究对得到的半密集视差图中可能的displet空间的二次采样。用MCMC解决逆图像问题,直接从观察模型中采样参数。

该指标对区域O中的每一个像素都进行解释同事避免其他物体的遮挡。使用目标proposals可以避免通过语义类S直接采样。论文提出一个适用于该场景的简单有效的方法去确定图像的proposals。首先,我们将类C中的所有有效的像素用三维表达,然后,我们沿着相机主坐标的x轴和z轴计算核心密度评估(KDE)。由于目标边界经常和KDE的最小值一致,通过将三维的点转化为图像从而确定目标的区域O为每对相邻的最小值。

5.方法效果(实验部分)

1)我们评估所有图像区域(b)和仅仅是反射性区域(a)的匹配错误率。

SGM:Census and Sobelfeatures;

CNN:recently proposedfeatures based on convolutional neural networks.

下图表示使用模型结构中的不同项时的错误率;

下图表示不同匹配算法的错误率:

下图表示当分别限制目标proposals和模型树时,反射性区域的效果。横轴为0时表示一直的Displets为0,为1时表示用了所有可能相关的proposals.可以发现Displets越多,算法性能越好。

下图对超像素的个数对算法性能的影响进行评估,分别评估所有的区域和反射性区域。最后,在准确度和性能的综合考量下,选择了1000个超像素。

下图表示不使用displets(左)和使用displets(右)的效果差别,每个图都从上往下看。将有大幅度改善的区域用矩形标识出。(大幅度的改善是指物体的反射性,半透明性减低。)最下面的两个是失败的案例,左图中由于三维CAD模型中没有收集罕见的大篷车类的交通工具的距离信息,因此错误率上升。右图失败的原因是由于车和建筑的联系使得语义分割失败,但是整体的重建效果提高了。

6.论文总结

该方法可以减少在弱纹理区域和反射性区域匹配的错误率,大概可以减少50%。该篇论文中,将目标约束在特定的物体类别(车)上,计划将Displets运用到其他的几何类别中,比如建筑,通常是无纹理的但是形状是易于描述的。另一个研究方向是将Displets扩展到花,因为它是一个事先特定的基于光流和场景流非局部类别。

7.个人思考和总结

该论文的两个核心点是:

1.建立了一个较好的能量函数,通过综合各个影响因素并将函数优化,估计像素点视差值,实现立体匹配。

2.结合了图像部分的知识,确定图像中的Proposals。结合三维知识,使用超像素的知识划分图像。首先对图像CAD模型进行网格简化,然后利用三维知识计算KDE确定目标的区域。

易理解错的点:

1.立体匹配并不是确定的物体和物体之间的匹配,不是一幅图像中有一个物体(车),然后去匹配另一个图像,看是否含有这个物体(车)。立体匹配,匹配的是匹配基元,匹配基元有不同的种类。该论文中匹配的应该是像素,计算两幅图像对应位置的视差。立体匹配是计算机视觉中的一个步骤,计算机视觉的目标是从摄像机得到的二维图像中提取三维信息,从而重建三维世界模型。解决立体匹配过程中的歧义问题是为了更好地实现三维重建。

2.最后的效果展示图7,圈框的部分并不是找到了和左图中对应的物体所以把它圈出来了,圈出的部分是使用该论文中的方法后改善效果很明显的区域。论文在开始指出,该方法可以解决传统算法不能解决的无纹理的,反射性,半透明区域的匹配问题。右边的图是使用了Displets方法的,肉眼可以看出,右图相较于左图变暗了,反射性变弱,可以推测出,匹配效果变好了。

刚开始接触该方面,理解有误的,欢迎更正交流。

1.论文基本信息

题目:Displets:Resolving Stereo Ambiguities using Object Knowledge

来源:Conferenceon Computer Vision and Pattern Recognition (CVPR)

时间:2015.6

作者:Fatma Guney, Andreas Geiger

2.论文摘要

立体技术近年来发展迅速,但仍然存在一些具有挑战性的问题。一个比较显著的问题是,传统的方法不易对具有反射性和无纹理的平面恢复重建。该论文在较大的距离上进行规范,使用图像分类技术确定目标视差位置(displets),采样时使用基于稀疏视差评估的逆图像技术以及语义分割技术。Displets指出,特定类别的物体形状不是随意的,它具有典型有规律的结构。综合上述思路,针对“车”这一类别进行试验,利用CRF框架将目标转化为超像素,在KITTI立体评估中,该方法排名第一。

3.引言

计算机视觉的目标是从摄像机得到的二维图像中提取三维信息,从而重建三维世界模型,主要分为四个步骤,如图所示:

该论文主要针对立体匹配阶段,其基本原理是从两个视点观察同一景物以获取立体图相对,匹配出相应像点,从而计算出视差并获得三维信息。一般情况下,一幅图像中的某一特征基元在另一幅图像中可能会有很多候选匹配对象,可真正同名的结构基元只有一个,因此可能会出现歧义匹配。该论文就是为了解决立体歧义问题。

大部分的双目视觉立体匹配算法集中对文字特征和平滑假设做处理,忽略了语义信息的重要性。该论文集中研究中级阶段的目标识别和语义分割技术,而且注重目前研究较少的三维重建部分。如下图所示,当前算法面临的主要问题是由于目标类的弱纹理性,反射性,半透明性,通过使用目标识别知识,增加可能的目标之间的距离,提高匹配效果。

4.文章基本原理

使用SLIC算法将图像分解为一系列的超像素平面,关于displets的说明:

采样三维CAD模型结构(上,中图),通过局部平面和视差图的匹配获取平面参数,其实S代表超像素平面,ni表示平面的法向量。

1)能量函数

立体匹配算法主要是通过建立一个能量代价函数,通过此能量代价函数最小化来估计像素点视差值。立体匹配算法的实质就是一个最优化求解问题,通过建立合理的能量函数,增加一些约束,采用最优化理论的方法进行方程求解。该论文的能量函数如下:

(1)DataTerm(能量函数第一部分)

该数据项指出,左图像和右图像中一致的点在外观上应该相似。由于可能存在很多相似的点,因此用一个半密集的特征区域匹配算法从初始的稀疏视差图得到惩罚偏差如下:

(2)LocalSmoothness(能量函数第二部分)

在能量函数中,鼓励局部平滑度,通过惩罚超像素边缘的不连续性,鼓励具有相似方向的相邻像素。平滑项可分解为:

表示超像素i和超像素j之间一系列共享的边界像素,和控制每个式子的重要性。如果相邻的超像素i和j很容易被一个闭塞的边界分开,就降低和的权值。

(3)DispletPotentials(能量函数第三部分)

Displet Potentials标识一个符合特定语义类的可能的几何区域。Displet的一元可能性(unary potential)被定义为,该可能性用来描述图像中形状符合特定目标类的区域被指定给语义类标签

在每个displet和所有超像素之间定义一个可能性,加上一个变量代表平面的法向量,确保displet不会重叠。

2)Rapid Inverse Graphics(快速逆图像)

该部分描述如何使用逆图像从无限大空间的视差图中再次采样,用MCMC画一组符合特定目标类的代表性采样。该过程从原始摄像机中生成视差图,呈现的视差图和输入的视差图进行对比,返回一个表示一致程度的分数。这确保该算法可以抵抗不能程度的光照变化,特别是反射性和半透明的表面。

(1)Semi-ConvexHull(半凸面车身)

从Google上得到的CAD模型中有成千上万的顶点和面,常用的QSlim算法和MATLAB处理不适用,因此提出一个简单方法用来进行网格简化,可以减少CAD模型中的几何类,同时保留车身形状,不影响呈现的深度图。初始化一个凸面车身的网格,在该模型的体积约束下逐渐平滑逼近,该表达被称为Semi-Convex Hull。其最小化了所有网格顶点之间的距离,并且对原始模型上的点进行密集采样。简化算法如下:

(2)Samplingthe Space of Displets(采样Displets空间)

对于一个指定的物体类,c重点研究对得到的半密集视差图中可能的displet空间的二次采样。用MCMC解决逆图像问题,直接从观察模型中采样参数。

该指标对区域O中的每一个像素都进行解释同事避免其他物体的遮挡。使用目标proposals可以避免通过语义类S直接采样。论文提出一个适用于该场景的简单有效的方法去确定图像的proposals。首先,我们将类C中的所有有效的像素用三维表达,然后,我们沿着相机主坐标的x轴和z轴计算核心密度评估(KDE)。由于目标边界经常和KDE的最小值一致,通过将三维的点转化为图像从而确定目标的区域O为每对相邻的最小值。

5.方法效果(实验部分)

1)我们评估所有图像区域(b)和仅仅是反射性区域(a)的匹配错误率。

SGM:Census and Sobelfeatures;

CNN:recently proposedfeatures based on convolutional neural networks.

下图表示使用模型结构中的不同项时的错误率;

下图表示不同匹配算法的错误率:

下图表示当分别限制目标proposals和模型树时,反射性区域的效果。横轴为0时表示一直的Displets为0,为1时表示用了所有可能相关的proposals.可以发现Displets越多,算法性能越好。

下图对超像素的个数对算法性能的影响进行评估,分别评估所有的区域和反射性区域。最后,在准确度和性能的综合考量下,选择了1000个超像素。

下图表示不使用displets(左)和使用displets(右)的效果差别,每个图都从上往下看。将有大幅度改善的区域用矩形标识出。(大幅度的改善是指物体的反射性,半透明性减低。)最下面的两个是失败的案例,左图中由于三维CAD模型中没有收集罕见的大篷车类的交通工具的距离信息,因此错误率上升。右图失败的原因是由于车和建筑的联系使得语义分割失败,但是整体的重建效果提高了。

6.论文总结

该方法可以减少在弱纹理区域和反射性区域匹配的错误率,大概可以减少50%。该篇论文中,将目标约束在特定的物体类别(车)上,计划将Displets运用到其他的几何类别中,比如建筑,通常是无纹理的但是形状是易于描述的。另一个研究方向是将Displets扩展到花,因为它是一个事先特定的基于光流和场景流非局部类别。

7.个人思考和总结

该论文的两个核心点是:

1.建立了一个较好的能量函数,通过综合各个影响因素并将函数优化,估计像素点视差值,实现立体匹配。

2.结合了图像部分的知识,确定图像中的Proposals。结合三维知识,使用超像素的知识划分图像。首先对图像CAD模型进行网格简化,然后利用三维知识计算KDE确定目标的区域。

易理解错的点:

1.立体匹配并不是确定的物体和物体之间的匹配,不是一幅图像中有一个物体(车),然后去匹配另一个图像,看是否含有这个物体(车)。立体匹配,匹配的是匹配基元,匹配基元有不同的种类。该论文中匹配的应该是像素,计算两幅图像对应位置的视差。立体匹配是计算机视觉中的一个步骤,计算机视觉的目标是从摄像机得到的二维图像中提取三维信息,从而重建三维世界模型。解决立体匹配过程中的歧义问题是为了更好地实现三维重建。

2.最后的效果展示图7,圈框的部分并不是找到了和左图中对应的物体所以把它圈出来了,圈出的部分是使用该论文中的方法后改善效果很明显的区域。论文在开始指出,该方法可以解决传统算法不能解决的无纹理的,反射性,半透明区域的匹配问题。右边的图是使用了Displets方法的,肉眼可以看出,右图相较于左图变暗了,反射性变弱,可以推测出,匹配效果变好了。

刚开始接触该方面,理解有误的,欢迎更正交流。


相关内容

  • [学术研究,你的成功之道]读后感
  • <学术研究,你的成功之道>读后感 通过对这本书的学习,对博士研究生所应具备的能力.研究目标以及研究方法有了初步的了解,同时明白了读研过程中论文写作一类的基本问题.我个人一直希望在学术研究方面有所发展,这本书对做好科研的描述让我初步认识了未来的研究过程. 一.研究的本质 此前对博士研究生生 ...

  • [中小学音乐教育课题研究与论文写作]读后感
  • <中小学音乐教育课题研究与论文写作>读后感 中小学各科课题研究与论文写作丛书<中小学音乐教育课题研究与论文写作>这本书个人感觉还是很不错的.简单的看了下, 本书分上下两编,上编为中小学音乐教育课题研究与论文写作概述,下编为中小学音乐教研论文的写作与答辩,还附录了教研论文参考选 ...

  • 初三写人作文
  • 初三写人作文 : 背影_600字 2015-09-16 初三写人作文 : 有种朋友_1500字 2015-09-16 初三书信 : 给父亲写一封信_500字 2015-09-16 初三叙事作文 : 我的另一片天空_1000字 2015-09-16 初三叙事作文 : 独立总在风雨后_700字 2015 ...

  • 如何写论文读后感
  • 一.论文回顾 (1)主要工作:&贡献.结论(与书上比较) (2)大致推导框架 (3)理论基础:三个模型基础分别在哪里体现 二.贡献:为什么需要用without utility index 三.与书上Slutsky Equation的比较与联系 读书笔记的要求: 1.Topic 主题是什么(重 ...

  • 读后感写作指导[论文]
  • 读后感写作指导的探讨 读后感属于议论文体,对小学生来说,写读后感是比较难的,因此,必须讲究指导方法.我在作文训练中,采用了这样一些方法: 一.感不离读,读感结合 读是感的前提,感是读的结果,因此对原作的准确理解,把握住要点,是写好读后感的前提和基础.对原文的阅读是否认真细致,是决定读后感的质量关键. ...

  • 我比新娘还漂漂读后感350字
  • 我比新娘还漂漂读后感不久前,读了一本"辫子姐姐"郁雨君写的小说,书名叫<我比新娘还漂漂>.当时觉得名字很有趣,就买了回来.读完之后,觉得写得非常好,温馨.有趣.纯真等,全部都囊括在内,现在就向大家介绍介绍吧.当年和妈妈结婚,爸爸居然没出现在婚礼上,跑去做他痴迷的蛋糕了 ...

  • 秘密文件库
  • 常 用 范 文 个人简历(1) 写作知识(1) 学习材料(1) 法律文书(1) 策划方案(1) 个人简历(2) 写作知识(2) 学习材料(2) 法律文书(2) 策划方案(2) 公务员考试(1) 合同协议(1) 模板范例(1) 申报材料(1) 规章制度(1) 公务员考试(2) 合同协议(2) 模板范例 ...

  • 高考语文议论文写作指导教案
  • 高考语文议论文写作指导教案 教学目的 针对学生议论文写作中出现的不会分析论证的现实情况,指导议论文片段写作,形成议论文写作的基本能力. 教学重点 写作方法指导,怎样分析.论证一个观点 教学难点 怎样分析一个问题,论证一个观点 教学过程 一. 导入课题 议论文写作在高考作文中占有十分重要的地位.回顾历 ...

  • 读后感类议论文写作示例
  • 湖北省宜昌县三峡高中  胡平[ 题目 ]  阅读下面材料,联系生活.思想实际,发表感想,写一篇700字左右的议论文,题目自拟.一次, 英国和美国的各一家皮鞋厂,各派了一名推销员到太平洋上某个岛国去开辟市场.两个推销员到达后的第二天,各给自己的工厂拍了一封电报.一封电报是:"这座岛上没有人穿 ...