【计算机视觉】图像segmentation and grouping

图像segmentation and grouping

Posted by ZhangPY on March 16, 2020

【计算机视觉】图像segmentation and grouping

标签(空格分隔): 【图像处理】


说明:本系列是整理北京理工大学计算机学院硕士课程计算机视觉(英语)的笔记所成,不对之处还望指出。 本章节的主要内容是segmentation and grouping,并讲解几种具体的算法。


##Segmentation and Grouping

mid-level vision的一个关键问题是要找到同时具有compact和expressive的image representations,因为early vision中产生的大量information,所以必须进行summarize。这个summaries可以通过groups of pixels来计算,比如这些像素具有相同的color或者texture等;当然也可以通过计算local pattern elements,比如收集那些看起来在一条线上或者在一个圆形上的edge points。前者就是所谓的segmentation,后者就是所谓的grouping。

###Segmentation

通过focuse on local relations between items的clustering methods,将look similar的clumps of pixels像素块组合在一起。这些像素块通常被叫做regions。

###Grouping

based on global relations,比如all items that lie on a straight line。 suggest the presence of a structure of some form。

###Human Vision: Grouping and Gestalt

人类视觉的一个主要的特征是上下文会影响how things are perceived(感知的),比如Muller-Lyer illusion谬莱尔氏错觉,格式塔学派Gestalt school 强调grouping是理解视觉感知的关键。

Gestalt factors:

proximity:nearby tend to be grouped;
similarity:similar tokens tend to be grouped;
common fate:tokens 具有coherent motion(一致运动)tend to be grouped together;
parallelism:平行的curves或者tokens趋向于grouped together;
symmetry:curves that lead to symmetric groups are grouped together。

##Segmentation

###why to segment?

为何要分隔呢?主要是为了形成一些large chunks of pixels大的像素块来一起处理,for efficiency,它们可能represent objects。

Join up image tokens that together convey information。

###Applications

####Backgroud substraction

通过减去已知的背景,找到interesting bits,比如找到办公室中的person,或者路上的cars。 使用一个moving average来估计背景image,从当前帧减去估计得背景image,绝对值大的是感兴趣的pixels。 trick:使用形态学morphological方法除去多余的像素。

算法步骤:

首先构建一个background estimation $B^{(0)}$,对于每一帧F,更新background estimate,typically by forming

$B^{(n+1)}=\over {w_c}}$

从当前帧减去背景,然后用threshold来提取。

一个比较好的方法是定期更新北京模型,这可以通过计算滑动平均值来实现,即对时序信号计算均值的时候考虑接收到的最新值,如下所示:

$\mu_t = (1-\alpha)\mu_{t-1}+\alpha p_t$

其中,参数$\alpha$表示为学习率,定义了当前值对于平均值的影响程度,该值越大,滑动平均值对观察值适应的速度越快。为了构建背景模型,需要对图像帧的每个像素计算滑动平均数。判断前景要素的依据是当前图像与背景模型之间的差值。

这种方案对于背景相对稳定的简单场景比较有效,然而在许多情况下,背景也许会出现部分区域震荡变化,频繁地检测到错误的前景。这也许是由于运动的背景物体比如落叶或者耀眼的效果水面。提出了更复杂的背景建模方法,比如混合高斯模型,它保存着多个模型,即多个滑动平均值,背景值在两个值之间来回变化,那么将保存两个滑动平均值。如果新的像素值不属于其中之一,那么才会认为它是前景值。另外,不仅保存滑动平均值,还保存滑动方差。计算得到的均值和方差形成一个高斯模型,通过它我们可以获知某个像素属于该模型的概率,它使得确定合适的阈值变得简单,因为现在它表现为一个概率而非差异的绝对值。同时,在背景中变化较明显的区域,前景物体需要的差值将大得多。 最后,当高斯模型的击中频率不高时,它会从当前的模型中移除掉,反之,一个像素位于当前维护的背景模型之外,即认为它是一个前景像素的时候,那么新的高斯模型将会被创建,之后它反复被击中,那么会成为背景的一部分。

####shot boundary detection

镜头边界:两个镜头发生转换的时候,会出现一些明显的变化。例如镜头连续帧之间相应位置像素点差值的变大、颜色分布发生明显的改变或者物体边缘的突然出现与消失。镜头边界是视频镜头相邻帧的内容出现了某种意义上的变化,即镜头边界反映的是视频内容的不连续性。镜头边界检测从本质上讲就是检测这些明显特征的变化

summarize video by find shot boundaries, obtain ”most representative” frame 策略是: 计算帧间距离,声明一个boundary在距离大的地方。

可以用来距离度量的是:

frame differences,histogram differences,block comparisions,edges differences 在一个图像序列中,对每个frame计算其与其前帧的距离,如果距离大于一个阈值,认定这个frame为一个shot boundary

####interactive segmentation 是一种交互式的分割,用户标记出一部分的foreground/background pixels,system cuts objects out of images,对于image editing是有用的。

###superpixels for recognition,for some kinds of reconstruction

replace with superpixels

小的groups of pixels that are clumpy or like one another, a reasonable representation of underlying pixels.

##Image segmentation

给定的图像I,同质性谓词(homogeneity predicate),分割图像到n个regions,满足所有的regions之和是I,每个region内部是相似的,region之间是不相似的。

实际上就是一个将图像中每一个像素都分配一个label,具有相同label的像素具有某种共同的visual characteristics.可以通过gray values来分割,通过texture来分割。

###Segmentation as clustering

有两种类型,一种是agglomerative clustering(merge),一种是divisive clustering(split)。 merge类型是通过将其放入与值最相近/似的cluster中,不断重复;而split类型用最好的边界split cluster,不断重复。 当然还有一个距离的度量pointer-cluster像素点到cluster的距离如何度量呢:

- single-link clustering,指的是像素点到clustering中最近的点那个距离;
- complete-link clustering,指的是像素点到clustering中最远的点的那个距离;
- group-average clustering,指的是像素点到clustering的平均距离。

然后对比一下merging和splitting:

merging呢,首先是将每个point都当作是一个cluster,然后不断地merge the two clusters with the smallest inter-cluster distance.

splitting呢,首先是将整个数据点归为一个cluster,然后不断的split the cluster that yields the two components with largest inter-cluster distance。

所以,两者的区别十分明显。

###merging statically similar regions

算法的主要思想如下:

假设每个region区域内的像素是来自同一个正态分布; 两个毗邻的regions R1和R2各包含m1和m2个points,那么有两种可能的假设hypotheses: H0:两个区域属于同一个object,所以两个region中的像素intensities来自于同一个distribution。 H1:两个区域不属于同一个object,所以来自两个distributions 要进行统计推断,看看到底哪个hypothesis成立: 计算似然函数,实际上也是类条件概率,P(X|y=0),P(X|y=1)

根据似然比来进行统计推断,而里面的参数有三个:$\sigma_0,\sigma_1,\sigma_2$,如何计算呢,实际上就是对region 1和region2 合并后计算估计$\sigma_0$,对region 1计算估计$\sigma_1$,对region 2计算估计$\sigma_2$.还是比较简单的。

###region splitting

如果一个region的某个特性不是一个constant的话,这个region就应该split。 初始化regions in the image; 对每个region,递归的执行如下的步骤:

a) 计算该region内的variance; b) 如果每个region内的variance大于a threshold,用appropriate boundary分割该region。

###watershed algorithm

我的说法就是水漫金山。

它的思想是:将image看作是3D,空间坐标和gray levels,意思就是用高度来表示像素intensity。 这是一种地形上的解释,这样的话image中的像素点可分为三种:一种是属于regional minimum的points;一种是处于一个山腰上的points,它将fall into a single minimum;一种是处于峰顶的,它将等概率的fall into more than one minimum,将构成divide lines or watershed lines。使用watershed algorithm就是为了找到第三种点的集合。

想象一下,在各个region的local minimum处开一个小洞,让水漫进来,逐渐淹没,标记住连接两个或以上region的像素点,由它们构成所谓的watershed lines。而不同的盆地将不断地被merge,一个水坝被建立来组织merging,这个水坝就是相应的watershed lines。

来看看watershed algorithm是如何实现的: 用最小的可能的value来开始,构成最初的initial watersheds。

For each intensity level k:
 For each group of pixels of intensity k
 If adjacent to exactly one existing region, add
   these pixels to that region
 Else if adjacent to more than one existing
 regions, mark as boundary
 Else start a new region

在像素的8邻域内检测,看看有没有相邻的regions,如果没有的话,则新建region,有的话,如果只有一个,那么加入到这个region中,如果有两个或者以上,则mark为boundary。

很简单了,先从最低的像素值开始,刚开始一个region都没有,然后遍历所有处于该value的像素点,按照上面的标准去分配区域,然后提高value值,继续判断。最后就能得到对应的watershed lines。

但是有一个问题是:如下: 1 1 1 1 3 3 3 3,在分配区域的时候,第一轮,设置灰度值为1,那么前四个1归为一个region,然后进行第二轮,设置灰度值为3,那么剩下的4个3逐步的判断,都有一个region与之相邻,那么归为该region,最后只得到一个region,所以问题来了,对于不同的像素值,居然分到了同一个region中,很明显应当从1,3之间分开的嘛! 那么一种解决的方法就是取梯度图:用算子 -1 1来计算梯度: 0 0 0 2 0 0 0 那么在分配区域的时候,前三个0分为一个region1 ,后三个0分为一个region 2,而在判断2的时候,就会发现它实际上是有两个region与之相邻,那么它就是所谓的watershed lines上的point。

这就是在梯度图上做watershed algorithm。

还有,如果有噪声或者其他梯度局部不规则的话,会出现过度分割的现象,太多的region了。 一种解决办法是限制区域最小值的数量,使用markers来指定允许的regional minimal,就是说水从指定的regional minimal上开始往上漫进来。

###cluster pixels

使用K-means,represent pixels用intensity vector,color vector,vector of nearby filter responses等,perhaps position。

使用K-means要注意Axis scaling,不同的features可能具有不同的scales,问题是features with larger scales dominate clustering,解决办法就是scale the features。 K值选的不同当然也就不同。所以K是提前给出的。

###mean shift algorithm

meanshift也比较简单,逐渐去寻找mass的重心,也是一个交替优化的过程,首先随机选取一个位置,找到以该位置为半径的圆的重心,然后将位置指向该重心,得到的就是meanshift vector,然后该位置加上这个vector就可以转移到这里,然后再以该位置为中心,相同半径下圆的重心,逐步迭代进行。直到meanshift vector很小为止。计算中心的时候不一定使用均值,可以使用kernel function来进行平滑,比如一个非常合理的假设就是距离越近的权重应该越高,所以Gaussian Kernel应该是一个不错的选择,于是meanshift就变味了kernel meanshift,KMS。

Until the update is tiny
form the new estimate

n data vectors $x_i$ of dimension d,g is the kernel function,a scaling constant h。

实际上是用meanshift只是为了找到mode的peak位置。 对每个像素都使用meanshift可能得到很多个mode,之后要进行clustering the mode,然后遍历每一个pixels,选择最近的mode,分配labels。

大概就是这样了。meanshift的原理很简单,尤其是以迭代优化为alternative optimization,先优化重心,然后再优化区域。如果是两个变量的话,类似于coordinate ascent。坐标上升。

####clustering with Meanshift

对于每个数据点$x_i$,使用meanshift procedure,以$y^{(0)}=x_i$开始,记录结果的模式为$y_i$; 对$y_i$进行cluster,形成一个小的紧凑的clusters; 一个好的选择是merge clusters with group average distance,直到group distance 超过一个小的阈值为止。

####Mean Shift Segmentation

当然在图像分割中,使用meanshift方法,有如下步骤:

对于每一个像素,计算它的特征矢量$x_i=(x_i^s,x_i^r)$表示它的spatial and appearance components; 选择smoothing kernel function的尺度系数:$h_s,h_r$; 使用meanshift clustering,得到一系列的mode,或者初步的clusters; merge clusters with fewer than $t_min$ pixels with a neighbor;选择neighbor is not significant,因为cluster是tiny的。

【增补】

####Graph-based clustering 基于图论的clustering,将image看作是一个graph,一张weighted graph,带有权重的graph,这个权重是对应像素间的相似性,大的weight代表similar,小的weight代表different,也就是说,这个node之间的权重对应的是两个node 像素间的相似性,那么分割的时候的边界对应的是像素最不相似的地方,那么对应的权重也应该是最小。这个权重通常通过position,color和texture vectors来计算得到,典型的计算公式如下:

距离distance,相似度越大,距离越小,对应的权重计算也越大;反之,距离distance大,相似度越小,对应的权重计算也就越小。

Graph-based clustering的算法如下:

  1. 开始时将每个像素设置为一个cluster;
  2. 将edges按照edges 权重单调不减进行排序,即$w(e_1)\ge w(e_2)\ge w(e_3)\ge …\ge w(e_r)$
  3. 对这些edges进行遍历,对于每个edges,判断edges是否在一个cluster内部,如果是则跳过,如果不是,那么一端在cluster $C_l$,另一端在cluster $C_m$,计算两个cluster的$diff(C_l,C_m)$,如果小于某一个值的话,将两个cluster进行merge。
  4. 输出剩余的clusters 这个set就是最后的clusters。 这种方法实际上是一种基于merge的clustering方法,但是它利用的graph,图论。注意:这里面所说的edges,指的不是经过梯度处理提取的edges,而是指两个node之间的edges,这个edge上的权重就是前面所讲的那个权重,衡量的是两个nodes之间相似性,相似性越大,weights也越大,说明更可能是同一类。所以,上面将weights按照从大到小的顺序排列,也是出于这个道理,先将更加相似的node输入到里面,开始的时候肯定是大范围的merge,merge的效果更加好,使得算法一开始就能将大量相似性的node给merge,剩下的cluster可能就少了,能够加速clustering的速度。

####Graph-based segmentation 首先是将represent image by graph,每个像素都是一个node,那么edges of graph表示的就是像素之间的相似度,图像的分割,就对应于graph的partition。想想分割图的时候,就是找到图像链接权重最小的区域,一刀切下去,就把graph切成两半了。大概就是这样的思路吧。

Min cut算法,给定一个graph,G(V,E,W),V表示它的nodes,E表示它的edges,就是无方向的边,而W对应着weights矩阵。a cut on a graph,就是将V分割为两个子集A和B,A,B之间不交叠,AUB=V。min cut的思想呢就是链接A和B的这个edges的权重之和应该是最小的。这就是min cut的叫法的来源。

这个公式很好理解,就是A中的nodes与B中的nodes的所有有链接的边的权重之和。找一个最小的出来,作为cut的依据。

normalized cuts,就是用A和V中的cut,B和V中的cut,V指的是all nodes,进行normalization,公式如下:

assoc(A,V)实际上就是A中nodes与V中nodes的所有边界权重之和。

关于Graph weight matrix W,它实际上是一个对称方阵,大小为$(w\times h)\times (w\times h)$,每一行i或者每一列j都是一张$(w\times h)$的image。表示的是image中所有像素与image中第i个或者第j个像素的相似度图。

##评估一下分割的性能

当然要先有groundtruth才能量化评估,那么收集正确分割的方法可以是人工标定,这种方法虽然不一定完美,但是几乎是最好的了。目前机器没有人做得好。

此处输入图片的描述

这里有两个指标一个是recall,一个是precision: Precision (P) is defined as the number of true positives ($T_p$) over the number of true positives plus the number of false positives ($F_p$).

Recall (R) is defined as the number of true positives ($T_p$) over the number of true positives plus the number of false negatives ($F_n$).

在这里recall指的是所有是human boundary pixels中被找出来是boundary的像素占其中的比例,而precision指的是所有是human boundary pixels中被找出来是boundary的像素占我找出来的boundary像素中的比例。

我们当然希望结果P越高越好,R也越高越好,但事实上这两者在某些情况下是矛盾的。比如极端情况下,我们只找出了一个像素,这个像素是属于boundaries的,是准确的,那么P就是100%,但是R就很低;而如果我们把所有结果都返回,那么必然R是100%,但是P很低