1.4 JND模型与显著性模型
1.4.1 JND模型
为了能在实际的计算机视觉系统中利用人类视觉系统的特性,就要求有定量的模型来模拟人类视觉系统。JND(Just Noticeable Distortion)模型就是一个用来衡量人类视觉系统对定量变化的敏感程度的度量。它表示在一定条件下,人类视觉对观察对象出现变化所能容忍的最大程度的变化量,若对象(如图像)或者视频的变化超过这个值,则人类视觉系统能察觉到其变化。JND模型的基础来自人类视觉模型,它通常与频率掩蔽因子(Frequency Masking)、亮度调节因子(Luminance Adaption)、差异掩蔽因子(Contrast Masking)和时域掩蔽因子(Temporal Masking)4个因素相关。
(1)频率掩蔽因子:指人眼对不同频率进行光栅分解后得到正弦波的敏感程度。对于人类视觉模型,假定最小的可视距离是固定的,那么就可以对每个频率段确定一个静态的JND阈值。频率掩蔽因子是一个最基本的视觉模型,独立于视频图像的内容,仅依赖于视角条件。
(2)亮度调节因子:指在连续背景下对噪声监测阈值的衡量。在人类视觉模型中,它是一个非线性函数并依赖于局部的图像特征。一般而言,背景越亮或者越暗,人眼对该区域的敏感程度就越低,这就是亮度掩蔽特性。
(3)差异掩蔽因子:指在一种信号集中区域中对另一种信号进行检测的能力。简单地说,背景纹理越复杂,人眼的敏感程度就越低,这就是纹理掩蔽特性。本质上讲,它允许对JND阈值的等级进行更为动态地控制。
(4)时域掩蔽因子:指衡量人眼对处于某个运动状态的物体的噪声的察觉阈值,这是专门针对视频而引入的因子。一般而言,人眼对运动越快的物体的变化越不敏感。同时,对于不同运动方向的物体上的变化的敏感程度也不一样。一般而言,对于水平和垂直方向上运动的物体的变化更为敏感。
1.4.1.1 DCT域的JND模型
最开始,JND模型的应用在DCT域上。起源可以追溯到1991年,当时Peterson等人为了使图像压缩率变大,提出了一种将DCT系数量化的方案。他们认为DCT是由一组基函数构成的,在每个位置上的DCT系数代表了相应的基函数的权值,而人类视觉系统对每个基函数的敏感程度是不一样的,因此在保证人类视觉系统对压缩后的图像察觉不到有任何质量下降的前提下,每个DCT系数在压缩过程中所需的量化步长也是不一样的。他们设计了一种生理实验,并最终确定了DCT的每个系数最大允许改变多少使人眼察觉不出这种变化,进而确定出每个系数能够达到的量化步长。其主要贡献在于确定了人眼对不同空间频率的敏感程度是不一样的。这从图2.8中的8×8 DCT变换的基矩阵就可以表现出该特性,越往图的右下角,基函数的变化频率越高。
1992年,Ahumada为DCT变换的空间频率建立数学模型,并指出亮度对人类视觉系统也是有影响的,故着手开始建立DCT域的JND模型。随后,Watson建立了一个一般化的JND模型,他引入了亮度调节因子和差异敏感系数,他彻底将JND模型化,为JND的发展铺平了道路。Tong又在1998年改进了Watson的差异敏感模型,他通过统计DCT变换块的直流、低频、中频及高频系数将块分成平面(Plain)、边缘(Edge)和纹理(Texture)三类,然后以这三类来计算人类视觉系统的差异敏感系数。Zhang等人又在2005年通过大量生理实验,改进了Watson模型中的亮度调节因子。他指出人类视觉系统不是对越亮的地方越不敏感,而是对较暗和较亮的地方都不是很敏感,亮度调节因子呈现的是一个“U”形曲线,这是一个更符合实际情况的模型,如图1.8所示。图中实线代表Watson模型中亮度调节因子曲线,虚线代表Zhang提出的亮度调节因子曲线。
图1.8 亮度调节因子曲线对比图
Jia在2006年将JND模型引入了视频领域,并结合了播放帧率、运动物体在视网膜上的速率及实际运动的速率等因素,建立了时域掩蔽效应模型,开辟了JND模型在视频领域发展的道路。Wei在2009年重新更新了Jia的模型,他将JND模型清晰地分为4个部分:频率掩蔽因子、亮度调节因子、差异掩蔽因子和时域掩蔽因子。在频率掩蔽模型上,他认为并不是频带越低,人眼就越对这个频带敏感,而是一个倒“U”形的曲线,如图1.9所示。在计算亮度调节因子时,他考虑了显示器显示时造成的色差的因素,引入了Gamma校正,重新改进了原有的亮度调节模型。而在计算差异掩蔽效应时,他又改进了原有的模型,因为原来的模型只给出了8×8块的高、中、低频系数的划分,若换成其他大小的块,则又需要靠实验数据来重新划分这些系数,不具有扩展性。改进的模型依靠Canny算子来计算边界,并依靠每块中含有的平均边界信息来对块进行分类,这样就使得该模型具有了较好的扩展性,如图1.10所示,图中黑色代表平坦区域,灰色代表边缘区域,白色代表纹理区域。而在建立时域掩蔽模型时,他又在Jia模型的基础上,考虑运动物体的运动方向,他指出即使物体运动幅度相同,但是不同的运动方向也会给人类视觉带来不同的影响。
图1.9 频率掩蔽系数曲线图
图1.10 利用Canny算子进行块分类
1.4.1.2 DCT域的JND模型计算
模型结合了空间CSF、亮度调节效应和差异掩蔽效应。根据该模型,视频序列中一帧图像的第n个大小为N×N块中位置为(i,j)所对应的JND值TJND可表示为
其中,i,j∈[0,N-1],TBasic表示为空间CSF,也称为频域敏感度。FM代表调节因子,是Flum与Fcontrast的乘积。Flum、Fcontrast分别表示为亮度调节因子和差异掩蔽因子。其基本原理如前面介绍,下面分别介绍这几个因子的具体计算方法。
关于空间CSF的TBasic计算。经实验测定,人眼对比阈限是随空间频率改变而改变的,即它是空间频率的函数,称之为CSF。人眼在空间频率域具有带通性,研究者提出了各种各样的CSF模型。Ngan和Nill等提出的由人类视觉系统模型产生的空间CSF曲线如图1.11所示。频率敏感函数H(ω)可表示为
其中,ω表示频率(单位:周/度),a、b、c为常数。
由式(1.5)定义的敏感度模型与Yao Wang等定义的基于对比敏感的失真门限成反比关系可知,对于一个特定的空间频率ω,基本的JND阈值T(ω)是频率敏感度函数H(ω)的倒数,即
Zhen Wei对于TBasic的计算在式(1.6)基础之上进行了改进。在8×8块中位置(i,j)对应的频率ijω为
其中,θx,θy分别表示水平和垂直视觉角度,即
其中,Pich表示图像的高,Rvd表示观察距离和图像的高的比值,取值范围为3~6。
图1.11 空间CSF曲线
在块中(i,j)位置的DCT分量的方向角φij是频率ωij的函数,即
所以TBasic的计算公式为
其中,s,r,a,b,c是常数,取值分别为0.25,0.6,1.33,0.11,0.18。φi,φj是DCT归一化因子,根据式(1.10)计算,则有
关于亮度调节因子Flum的计算。根据Weber-Fechner定律,最小感知亮度差随着背景亮度增大而增大,这称为亮度自适应效应。Weber-Fechner定律说明亮度越大,JND也应该越大,人眼对亮度对比度的敏感度远高于对绝对亮度的敏感度。但是一般JND阈值的计算,我们默认亮度调节值为128的情况下亮度调节因子Flum为1,所以Flum应该是亮度值的一个U型曲线(见图1.8)。即亮度调节因子Flum在亮度值越小或越大的区域,值应该越大,在中间区域其值越小。Flum的计算公式为
其中,表示块的平均亮度值。
关于差异掩蔽因子Fcontrast的计算。基于块分类的差异掩蔽效应,在这里我们在视频图像的亮度成分上利用Canny算子对块进行分类。Canny边缘检测算子是John F.Canny于1986年开发出来的一个多级边缘检测算法。众所周知,Canny算子是一个非常典型的边缘检测算子,具有很好的边缘检测性能。对于给定的图像,它能够精确地检测到边缘像素点。图1.12显示的就是通过Canny算子检测出来的city_4cif视频序列中第一个视频帧的边缘。
图1.12 通过Canny算子检测出来的city_4cif视频序列中第一个视频帧的边缘
若检测出来的边缘点是稀疏的,则我们认为这个区域是平坦的区域;若检测出来的边缘点数目比较多,则认为这个块纹理细节比较多,有很多的高频能量,我们认为该块是纹理区域。所以根据边缘点的密度,我们可以把块划分为三类:平面块(Plane)、边缘块(Edge)、纹理块(Texture)。用ρ表示该块边缘点的密度,计算公式为
其中,#ep是该块中边缘点的数目。块的类别由公式(1.14)决定,即
其中,α β、取值分别为0.1、0.2。
图像的边缘信息对视觉很重要,特别是边缘的位置信息。人眼容易感觉到边缘的位置变化,而对于边缘的灰度误差,人眼并不敏感。人们通常对平面区和边缘区的失真比较敏感,所以应该保护在平面块和边缘块中的信息。而对于纹理块,人眼对低频失真的敏感度不如高频失真敏感,如纹理块的块效应,所以纹理块的高频信息需得到更多保护。基于以上考虑,各类型的块的修正因子Ψ可表示为式(1.15),其中(i,j)为块中的位置(i,j=0~7)。结果参见图1.10。
最终的差异掩蔽因子Fcontrast为
C(n,i,j)为第n个块中位置为(i,j)的DCT系数。调节因子FM由Flum和Fcontrast得到,见公式(1.3)。
1.4.1.2 DWT域的JND模型
与DCT变换比较,DWT具有更好的频率划分和能量集中特性,其良好的时频分解特性更符合人类视觉系统的特点。在DWT域内,不仅要考虑频带、亮度及纹理对JND的影响,而且即使是在相同频带上,人眼对不同方向的噪声的敏感程度也不一样(人眼对斜对角方向的敏感程度比水平和垂直方向上的敏感程度低),故在计算频率敏感程度时,还必须综合考虑频带、方向等因素对人类视觉系统的影响。
小波域JND模型的引入是为了在保证水印不可见性的基础上,尽可能地提高水印的鲁棒性。前文已经说明,影响JND的因素有4个,我们使用这4个因素来计算小波域的JND,即
其中,FM(Frequency Masking)是频率掩蔽因子,表明人眼对高频部分中的边界变化不是很敏感,但是对低频中比较平缓的区域发生的变化却相当敏感。
可以使用一些经验值来表示各个频带的掩蔽因子,即
其中,l是小波变换的层次,θ表示角度,如图1.13所示。
CM(Contrast Masking)表示差异掩蔽因子,它表明人眼对纹理比较丰富和边界区域的变化比较不敏感,而对平缓区域的变化却很敏感。这个因素可以从两个方面来考虑:①小波变换的高频区域包含了比较多的纹理信息,这表明纹理比较丰富或者边界区域的数值会比周围的数值大或者小很多,为了消除负数的影响,采用求平方和的方法来表示相应位置的纹理信息;②为了表示某个位置差异掩蔽因子,需要在小波变换后的低频部分中,以方差的形式表示某点与其周围区域的差异程度,为了消除小波低频系数过大的影响,要将其映射到0~255之间。由于小波变换的多分辨率特性,因此每层的邻域大小是不一样的,随着级数的增加,邻域的范围也会变小,如图1.14所示。CM计算公式为
其中,L是小波变换的层数,也可以理解为图像空域分层的层数,Var表示求方差。图1.15是利用这种规律嵌入水印(可以理解为修改这部分的小波系数)后的比较图,左图是原图,右边的上面一行是在第一层的某个子带中通过修改系数后的结果,第一幅是嵌入水印后的图像,第二幅是差分图,第三幅则是将差分信号放大20倍后的图像,可以发现改变的区域都是在图像纹理比较丰富的区域,因此并不影响图像的视觉质量;右边的下面一行则是在第0层的某个子带中进行了小波系数的修改,由于第0层包含了更多的边缘信息,因此变化的幅度相对更大一些,但是也并不影响视觉质量。
图1.13 小波变换中各频带示意图
图1.14 邻域大小的变化规律示意图
图1.15 修改JND因子后的示意图
LA(Luminance Adaption)是亮度调节因子,表明人眼对比较亮或者比较暗的区域的噪声不敏感。为了表示亮度信息,首先需要将低频部分的系数映射到0~255之间,然后求3×3邻域内的平均亮度值,该值用来表示该点的亮度值。平均亮度值的表达式为
然后利用该平均亮度值和式(1.12)求得该点的亮度调节因子,即
式(1.17)中的Ft是时域掩蔽因子,它表明人眼对运动快的物体上的噪声不敏感。Wei实验数据表明,在空间频率较高时,时域频率与空间频率的常用对数(log10)成一种线性关系,如图1.16所示。经过拟合后,这些直线的斜率约为−0.03。
图1.16 空间频率的常用对数与时域频率的关系
时域掩蔽因子可以表示为
其中,ft表示时域频率,这里主要考虑图像在视网膜上的移动速度,它由三部分构成:观看角度、帧率和物体的运动速度,表达式为
其中,MV是运动速度,它可以使用映射后的小波低频系数在3×3的邻域内求得。fr是帧率,β是观看角度,β的表达式为
其中,Rvd取经验值为4,Pich是帧的高度。
经过上述一系列参数的调节,确定了JND最后的计算公式为
其中,α为调制因子。
1.4.2 显著性模型
显著区域是指在图像中能提取出图像的重要内容的区域,可以理解为人眼在观察图像时,最先注意图像的区域。实际测试用一般采用眼动仪来进行测试,而实际测试算法一般根据人眼的视觉特性和图像的特性来进行仿真。因此一般根据图像在频域中的特性来提取。根据信息论的观点,图像信息能被分解为两部分:新颖部分和先验部分。不同的图像在频谱对数曲线中有共同的曲线趋势,频谱上的冗余部分为图像的新颖部分,由此来构造图像的显著区域。
I(x,y)为一个输入图像,A(u,v)和P(u,v)分别是经过傅里叶变换后的频谱和相谱。对数频谱L(u,v)的公式为
A(u,v)指示对数频谱的一般形式,相当于给定的先验部分。而A(u,v)的平均频谱A1(u,v)可以用局部滤波器来近似A(u,v)的形状,A1(u,v)的计算公式为
而这个滤波器hn(u,v)定义为
综上,频谱冗余R(u,v)定义为
此时频谱冗余意味着图像中的新颖部分,即显著部分。然后再通过反傅里叶变换得到显著图S(x,y),其公式为
其中,g(x,y)是一个高斯滤波器,目的是通过平滑变换来产生较好的视觉效果。
显著图突出了吸引人眼注意的物体,为了检测显著图中的前景物体,我们采用简单的阈值方法,则前景物体图O(x,y)被定义为
其中,阈值=E(S(x,y))·3,从而得到图像的显著映射图。
目前,基于注意力机制的模块已经成为计算机视觉及相关学科中在深度学习网络的一个核心模块,能够为很多视觉和自然语言处理模块带来性能的提升。