![数据挖掘技术及其在恒星光谱分析中的应用研究](https://wfqqreader-1252317822.image.myqcloud.com/cover/302/47379302/b_47379302.jpg)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
2.1 背景知识
2.1.1 线性判别分析
线性判别分析从高维特征空间中提取最具鉴别能力的低维特征,使得在低维空间里不同类别的样本尽量分开,同时每个类内部样本尽量密集。
设有d维样本,其中
表示第i个样本,N表示样本总数。设
是一个
的矩阵,每个列向量表示第i类的一个n维样本。其中,
表示第i类中的第j个样本,
表示第i类样本个数,c表示样本类别总数。所有样本的均值
。设第i类的样本均值为
(i=1, …,c),则有
。
Fisher准则函数定义如下:
![](https://epubservercos.yuewen.com/0C2FC6/26764070809603606/epubprivate/OEBPS/Images/35167-00-29-4.jpg?sign=1738842972-Yhp2Ym4DiqrAY3YOVZDgBoNWnoz4TqHb-0-3c4a29a0d49a9174da6539e1f59e2cf8)
其中,类间离散度矩阵SB和类内离散度矩阵SW分别定义为
![](https://epubservercos.yuewen.com/0C2FC6/26764070809603606/epubprivate/OEBPS/Images/35167-00-29-5.jpg?sign=1738842972-KGmZsBHGDnghtwmPW8fnMb8M2Ib12Ep3-0-c764ff2adc7e97f6b879037ec7fec1fd)
由线性代数理论不难发现Wopt是满足等式
SBW=λSWW
的解。
线性判别分析面临两大挑战。
1.秩限制问题
下面考察类间离散度矩阵SB的秩,由前面的定义有
![](https://epubservercos.yuewen.com/0C2FC6/26764070809603606/epubprivate/OEBPS/Images/35167-00-29-6.jpg?sign=1738842972-x2YXsUJgXmfEmOSIbLdDC6ieT9CbpKZV-0-3a6b67e0e143048df34d89964b2b9ad3)
则类间离散度矩阵SB的秩为
![](https://epubservercos.yuewen.com/0C2FC6/26764070809603606/epubprivate/OEBPS/Images/35167-00-29-7.jpg?sign=1738842972-eV3aMyCJOWOc5cRHgDyKqX4rpvQ36PpJ-0-2c9ebdfaa3c05f0365dbf0a1a698d85a)
式(2.1.2)表明LDA最多只能求c−1个非零特征向量,即LDA至多只能求c−1个判别方向,从而限制了更多判别信息的获得,进而造成分类性能的局限,这就是所谓的秩限制问题。
2.小样本问题
当样本总数大于样本维数时,类内离散度矩阵SW通常是非奇异的;否则,SW是奇异的。此种情况称为小样本问题。