Bagaimana cara saya menjelaskan perbedaan antara RPCA dan PCA?


Jawaban 1:

Sunting: Doh, saya baru sadar Anda mungkin bertanya tentang Robust-PCA dan bukan Principal Component Regression (alias regression-PCA). Untuk apa nilainya, inilah jawaban untuk yang terakhir.

Kadang-kadang selama regresi, kelompok variabel input (kovariat) akan menjadi linier (lihat pertanyaan lain tentang multikolinieritas). Ini berarti input yang sangat prediktif satu sama lain menyiratkan jenis redundansi dari sudut pandang output: jika Anda dapat memprediksi

yy

baik dengan

xx

, Anda tidak perlu salinan dari

xx

.

Sayangnya, regresi OLS melihat itu dan mencoba untuk mengkompensasi dengan menetapkan tanggung jawab yang serupa dengan input collinear. Dalam contoh di atas, pikirkan tentang berapa banyak pesawat berbeda yang ada yang hampir optimal (dalam arti kuadrat-terkecil) ...

Tak terbatas, kan? Setiap pesawat yang melewati titik-titik, terlepas dari rotasi di sekitar titik hijau: Bayangkan semacam sumbu yang tertambat di udara yang melewati titik-titik hijau dan kemudian bidang merah diputar di atasnya.

Lebih buruk lagi, dengan sedikit mengganggu data, bobot regresi akhir, yang pada dasarnya mengendalikan gradien bidang, bisa sangat berbeda. Ini menunjukkan bahwa modelnya tidak stabil.

Jadi apa cara berprinsip untuk menggabungkan variabel input yang berkorelasi? Nah, inilah yang akan dilakukan Regresi-PCA:

Pertama, ia akan melakukan PCA pada input (titik biru), yaitu menemukan garis biru pada pesawat XZ untuk memproyeksikan titik biru pada (sehingga jarak proyeksi total diminimalkan). Baris ini sekarang bertindak sebagai sumbu baru - sebut saja

bb

,

dan masalah regresi asli sekarang diselesaikan dalam kerangka referensi

byb-y

, regresi linier variabel tunggal.

Jadi dengan cara ini, kami membiarkan PCA menemukan pengelompokan variabel-variabel serupa, alih-alih menyerahkannya pada OLS dengan bahaya inheren dari ketidakstabilan yang digambarkan di atas.

Akhirnya, untuk membingkai ulang regresi ke aslinya

xzyx-z-y

ruang, berapapun koefisien regresi variabel turunan b diberikan (di sini 0,5), akan dibagikan secara adil sesuai dengan bobot sumbu diturunkan PCA (sehingga bobot RPCA akhir akan menjadi

(0.25,0.25)(0.25, 0.25)

).