Bagi yang bukan ahli, apa perbedaan antara pendekatan Bayesian dan sering?


Jawaban 1:

T: Berapa banyak frekuensi yang diperlukan untuk mengganti bola lampu? J: Ya, ada berbagai jawaban yang dapat dipertahankan ...

T: Berapa banyak Bayesian yang dibutuhkan untuk mengganti bohlam? A: Itu semua tergantung pada Anda sebelumnya!

Narator: Misalkan p menjadi distribusi probabilitas yang tidak diketahui. Estimator adalah fungsi yang mencoba menjawab pertanyaan tentang p, diberikan dataset yang diambil dari sampel p.

Statistik sebagian besar tentang desain dan analisis penduga ...

Freddy the Frequentist: Ini penaksir yang baru saya buat! Dan saya dapat membuktikan bahwa untuk setiap p dalam keluarga distribusi ini, estimator saya "bekerja dengan baik."

Narator: Tolong jelaskan "bekerja dengan baik" kepada audiens kami. Anda bisa melambaikan tangan.

Freddy (melambaikan tangan): Tidak peduli apa pun p, estimator saya umumnya akan memberikan jawaban yang cukup akurat pada dataset yang diambil dari p. Tentu saja, itu akan gagal pada dataset tidak representatif sesekali, tetapi tidak ada menghindari nasib buruk.

Basia the Bayesian: Selamat! Apakah optimal dalam "bekerja dengan baik"? Saya selalu ingin optimal.

Freddy: Oh, tidak ada satu pun penaksir terbaik untuk masalah ini. Tetapi setidaknya saya dapat membuktikan bahwa milik saya "dapat diterima." Artinya, beberapa penaksir lain mungkin mengalahkan penaksir saya untuk beberapa p, tetapi tidak untuk semua p.

Basia: Oke ... lalu bagaimana dengan distribusi p yang kamu harapkan muncul dalam praktek? Apakah estimator Anda sangat cocok untuk mereka?

Freddy: Siapa yang tahu apa yang akan muncul dalam praktik?

Basia: Ya, tentu saja. Anda sudah mengasumsikan bahwa p akan datang dari keluarga tertentu. Jika tidak, estimator Anda tidak memiliki jaminan.

Freddy: Oke, Anda mengerti. Tapi anggapan saya cukup ringan. Orang-orang sering memiliki alasan yang bagus [misalnya, Teorema Batas Pusat] untuk percaya bahwa distribusi data yang dihasilkannya kurang lebih berasal dari keluarga saya. Saya ingin estimator saya bekerja dengan baik selama p ada di keluarga itu.

Basia: Tapi Anda akan mendapatkan dataset Anda yang sebenarnya dari para ilmuwan. Tidakkah mereka memiliki firasat ilmiah yang lebih spesifik tentang apa yang mungkin terjadi? Maka Anda bisa mendapatkan hasil yang lebih baik dengan memperhitungkannya.

Freddy: Kedengarannya mencurigakan. Para ilmuwan menginginkan kesimpulan objektif, bukan kesimpulan yang mencerminkan asumsi yang ada.

Basia: Tujuan ?? Para antropolog dan jurnalis mengatakan tidak ada sudut pandang objektif: seperti dalam fisika, Anda selalu membawa kerangka referensi Anda sendiri. Yang paling bisa dilakukan oleh data untuk Anda adalah memperbarui keyakinan yang ada. Tidakkah kamu memperhatikan di kelas filsafat? Para skeptis memberi tahu kami bahwa tidak ada cara untuk mengetahui sesuatu dengan pasti. Eksistensialis memberi tahu kami bahwa Anda tidak dapat melepaskan kehendak bebas Anda, sebanyak yang Anda inginkan. Anda dapat mencoba melepaskan tanggung jawab itu dengan mengadopsi beberapa prinsip seperti hukum atau kesetiaan atau agama — atau sering! —Tapi itu hanya cara tidak langsung untuk membuat pilihan Anda.

Freddy: Blah, blah, blah. Statistik adalah matematika, bukan filsafat.

Basia: Statistik diterapkan epistemologi. Anda dan saya melanjutkan percakapan filosofis lama: bagaimana kita bisa menyimpulkan sesuatu dari data dengan benar? Ya, alat matematika modern kami memungkinkan kami mendapatkan kesimpulan yang tepat, tetapi hanya sekali kami membuat asumsi. Bahkan matematikawan perlu mengasumsikan beberapa aksioma. Ketika kita berurusan dengan data, kita juga harus membuat asumsi tentang dari mana data itu berasal. Tidak ada asumsi, tidak ada kesimpulan. Hidup itu menyebalkan.

Freddy: Tapi saya sudah membuat asumsi ringan dan menemukan penduga yang baik! Semua pembicaraanmu yang mengalahkanmu tidak memberiku jawaban yang lebih baik.

Basia: Tidak, aku tidak akan memberimu satu penaksir. Saya akan memberi Anda cara untuk mendapatkan estimator yang lebih baik secara otomatis dengan membuat lebih banyak asumsi. Anda dijamin bekerja dengan baik untuk semua p dalam keluarga, tetapi milik saya akan bekerja lebih baik untuk hal-hal biasa.

Freddy: Khas ?? Saya melakukan analisis kasus terburuk. Anda ingin melakukan analisis kasus rata-rata, jadi apa kasus rata-rata? Apakah saya seharusnya rata-rata di atas semua p?

Basia: Cukup tuliskan distribusi Anda sebelumnya pada p, yang mencerminkan keyakinan Anda yang sebenarnya — sebelum percobaan — tentang di mana p mungkin jatuh. Jika Anda benar-benar tidak yakin, maka prioritas Anda harus "rata" dan memperlakukan semua hal dengan lebih atau kurang sama.

Freddy: Dan begitu saya sudah menulis distribusi sebelumnya ...?

Basia: Lalu penaksir Bayesian akan jatuh! Tidak ada yang tersisa untuk desain. Diberikan sebuah dataset, estimator Bayesian hanya akan me-reweights kepercayaan Anda sebelumnya dalam setiap hipotesis p sesuai dengan probabilitas hipotesis tersebut untuk menghasilkan dataset. Jika Anda memiliki fungsi kerugian, maka keputusan optimal keluar dari kepercayaan baru, sekali lagi tanpa desain lebih lanjut, berkat teori keputusan Bayesian.

Freddy: keputusan "Optimal" ... jika Anda percaya sebelumnya.

Basia: Hei, Anda mengakui bahwa Anda tidak memiliki cara berprinsip untuk memilih di antara penaksir yang dapat diterima. Penduga yang berbeda membuat prediksi yang berbeda juga.

Saya harus menentukan sebelumnya. Saya tidak memiliki cara berprinsip untuk memilih di antara berbagai prior; Aku seharusnya memiliki kepercayaan sebelumnya. Tapi setidaknya saya bersikap eksplisit tentang itu! Jadi siapa pun yang membaca makalah saya dapat melihat dengan tepat apa yang mengarah pada kesimpulan saya. Saya tidak bermain-main dengan penduga yang berbeda. Estimator saya bersikeras menggunakan semua data. Dengan prinsip-prinsip Bayesian, data dan petunjuk sebelumnya tak bisa dielakkan dari kesimpulan.

Tentu saja, pembaca saya bebas untuk berdebat dengan saya tentang apakah sebelumnya saya mewakili keadaan pengetahuan ilmiah saat ini. Kita dapat menguji seberapa berbeda prior akan mempengaruhi kesimpulan.

Narator: Terima kasih atas diskusi yang menggembirakan! Ini menjadi sangat tl; dr. Penonton sekarang bebas untuk pergi.

Freddy: Saya melihat bahwa Anda benar-benar ingin memeras setiap tetes nilai dari data. Tetapi mengapa mencoba mendefinisikan One Estimator Sejati? Milik saya cukup baik. Saya dapat membatasi bias dan varians dari estimator saya sebagai fungsi dari ukuran dataset, jadi saya dapat membuktikan kepada Anda bahwa kesalahan besar tidak terlalu mungkin untuk dataset praktis.

Secara praktis, estimator saya juga mudah untuk dihitung. Bahkan, begitulah cara saya mengatasinya: Saya mengira prosedur sederhana yang masuk akal dan kemudian membuktikan bahwa itu memiliki sifat yang baik. Pengukur Bayesian Anda cukup mudah untuk ditulis secara matematis, tetapi mungkin sulit untuk dihitung, yang juga membuatnya sulit untuk dianalisis.

Basia: Itu adil. Bahkan, biasanya saya tidak memiliki cara praktis untuk menghitungnya dengan tepat. Saya harus merancang algoritma acak atau pendekatan variasional. Jadi kesimpulan praktis saya tidak bisa diikuti dari data plus sebelumnya. Mereka juga dipengaruhi oleh perkiraan komputasi.

Tetapi mungkin menarik kesimpulan yang tepat dari data harus intensif secara komputasi. Penalaran ilmiah cukup terlibat ketika manusia melakukannya. Proses ilmiah rumit, yang mengarah pada keluarga model yang kompleks. Eksperimen ilmiah menghasilkan data yang heterogen, berisik, tidak lengkap.

Pendekatan Bayesian menangani semua kompleksitas ini dengan mulus. Setelah Anda mendesain model Anda, Bayesianism terdiri dari satu prinsip statistik sederhana, yang didukung dalam praktik oleh perpustakaan trik komputasi.

Freddy: Saya beri Anda bahwa dalam situasi mewah ini, estimator frequentist juga akan menjadi mahal secara komputasi. Saya juga mengakui bahwa akan sulit bagi saya untuk merancang estimator untuk situasi seperti itu (apalagi untuk banyak situasi terkait) yang memiliki properti frequentist yang terbukti bagus.

Saya mungkin akan jatuh kembali pada estimator kemungkinan maksimum. Itu seperti versi penduga Bayes Anda yang sudah dikupas, jadi setidaknya layak untuk dihitung. Dan itu tidak membutuhkan pendahuluan.

Basia: Saya tidak tergila-gila dengan kemungkinan maksimum. Ini mengabaikan informasi sebelumnya. Dan itu hanya memberikan perkiraan titik konyol, bukannya mewakili ketidakpastian posterior. Ini akan membawa Anda ke keputusan yang lebih buruk.

Freddy: Jadi mungkin saya akan menambahkan pembuat peraturan. Apapun, efek dari Anda sebelumnya berkurang seiring bertambahnya dataset, dan begitu juga ketidakpastian posterior Anda. Jadi setidaknya kita akan sepakat satu sama lain dalam batas data tak terbatas. Dan pada saat itu kami juga akan setuju dengan kebenaran: Saya juga tidak tergila-gila dengan estimasi kemungkinan maksimum, tetapi setidaknya konsisten.

Narator: Baiklah kalau begitu! Senang bertemu Anda dalam kesepakatan.

Freddy: Sampai jumpa, hadirin yang bukan pakar! Semoga Anda bersenang-senang. Anda dapat mengubah kami saat keluar.

Tapi Basia, di antara kami berdua, aku masih tidak berbagi pendirian filosofis Anda tentang apa yang kami inginkan dari estimator. Mari kita jatuhkan fantasi data tak terbatas. Kami akan memiliki data yang terbatas, jadi kami ingin risiko penaksir berkurang dengan cepat sebagai fungsi dari ukuran dataset. Jika saya mempertimbangkan estimator untuk model yang rumit, saya akan mencoba membuktikan bahwa itu melakukan ini untuk distribusi dalam keluarga. Itu tidak membutuhkan sebelumnya.

Basia: Tapi apa yang Anda maksud dengan "distribusi dalam keluarga"? Dengan model yang rumit, apakah itu konsep alami? Biarkan saya membuat sketsa model Bayesian hirarkis dasar:

  1. gambar beberapa parameter hyperparameters dari distribusi sebelumnya dari distribusi yang dikendalikan oleh data hyperparameters dari distribusi yang dikendalikan oleh parameter

Apa keluarga di sini?

Freddy: Di sini saya akan memperlakukan hyperparameter dan parameter secara berbeda. Saya bersedia mengasumsikan bahwa p memiliki bentuk hierarkis Anda: seperti yang Anda tunjukkan sebelumnya, saya akan menerima kendala keras pada p. Saya hanya membuang prior Anda di atas hyperparameters, yang merupakan kendala lunak pada hal. Setiap pengaturan hyperparameters adalah p distribusi yang berbeda, jadi saya ingin merancang metode frequentist yang bekerja dengan baik untuk pengaturan seperti itu.

Basia: Tapi Anda tidak membuang distribusi yang menghasilkan parameter.

Freddy: Benar. Jadi saya harus menganggap parameter pada langkah 2 sebagai data yang tidak teramati yang dihasilkan oleh model di sepanjang langkah ke 3. Mereka adalah variabel "gangguan". Jadi ketika saya rata-rata di atas dataset acak, saya juga melakukan analisis kasus-rata dari parameter. Tetapi karena saya mencoba menunjukkan bahwa analisis ini cocok untuk setiap distribusi, saya melakukan analisis kasus terburuk dari hiperparameter.

Basia: Apa motivasi Anda untuk memperlakukan kedua level ini dengan sangat berbeda ??

Freddy: Oh, saya selalu membedakan dua level. Ada beberapa set distribusi. Untuk setiap distribusi di set, saya ingin melakukannya dengan baik rata-rata.

Basia: Anda melihat model hierarkis tiga tingkat ini dan Anda melihat serangkaian distribusi atas distribusi. Dengan menggunakan prior over the hyperparameters, saya mengubahnya menjadi distribusi alih-alih distribusi. Atau setara, satu distribusi besar. Jadi saya hanya menganalisis semuanya dalam kasus rata-rata. Saya tidak mengerti mengapa Anda menggambar garis khusus antara level 1. dan 2. model saya.

Freddy: Tapi saya tidak harus menggambarnya di sana. Saya bisa menggambar di mana saja saya pilih. Anda ingin membuang analisis kasus terburuk sama sekali. Tapi saya bisa mencampur analisis kasus terburuk dan rata-rata dalam berbagai cara.

Ketika saya menggambar garis di atas level 1., maka semuanya adalah kasing rata-rata dan analisis saya tidak dapat dibedakan dari analisis Bayesian. Dalam hal itu, keluarga hanya berisi satu distribusi p, yang menghasilkan parameter, parameter, dan data hiperparameter. Jadi estimator saya tidak memperkirakan properti p, yang diketahui. Ini adalah nilai imputing dari variabel gangguan, diberikan p dan dataset yang diamati.

Dan di sini risiko estimator saya tidak lagi tergantung pada pilihan p. Ini rata-rata di atas segalanya termasuk hyperparameters.

Basia: Bagus! Itulah yang selalu saya perkecil. Estimator saya secara eksplisit didefinisikan untuk meminimalkan risiko Bayes — yaitu, perkiraan hilangnya prediksi, menurut posterior yang diberikan dataset. Karena estimator saya meminimalkan risiko Bayes untuk setiap dataset yang diberikan, maka juga meminimalkan risiko yang sering Anda bicarakan, yang juga rata-rata di atas semua dataset yang mungkin.

Freddy: Ya, estimator Anda terlihat seperti solusi ideal jika saya menggambar garis di atas level 1, menerima Anda sebelumnya sebagai bagian dari model itu sendiri. Tapi itu hasil tunggal, agak lemah. Dengan memilih untuk menggambar garis di tempat lain, saya juga bisa merumuskan teorema tambahan tentang estimator. Teorema yang mengandung simbol ∀ karena mereka melakukan analisis kasus terburuk.

Basia: "Hasil lemah" itulah yang aku butuhkan dalam latihan. Teorema tambahan Anda cukup benar, tetapi bagaimana mereka membantu Anda?

Freddy: Ya, saya menjadi lebih nyaman merekomendasikan penduga kepada para ilmuwan. Saya dapat memberi tahu mereka properti apa yang dikenalnya, termasuk berbagai jenis properti terburuk.

Basia: Tapi orang lain yang sering merekomendasikan pengukur yang sama baiknya, yang juga memiliki sifat yang baik tetapi akan membuat prediksi yang berbeda.

Teorema Anda hanyalah poin pembicaraan; mereka membingungkan masalah. Saya tidak membutuhkan teorema untuk membuat rekomendasi. Rekomendasi Bayesian saya adalah untuk mendapatkan estimator langsung dari asumsi ilmiah dan tujuan rekayasa. Saya selalu akan memberitahu para ilmuwan untuk menggunakan aturan Bayes yang umum: jika mereka benar-benar mempercayai model mereka dan sebelumnya, maka prediksi terbaik dari data adalah yang meminimalkan risiko Bayes.

Freddy: Saya pikir Anda sebenarnya bersandar pada teorema kelas lengkap. Yang Anda rasa menyelesaikan semua statistik. Apa yang Anda lakukan sepanjang hari? Pasti pekerjaan yang enak.

Basia: Ya, saya membantu para ilmuwan memformalkan model, fungsi prior, dan loss mereka. Itu tidak memerlukan teorema statistik baru — tetapi masih ada matematika yang harus dilakukan. Saya mungkin harus merancang dan menganalisis distribusi probabilitas baru. Saya juga merancang dan menganalisis algoritma untuk membantu para ilmuwan menghitung prediksi terbaik.

Freddy: Mereka pantas tahu apakah "prediksi terbaik" itu akan ada gunanya. Jadi mungkin saya harus melakukan analisis frequentist penduga Bayesian Anda.

Basia: Kenapa repot-repot? Saya hanya akan memberi tahu mereka tentang risiko yang sebenarnya dari prediksi Bayes. Angka itu adalah informasi yang sangat berguna karena syarat pada dataset aktual mereka.

Analisis frequentist Anda akan memberikan perhatian yang sama besar pada distribusi p yang dikesampingkan oleh dataset aktual mereka. Siapa yang peduli dengan baik pada mereka ?? Terutama ketika "berkinerja baik" berarti kinerja rata-rata pada banyak set data fiksi. Itu tidak relevan.

Freddy: Tetapi bagaimana jika para ilmuwan belum memiliki "dataset aktual"? Mereka akan menganalisis banyak dataset. Mereka perlu mengambil keputusan terlebih dahulu. Pertama, haruskah mereka mengadopsi perangkat lunak statistik Anda? Kedua, berapa banyak data yang harus mereka kumpulkan?

Ini memang pertanyaan tentang seberapa baik perangkat lunak Anda - atau milik saya - akan lakukan pada dataset rata-rata ukuran n, untuk berbagai distribusi hal. Setiap kotak perangkat lunak harus memiliki stiker "informasi gizi" di atasnya dengan jawaban atas pertanyaan-pertanyaan itu.

Basia: Oke, tapi stiker itu tidak harus fokus pada hal terburuk. Para ilmuwan memiliki lebih dari sebelumnya hal. Perangkat lunak saya berkonsultasi sebelumnya, dan milik Anda tidak. Tetapi dalam setiap kasus, para ilmuwan ingin tahu seberapa baik perangkat lunak akan dilakukan pada distribusi yang dipilih dari sebelumnya. Saya bisa memperkirakan itu untuk mereka dengan sampling distribusi dan dataset dari sebelumnya.

Freddy: Pada prinsipnya kamu bisa. Namun dalam praktiknya, Anda mungkin ingin menerbitkan stiker sebelum Anda tahu siapa yang akan menggunakan perangkat lunak. Teorema Frequentist bagus dan mudah dibawa kemana-mana — seperti label nutrisi, mereka bertujuan membantu banyak pengguna yang berbeda, yang mungkin memiliki prior yang berbeda.

Kami dapat memformulasikan estimator frequentist tanpa mengetahui sebelumnya tentang pengguna. Dan kami dapat mempublikasikan risiko terburuknya tanpa mengetahui sebelumnya tentang pengguna. Pengguna tahu bahwa risiko terburuk adalah setidaknya batas atas risiko rata-rata, tidak peduli bagaimana mereka lebih suka rata-rata.

Basia: Saya pikir keberatan Anda kembali ke ketidaknyamanan komputasi lagi! Anda ingin menyusun penduga umum dan membuktikan teorema umum ... untuk menghindari melakukan perhitungan spesifik yang akan memberi Anda jawaban terbaik dalam situasi Anda yang tepat.

Tidak mengherankan bahwa statistik secara historis berfokus pada teorema umum. Tidak layak secara komputasi untuk berbuat lebih banyak. Mungkin saya seorang Bayesian karena usia saya dikelilingi oleh kekuatan komputasi dan teknik seperti MCMC. Saya menghormati generalitas dan keanggunan batas teoretis, dalam kasus-kasus sederhana di mana Anda bisa mendapatkannya. Tetapi saya juga menghargai pekerjaan pembelajaran mesin yang berfokus pada pengukuran dan memaksimalkan kinerja sistem prediksi tertentu, daripada membuktikan teorema yang lebih luas tentang sistem yang lebih lemah.


Jawaban 2:

Semua jawaban menarik dan sebagian besar sangat valid.

Saya menambahkan ini:

Ketika Anda, misalnya, ingin memenangkan perang, menemukan obat baru, menghasilkan uang di pasar saham, memprediksi cuaca, atau memprediksi hasil pemilihan umum, taruhan terbaik Anda adalah menggunakan pendekatan Bayesan.

Dengan kata lain, pendekatan Bayesian adalah pendekatan yang benar-benar berhasil. (asalkan Anda memberinya pengetahuan terbaik tentang model yang akan digunakan dan nilai parameter di dalamnya).

Penjelasan untuk ini adalah bahwa kesempatan adalah tentang pemodelan realitas, dan pendekatan Baysian memberi Anda kekuatan pemodelan yang lebih baik.


Jawaban 3:

Saya pikir orang lain telah secara akurat menjawab pertanyaan spesifik, tetapi saya juga akan menambahkan bahwa Bayesian lebih selaras dengan bagaimana kita semua benar-benar memproses informasi baru .... bahkan jika Anda sebenarnya ... seorang yang sering.

Katakanlah seorang ahli yang dikenal di bidang matahari terbit memberi tahu Anda bahwa model prediksi (algoritma) yang baru saja dibuatnya mengatakan matahari terbit akan mulai datang jauh lebih lambat dari yang diperkirakan. Bahkan dalam waktu seminggu, dia memperkirakan matahari terbit pukul 8:00 pagi. Reaksi alami dan logis Anda adalah mengambil pemahaman yang ada (matahari terbit sekitar jam 6 pagi) dan memodifikasi harapan Anda akan matahari terbit minggu depan.

Anda melakukan ini bahkan jika model tampaknya menggunakan matematika suara dan Anda tidak dapat menemukan lubang logika dalam algoritma atau input. Anda memiliki "data" yang diamati selama bertahun-tahun yang memberi tahu Anda matahari terbit akan sekitar pukul 6 pagi minggu depan.

Ini adalah versi no-matematika dari pendekatan Bayesian.

Bahkan mereka yang mungkin menggembar-gemborkan temuan secara absolut kemungkinan besar memiliki kepercayaan Bayesian pada intinya.