“Tolong, satu Guinness!” kata seorang pelanggan kepada bartender, yang membalik gelas bir bermerek dan menangkapnya di bawah keran. Penjaga bar memulai proses penuangan multi-langkah yang berlangsung selama 119,5 detik, yang, baik itu gimmick pemasaran atau keajaiban rekayasa alkohol, telah menjadi ritual favorit di pub-pub Irlandia di seluruh dunia. Hasilnya: kaya lemak dengan lapisan busa sempurna seperti milkshake bubuk.

Tempat pembuatan bir Guinness telah dikenal karena metode inovatifnya sejak pendirinya Arthur Guinness menandatangani sewa selama 9.000 tahun di Dublin dengan biaya £45 setahun. Misalnya, seorang ahli matematika yang menjadi pembuat bir menemukan teknik kimia di sana setelah empat tahun mengutak-atik yang memberi nama tempat pembuatan bir tersebut sebagai kepala beludru yang kokoh. Metode tersebut, yang melibatkan penambahan gas nitrogen ke dalam tong dan bola-bola kecil di dalam kaleng Guinness, menghasilkan minuman “nitro” yang sangat populer saat ini untuk bir dan kopi.

Namun inovasi paling berpengaruh yang dihasilkan oleh tempat pembuatan bir sejauh ini tidak ada hubungannya dengan bir. Ini adalah tempat kelahirannya T-tes, salah satu teknik statistik terpenting dalam semua ilmu pengetahuan. Ketika para ilmuwan menyatakan temuan mereka “signifikan secara statistik”, mereka sering menggunakan a T-tes untuk membuat tekad itu. Bagaimana cara kerjanya, dan mengapa hal ini berasal dari pembuatan bir di semua tempat?


Tentang mendukung jurnalisme sains

Jika Anda menyukai artikel ini, pertimbangkan untuk mendukung jurnalisme pemenang penghargaan kami dengan langganan. Dengan membeli langganan, Anda membantu memastikan masa depan cerita yang berdampak tentang penemuan dan ide yang membentuk dunia kita saat ini.


Pada pergantian abad ke-20, Guinness telah beroperasi selama hampir 150 tahun dan melampaui pesaingnya sebagai tempat pembuatan bir terbesar di dunia. Selama ini, pengendalian kualitas produknya hanya berupa uji visual dan penciuman. Namun tuntutan ekspansi global mendorong para pemimpin Guinness untuk mengubah pendekatan mereka guna mencapai konsistensi dan ketelitian tingkat industri. Perusahaan mempekerjakan tim ahli otak dan memberi mereka keleluasaan untuk mengajukan pertanyaan penelitian dalam layanan minuman yang sempurna. Tempat pembuatan bir tersebut menjadi pusat eksperimen untuk menjawab berbagai pertanyaan: Di manakah jenis jelai terbaik tumbuh? Berapa kadar sakarin yang ideal dalam ekstrak malt? Seberapa besar peningkatan penjualan kampanye iklan terbaru?

Di tengah kesibukan energi ilmiah, tim menghadapi masalah yang terus-menerus: menafsirkan data dalam menghadapi ukuran sampel yang kecil. Salah satu tantangan yang dihadapi pembuat bir adalah hop, bahan penting dalam Guinness yang memberikan rasa pahit dan bertindak sebagai pengawet alami. Untuk menilai kualitas hop, pembuat bir mengukur kandungan resin lunak di pabrik. Katakanlah mereka menganggap 8 persen adalah nilai yang baik dan umum. Namun, menguji setiap bunga dalam suatu tanaman tidak layak secara ekonomi. Jadi mereka melakukan apa yang dilakukan ilmuwan baik mana pun dan menguji sampel bunga secara acak.

Mari kita periksa contoh yang dibuat. Misalkan kita mengukur kandungan resin lunak dalam sembilan sampel dan, karena sampelnya bervariasi, perhatikan kisaran nilainya dari 4 persen hingga 10 persen, dengan rata-rata 6 persen—terlalu rendah. Apakah itu berarti kita harus membuang tanaman itu? Ketidakpastian muncul dari dua kemungkinan penjelasan atas rendahnya pengukuran. Apakah tanaman tersebut benar-benar mengandung kandungan resin lunak yang sangat rendah, atau bahkan Sampel mengandung kadar rendah, hasil panen lengkap sebenarnya bagus. Kunci untuk mengambil sampel secara acak adalah dengan mengandalkan sampel tersebut sebagai perwakilan dari seluruh hasil panen, namun mungkin kami kurang beruntung karena memilih sampel dengan kadar yang sangat rendah. (Lagi pula, kami hanya menguji sembilan.) Dengan kata lain, haruskah kita menganggap tingkat rendah dalam sampel kita berbeda secara signifikan dari 8 persen atau sekadar variasi alami?

Kekacauan ini tidak hanya terjadi pada pembuatan bir. Melainkan mencakup seluruh penyelidikan ilmiah. Misalkan dalam uji coba medis, kelompok perlakuan dan kelompok plasebo membaik, namun kelompok perlakuan sedikit lebih baik. Apakah hal tersebut memberikan alasan yang cukup untuk merekomendasikan pengobatan? Bagaimana jika saya memberi tahu Anda bahwa kedua kelompok tersebut sebenarnya menerima dua plasebo yang berbeda? Apakah Anda tergoda untuk menyimpulkan bahwa kelompok plasebo dengan hasil yang lebih baik pasti memiliki khasiat obat? Atau mungkinkah ketika Anda melacak sekelompok orang, beberapa di antara mereka akan meningkat secara alami, kadang sedikit dan kadang banyak? Sekali lagi, hal ini bermuara pada pertanyaan tentang signifikansi statistik.

Teori yang mendasari pertanyaan-pertanyaan abadi dalam domain ukuran sampel kecil ini belum dikembangkan sampai Guinness muncul—khususnya, sampai William Sealy Gosset, kepala pembuat bir eksperimental di Guinness pada awal abad ke-20, menciptakan T-tes. Konsep signifikansi statistik sudah ada sebelum Gosset, tetapi ahli statistik sebelumnya bekerja dalam rezim ukuran sampel yang besar. Untuk memahami mengapa perbedaan ini penting, kita perlu memahami cara menentukan signifikansi statistik.

Grafik menunjukkan bahwa kurva distribusi t yang datar dibandingkan dengan distribusi normal menunjukkan bahwa distribusi t memiliki rasio signal-to-noise yang lebih besar.

Ingat, sampel hop dalam skenario kami memiliki kandungan resin lunak rata-rata 6 persen, dan kami ingin mengetahui apakah rata-rata panen penuh sebenarnya berbeda dari 8 persen yang diinginkan atau apakah kami hanya beruntung dengan sampel kami. Jadi kita akan mengajukan pertanyaan: Berapa probabilitas bahwa kita akan melihat nilai ekstrem (6 persen) jika hasil panen penuh benar-benar tipikal (dengan rata-rata 8 persen)? Secara tradisional, jika probabilitas ini disebut a P Jika nilainya berada di bawah 0,05, maka kami menganggap deviasi tersebut signifikan secara statistik, meskipun penerapan yang berbeda memerlukan ambang batas yang berbeda.

Seringkali ada dua faktor yang berbeda yang mempengaruhi P nilai: seberapa besar penyimpangan sampel dari apa yang diharapkan dalam populasi dan seberapa besar penyimpangan yang umum terjadi. Bayangkan ini sebagai tarik menarik antara sinyal dan suara. Perbedaan antara rata-rata yang kami amati (6 persen) dan yang kami inginkan (8 persen) memberikan sebuah sinyal—semakin besar perbedaan ini, semakin besar kemungkinan tanaman tersebut memang memiliki kandungan resin lunak yang rendah. Deviasi standar antar bunga membawa kebisingan. Deviasi standar mengukur seberapa tersebarnya data di sekitar mean; nilai yang kecil menunjukkan bahwa data berada di dekat mean, dan nilai yang lebih besar berarti variasi yang lebih luas. Jika kandungan resin lunak biasanya berfluktuasi secara luas di seluruh tunas (dengan kata lain, memiliki standar deviasi yang tinggi), maka mungkin rata-rata 6 persen dalam sampel kita tidak perlu membuat kita khawatir. Namun jika minat cenderung menunjukkan konsistensi (atau standar deviasi yang rendah), maka 6 persen mungkin mewakili deviasi aktual dari 8 persen yang diinginkan.

Untuk menentukan a P nilai di dunia yang ideal, kita akan mulai dengan menghitung rasio signal-to-noise. Semakin tinggi rasio ini, semakin tinggi keyakinan kita terhadap signifikansi temuan kita karena rasio yang tinggi menunjukkan bahwa kita telah menemukan penyimpangan yang sebenarnya. Tapi apa yang dianggap sebagai signal-to-noise yang tinggi? Untuk mempertimbangkan 6 persen berbeda secara signifikan dari 8 persen, kami secara khusus ingin mengetahui kapan rasio signal-to-noise sangat tinggi sehingga hanya memiliki peluang 5 persen untuk terjadi di dunia yang mana kandungan resin 8 persen merupakan hal yang normal. Para ahli statistik di zaman Gosset mengetahui bahwa jika Anda menjalankan beberapa eksperimen, menghitung rasio signal-to-noise di setiap eksperimen, dan membuat grafik hasilnya, plotnya akan menyerupai “distribusi normal standar”—kurva lonceng yang sudah dikenal. Karena distribusi normal telah dipahami dan didokumentasikan dengan baik, Anda dapat melihat dalam tabel seberapa besar rasio yang harus diperlukan untuk mencapai ambang batas 5 persen (atau ambang batas lainnya).

Gosset menyadari bahwa pendekatan ini hanya bekerja dengan ukuran sampel yang besar, sedangkan sampel hop yang kecil tidak akan menjamin distribusi normal. Oleh karena itu, dia dengan hati-hati membuat tabulasi baru untuk ukuran sampel yang lebih kecil. Sekarang dikenal sebagai T-distribusi, plot ini menyerupai distribusi normal karena berbentuk lonceng, tetapi kurva loncengnya tidak turun tajam. Artinya, rasio signal-to-noise yang lebih besar diperlukan untuk menyimpulkan signifikansi. sendiri T-pengujian memungkinkan kita membuat kesimpulan dalam pengaturan yang sebelumnya tidak dapat kita lakukan.

Konsultan matematika John D. Cook merenung di blognya pada tahun 2008 bahwa hal itu mungkin tidak mengejutkan kita T-pengujian berasal dari tempat pembuatan bir versus, katakanlah, kilang anggur. Pembuat bir menuntut konsistensi dalam produknya, sementara pembuat anggur menyukai variasi. Anggur memiliki “tahun-tahun yang baik”, dan setiap botolnya menceritakan sebuah kisah, tetapi Anda ingin setiap minuman Guinness memberikan rasa khas yang sama. Dalam hal ini, keseragaman menginspirasi inovasi.

Gosset memecahkan banyak masalah di tempat pembuatan bir dengan teknik barunya. Seorang ahli statistik otodidak menerbitkannya T-tes dengan nama samaran “Mahasiswa” karena Guinness tidak mau memberi tahu pesaing untuk penelitiannya. Meskipun Gosset memelopori pengendalian kualitas industri dan menyumbangkan banyak ide lain untuk penelitian kuantitatif, sebagian besar buku teks masih menyebut pencapaian besarnya sebagai “The T-tes.” Sejarah mungkin mengabaikan namanya, tapi dia bisa bangga akan hal itu T-tes adalah salah satu alat statistik yang paling banyak digunakan dalam sains hingga saat ini. Mungkin prestasi itu adalah miliknya sendiri Rekor Dunia Guinness (ide yang diimpikan oleh direktur pelaksana Guinness pada tahun 1950-an). Selamat atas hal itu.

Sumber