Manipulasi statistik, mengapa banyak temuan penelitian tak dapat dipercaya

feature-image

Play all audios:

Loading...

Di luar masalah anggaran, dampak riset yang belum signifikan, dan buruknya pengelolaan data riset di Indonesia, keengganan peneliti menyediakan akses terbuka pada data dan material studinya


juga membuat sains jalan di tempat. Manipulasi metode statistik juga dapat menghasilkan temuan riset yang tidak kredibel. Manipulasi ini dapat disebabkan kecurangan peneliti atau adanya


konflik kepentingan periset dengan sumber dana dari industri yang hanya mau dengan hasil positif untuk mendukung pemasaran produk. Kegelisahan ini dirasakan oleh beberapa peneliti yang


tergabung dalam gerakan sosial #OpenScience (Sains Terbuka). Saya mengurai masalah tersebut dengan argumentasi yang terinsipirasi dari artikel legendaris yang ditulis oleh Profesor


Biostatistik dari Stanford University John Ioannidis, “Why Most Research Findings are False.” KRISIS KREDIBILITAS SAINS Keengganan mengungkap prosedur penelitian menyebabkan krisis


kredibilitas dalam sains. Contohnya, pada 2011, Daryl Bem, ahli parapsikologi dari Cornell University menerbitkan temuan penelitiannya yang sangat bombastis mengenai fenomena cenayang


(_precognition_) di jurnal amat bergengsi, _Journal of Personality and Social Psychology_, terbitan American Psychological Association (APA). Bem melakukan 9 eksperimen, 8 diantaranya


signifikan (nilai p<0.05) membuktikan bahwa manusia punya kemampuan memprediksi masa depan. Peneliti lain yang penasaran mencoba melakukan replikasi atas penelitian Bem gagal mendapatkan


hasil yang signifikan, tak seperti yang diklaim Bem, meskipun sudah mengikuti secara teliti prosedur yang Bem tulis dalam artikelnya. Entah apa yang Bem lakukan sampai mendapatkan hasil yang


mencengangkan tersebut. Kasus lainnya terkait dengan riset obat-obatan. Penelitian meta-analisis mengenai efektivitas obat Anti-Depresan bernama Fluoxetine (Prozac) menghasilkan kesimpulan


bahwa efek Prozac cenderung plasebo, sehingga tak ada manfaatnya sama sekali. Padahal obat tersebut sangat laris–pada 2005 saja total penjualan Prozac mencapai US$22 miliar di seluruh dunia.


Sementara, penelitian meta-analisis yang sedang saya lakukan mengenai dukungan sosial dan kecenderungan depresi sampai sampai pada kesimpulan bahwa tidak adanya bukti yang meyakinkan bahwa


keduanya berkaitan. Saya menganalisis 5450 naskah publikasi yang diterbitkan dalam kurun waktu 20 tahun terakhir (1998-2018) yang ditulis dalam bahasa Indonesia. Namun hanya 13 artikel yang


dapat dianalisis lebih lanjut. Ketiga belas artikel tersebut juga dianalisis kualitasnya dan sayangnya, semuanya rata-rata bermutu rendah. NILAI P DAN ‘ANGKA KERAMAT 0.05’ Bagi peneliti yang


menggunakan pendekatan kuantitatif, pemakaian teknik statistik untuk menguji hipotesis adalah keniscayaan. Hipotesis penelitian, yaitu suatu asumsi yang menjelaskan sebuah fenomena, umumnya


terdiri atas hipotesis nol (tidak ada efek) dan hipotesis alternatif (ada efek). Paradigma ini berakar dari tradisi post-positivisme Popperian, di mana penelitian merupakan upaya untuk


melakukan falsifikasi, membuktikan bahwa hipotesis nol salah. Biasanya, peneliti menggunakan nilai p (_p-value_) atau taraf signifikansi sebagai indikator untuk menolak atau menerima


hipotesis. Lazim dipercayai, ketika nilai p<0.05 maka hipotesis nol ditolak, sedangkan nilai p>0.05 maka hipotesis nol diterima, sehingga nilai p<0.05 menjadi semacam ‘angka


keramat’ yang menentukan kesuksesan atau kegagalan penelitian. Kalau hasilnya signifikan, maka penelitian dianggap ‘berhasil’ menemukan efek yang signifikan, sedangkan sebaliknya, bila nilai


p>0.05 berarti kiamat bagi peneliti. Tidak banyak jurnal yang mau menerbitkan hasil penelitian dengan kesimpulan, “tidak ada efek yang signifikan.” Tak ada dosen pembimbing tugas akhir


yang _sumringah_ mendapati mahasiswa bimbingannya mendapat nilai p>0.05. Implikasinya, peneliti terdorong untuk melakukan cara-cara tak terpuji, misalnya sengaja menggunakan jumlah sampel


yang besar agar mendapatkan nilai p<0.05. Inilah penyakit yang bertahun-tahun mencekik kredibilitas sains. Pada Maret 2016, American Statistical Association (ASA) mengeluarkan pernyataan


pers yang menggegerkan komunitas sains soal nilai p. Ron Wasserstein, Direktur Eksekutif ASA, menyatakan nilai p tidak boleh lagi diperlakukan layaknya ‘angka keramat,’ lebih-lebih sampai


menumpulkan logika dan rasionalitas para peneliti. Nilai p sesungguhnya tidak ada kaitannya dengan diterima atau ditolaknya hipotesis, ia hanya berarti “… Probabilitas peneliti lain akan


mendapatkan data yang ekstrem, seandainya hipotesis nol adalah hipotesis yang benar”. Menggunakan nilai p untuk menolak dan menerima hipotesis sangat bermasalah dalam tataran praktis dan


teoritis. Peneliti seharusnya lebih fokus pada besarnya efek. Misalnya, ketika seorang dokter yang ingin meneliti efektivitas obat tertentu dalam menyembuhkan penyakit, maka kesimpulan yang


diinginkan adalah bukan apakah obat ini signifikan atau tidak, melainkan efektif atau tidak. Kalau efektif, seberapa besar efektivitasnya. Nilai p tidak menyediakan informasi apa pun soal


efektivitas, sehingga peneliti perlu parameter lain yang disebut ukuran efek (_effect size_). Nilai p sangat sensitif dengan jumlah sampel. Meski ukuran efek sangat kecil, nilai p bisa


menjadi sangat signifikan bila jumlah sampel besar. Sebaliknya, meski ukuran efek sangat besar, nilai p menjadi tidak signifikan jika jumlah sampel sangat kecil. Akhirnya, efek sekecil apa


pun dapat menjadi signifikan bila jumlah sampel sangat besar, sedangkan efek sebesar apa pun menjadi tidak signifikan jika jumlah sampel sangat kecil. Dengan begitu, peneliti dapat dengan


sengaja menambah jumlah sampel secara terus-menerus hanya agar mendapat nilai p<0.05 (_p-hacking_). Padahal strategi ini memperbesar kemungkinan peneliti mendapatkan _false positive_,


yaitu ketika peneliti menyimpulkan ada efek, padahal efek tersebut tak pernah ada. Peneliti juga tak pernah peduli dengan _statistical power_ teknik analisis statistiknya. Padahal dalam


statistik, _statistical power_ yang menentukan apakah temuannya akurat atau tidak, bukan nilai p. Bila suatu teknik (model) statistik _powerful_, maka peneliti punya peluang yang besar untuk


mendeteksi adanya efek, kalau efek itu betul-betul ada. Analisis _power_ juga dapat membantu peneliti untuk merencanakan jumlah sampelnya agar jumlah sampel tak terlalu kecil, atau terlalu


besar. Menariknya, John Ioannidis menunjukkan bahwa sebagian besar penelitian yang terpublikasi punya _statistical power_ yang cenderung rendah. Penelitian-penelitian di bidang psikologi


misalnya, diperkirakan rata-rata hanya punya _power_ sebesar 50%, yang artinya peneliti hanya punya 50% peluang untuk mendeteksi adanya efek, kalau efek tersebut betul-betul ada. Kelirunya


penggunaan nilai p membuat sebagian besar hasil penelitian yang dipublikasikan di berbagai jurnal, termasuk jurnal dengan faktor dampak yang tinggi, sekadar menjadi bukti parahnya bias


kognitif yang menjangkit para peneliti. Sekaligus menjadi penguat bahwa ada krisis kredibilitas yang amat serius yang harus segera diatasi oleh komunitas akademik. TRANSPARANSI DAN KONFLIK


KEPENTINGAN Nilai informasi dari penelitian hanya dapat dipastikan melalui proses replikasi. Ketika peneliti lain tak mendapatkan hasil yang konsisten, maka klaim sebelumnya tentu meragukan.


Desain penelitian seperti telaah sistematis (_systematic review_) dan meta-analisis juga dapat digunakan untuk memastikan apakah temuan berbagai penelitian atas suatu gejala konsisten dan


dapat dipercaya. Kenyataannya, berbagai penelitian meta-analisis memberikan bukti bahwa kebanyakan penelitian memberikan informasi yang menyesatkan. John Ioannidis mengatakan semakin suatu


disiplin ilmu dianggap seksi dan dekat dengan kepentingan industri, maka kemungkinan besar mayoritas studi yang dilakukan dalam disiplin ilmu tersebut adalah _false positive_. Contohnya, tak


sulit kita menemukan penelitian yang mengaitkan kemungkinan akan semakin maraknya peredaran rokok ilegal bila cukai tembakau dinaikkan drastis. Penelitian ini sering digunakan oleh industri


rokok sebagai dasar argumentasi mereka untuk menolak kebijakan kenaikan cukai. Setelah dilakukan penelitian telaah sistematis, hasil riset mereka cenderung membesar-besarkan skala pasar


rokok ilegal. Seolah-olah besar, padahal kenyataannya kecil sekali. Diduga temuan penelitian anti-kenaikan cukai rokok ini sangat didikte oleh kepentingan industri rokok, karena mereka yang


mensponsori penelitian-penelitian tersebut. Padahal sejumlah riset telah membuktikan menaikkan cukai rokok adalah salah satu instrumen untuk menurunkan prevalensi konsumsi rokok. LALU


BAGAIMANA? Sains saat ini stagnan, karena peneliti menolak untuk terbuka. Sayangnya, Kementerian Riset, Teknologi dan Pendidikan Tinggi terlalu memfokuskan kebijakannya untuk menggenjot


kuantitas publikasi ilmiah, tapi menutup mata atas gejala degradasi kualitas penelitian dan integritas penelitinya. Meski jumlah publikasi ilmiah peneliti Indonesia diklaim menyalip


Singapura, nyatanya artikel ilmiah peneliti Indonesia lebih banyak diterbitkan di prosiding, yaitu kumpulan naskah ilmiah yang dipresentasikan dalam suatu konferensi atau temu ilmiah, yang


proses telaahnya umumnya dilakukan secara asal-asalan. Untuk mengembalikan kredibilitas sains, maka peneliti harus terbuka–mulai dari asumsi awal, prosedur pengambilan dan analisis data,


data mentah, sampai pada kemungkinan adanya konflik kepentingan. Hal ini dapat dilakukan salah satunya dengan pre-registrasi. Sejatinya, saat ini sudah banyak portal daring yang dapat


dimanfaatkan peneliti sebagai etalase pre-registrasi, data mentah dan material studinya, seperti Open Science Framework. Maka agar kerja sains menjadi progresif dan bermakna, tak ada jalan


keluar lain–peneliti harus terbuka, atau tertinggal. Tak salah bila ada yang menganalogikan, “Politikus boleh saja berbohong, karena ia harus selalu benar. Peneliti boleh saja salah, tapi ia


tak boleh berbohong.” Saya setuju bahwa kualitas suatu penelitian terletak pada integritas dan standar moral penelitinya.