Potensi Peran Computational Linguistics berupa “Author Discrimination” dalam Pengembangan Kajian Ilmu Hadits

image credit: https://thecustomizewindows.com/

Potensi Peran Computational Linguistics berupa “Author Discrimination” dalam Pengembangan Kajian Ilmu Hadits

Oleh: Fajri M. Muhammadin

.

Pada tahun 2012, sebuah artikel jurnal berjudul “Author discrimination between the Holy Quran and Prophet’s statements” yang ditulis oleh Prof Halim Sayoud diterbitkan di Jurnal Literary and Linguistic Computing Vol. 27(4) tahun 2012. Artikel luar biasa ini melakukan kajian stylometik terhadap gaya Bahasa dalam Al-Qur’an dan hadits-hadits sahih, lalu membandingkan di antara keduanya (author discrimination).

Hasilnya adalah bahwa gaya Bahasa dalam Al-Qur’an dan hadits-hadits sahih ternyata sangat jauh berbeda, sehingga membuktikan bahwa keduanya tidak diucapkan oleh penutur yang sama. Hal ini menjadi tambahan bukti saintifik bahwa Nabi Muhammad ﷺ tidak mengarang Al-Qur’an, di samping banyak bukti lain yang telah dimiliki oleh umat Islam.

PS: Prof Halim Sayoud sudah meng-update penelitian beliau jadi lebih besar yang beliau publikasikan di website beliau.

Tapi, yang namanya penelitian itu seperti estafet. Seorang peneliti hanyalah membawa lari sebuah baton sekadar sejauh yang ia mampu, dan di ujungnya ia akan mengoper pada seorang peneliti lainnya untuk melanjutkan lari tersebut. Demikianlah hakikat penelitian dari generasi ke generasi lainnya.

Enam tahun kemudian yaitu tahun 2018, saya mencoba mengirimkan email kepada Prof Halim Sayoud yang merupakan pakar Elektronika dan Informatika dari  University Of Science And Technology Houari Boumediene, Aljazair. Saya bertanya pada beliau (modus saya ‘nanya’, maksud hati ‘gimana kalo anda meneliti lagi nanti saya baca lagi’ hehe), apakah mungkin melakukan kajian serupa untuk membandingkan antara Al-Qur’an dan Hadits Qudsi yang sahih? Karena Hadits Qudsi berisi kalam yang secara periwayatan dinisbatkan kepada Allah.

Alhamdulillah, selang dua hari beliau membalas email saya. Kata beliau penelitian tersebut nampaknya mustahil, sebab kajian stylometri memerlukan sampel data yang sangat besar (katanya memerlukan ribuan kata). Padahal, Hadits Qudsi (apalagi yang sahih) sangat sedikit sekali. Agak kecewa, tapi ya mau bagaimana. Setidaknya saya senang sekali beliau sudah sudi menjawab email saya.

Empat tahun kemudian, tahun 2022, tepatnya tanggal 14 Mei. Di tengah jeritan anak yang ngantuk tapi belum berhasil tidur karena sedang berusaha disapih, datanglah sebuah ilham yang tidak ada hubungannya dengan banyak penelitian dan amanah lain yang seharusnya saya pikirkan.

Bagaimana kalau dilakukan kajian perbandingan stylometri antara hadits-hadits shahih dan dan palsu? Sebab, jika ada orang yang memalsukan hadits, pastilah gaya berbahasanya akan berbeda dengan Nabi Muhammad ﷺ. Makanya di antara ciri hadits palsu menurut para ‘ulama adalah matannya berbahasa Arab yang tidak sempurna.

Masalah yang membentur peluang kajian dengan hadits qudsi dulu, insha’Allah kali ini tidak ada. Qadarullah, hadits-hadits palsu sangat melimpah jumlahnya. Bahkan ada kitab hadits yang khusus menghimpun hadits palsu, misalnya Kitab Al-Mawdu’at al-Kubra karya Imam Ibn al-Jawzi. Jadi, sampelnya banyak sekali.

Kalau kajiannya sukses, akan terlihat jelas dengan indikator-indikator yang dapat dipertanggungjawabkan secara ilmiah bahwa ada perbedaan gaya Bahasa antara hadits yang sahih dan palsu. Jika demikian, akan ada beberapa peluang prospek penerapan lebih lanjut lagi untuk penelitian ini, di antaranya:

  1. Ilmu ini bisa memperluas kajian kritik matan hadits atas hadits-hadits dha’if ringan dan berat (selain palsu).
  2. Bisa juga dilakukan kajian perbandingan hadits-hadits sahih dari ahlus sunnah dengn hadits hadits dari syi’ah
  3. Dan lain-lain

Sebagai catatan, pun kajiannya membawa hasil yang positif, tentunya bukan berarti metode ini bisa menjadi instrument tunggal dalam menetapkan status hadits. Semua kajian semodel ini pastilah punya confidence level yang tidak mencapai 100%, sedangkan pilihan-pilihan metodologis mungkin bisa memperkecil tapi tidak menghilangkan peluang kesalahan.

Bagaimanapun juga, metode yang sudah terpercaya dan digunakan oleh para ‘ulama hadits sepanjang zaman pun sulit untuk mencapai level yaqin yang 100% kecuali untuk teks Al-Qur’an dan beberapa hadits yang shahihnya mutawatir (yang jumlahnya sangat sedikit). Yang dapat dilakukan adalah terus mencoba mengurangi peluang kesalahan dengan mengkaji berbagai sudut dan senantiasa memperbaiki metodologi. Barangkali, ilmu computational linguistics bisa menjadi tambahan dalam upaya tersebut.

Walaupun demikian, sependek yang saya terfikir, mungkin akan ada beberapa peluang masalah:

Pertama, ‘ulama seringkali berbeda pendapat dalam menghukumi hadits. Dari sisi hadits shahih, dalam kajian sebelumnya Prof Halim Sayoud menggunakan sampel dari Kitab Shahih al-Jami’ atau lebih dikenal dengan Sahih Al-Bukhari yang cuma sedikit kontroversi atas kualitasnya. Masalahnya nanti adalah dari sisi hadits palsunya, sebab ada juga riwayat yang ulama berbeda menghukumi apakah ia dha’if berat atau palsu (termasuk terhadap isi Kitab Al-Mawdu’at al-Kubra). Konsekuensi hukumnya akan berbeda nantinya. Maka, untuk kajian ini akan memerlukan penetapan metode yang teliti dan dapat dipertanggungjawabkan.

Kedua, sebagian hadits dihukumi palsu belum tentu karena si perawi mengarang matannya. Bisa jadi ia kebetulan sedang meriwayatkan hadits yang sahih tapi terlanjur dikenal sebagai pendusta jadi dianggap palsu juga, atau yang dipalsukan adalah sanadnya saja. Barangkali hal-hal seperti inilah yang diatasi dengan penggunaan sampel yang sangat besar.

Ketiga, tidak adanya penutur tunggal hadits-hadits palsu. Perawi pendusta itu banyak sekali. Kalau kajian Prof Halim Sayoud dulu, yang dibandingkan adalah dua kumpulan sampel yang masing-masingnya berasal dari satu penutur saja. Kalau kajian yang saya usulkan ini, dari sisi hadits shahih jelas penuturnya hanya satu. Sedangkan hadits-hadits palsu, penuturnya banyak sekali. Maka memaksakan kajian ini jangan-jangan akan keliru, sebab akan mengasumsikan satu gaya Bahasa atas beranekaragam penutur yang berbeda. Apakah ada pemilihan metode yang mungkin dapat mengatasi masalah ini?

Sebelum menulis ini, saya baru saja mengirimkan email ke Prof Halim Sayoud untuk ‘bertanya’ (modus) apa pendapat beliau tentang ide ini. Akan saya update tulisan ini ketika (kalau) beliau sudah membalas email saya. UPDATE: beliau sudah membalas email saya! Berikut email beliau, dan akan saya berikan catatan.

——————————————–

Berikut terjemahan bebas email beliau:

Assalam Alaikom Fajri

Maaf atas keterlambatan dalam menjawab…

Pertama, terima kasih banyak atas usulannya. Sangat menarik.

Apapun yang dapat kita lakukan untuk membantu memberi hidayah pada umat manusia adalah suatu kebaikan.

Sudah kita ketahui bahwa analisis stylometrik Al-Quran dan Hadits menunjukkan bahwa kedua buku datang dari dua ‘Penutur’ yang berbeda, maka Al-Qur’an bukanlah rekaan oleh Nabi Muhammad S.A.W. Sebagai temuan saintifik, mungkin bisa menambah bukti otentisitas kitab suci kita.

Terkait idemu, saya fikir bisa diterapkan dalam beberapa keadaan.

Kalau yang ingin kamu lakukan adalah menggunakan stylometry untuk memeriksa sahih-tidaknya sebuah hadits, akan sulit sekali. Misalnya kalau kita mau mencoba menganalisis hadits “صوموا تصحُّوا”, yang hanya terdiri dari dua kata. Dalam kasus ini, hadits berisi dua kata ini tidak memiliki cukup informasi sebagai perbandingan dengan database hadits sahih. Bahkan, analisis stylometrik yang baik akan memerlukan sekitar 2500 kata.

Tapi kalau memeriksa otentisitas dataset kumpulan hadits, seharusnya bisa. Misalnya, kalau kamu punya seratus riwayat yang dihimpun hingga akhirnya berisi sekitar 1000 kata, mungkin bisa dilakukan tes untuk mengkaji apakah dataset tersebut cocok (penuturnya sama dengan yang dibandingkan, yaitu hadits sahih) atau tidak.

Nah dalam konteks tersebut saya mencoba melakukan tes dengan dataset sebesar sekitar 1030 kata per dokumen. Hasilnya menarik, karena dokumen berisi dataset tersebut otomatis diidentifikasi sebagai ‘tidak cocok’ (i.e. tidak berasal dari penutur yang sama dengan dataset hadits sahih).

Saya berharap diskusi ini memenuhi ekspektasimu, dan saya mendoakan kesuksesan untukmu dalam pekerjaanmu.

Hormat saya,

Halim

——————-

Saya sangat berterima kasih karena beliau bukan hanya menjawab pertanyaan saya secara hypothetical, tapi sampai repot-repot mencoba menjalankan eksperimen.

Poin terpenting dari email beliau adalah bahwa tes stylometry cuma bisa dilakukan dengan dataset yang relatif besar, yaitu sekitar 2500 kata (saya yakin kalau makin besar akan makin baik). Sebagaimana yang beliau katakan, ini bisa dilakukan dengan mencampur banyak hadits untuk memenuhi jumlah kata yang besar.

Saya sudah menanyakan pada beliau, apa yang akan terjadi kalau dataset berisi campuran hadits sahih dan palsu (50-50) lalu dibandingkan dengan dataset berisi 100% hadits sahih. Berikut jawaban beliau:

———————————

Berikut terjemahan bebas email beliau:

Dear Fajri

Dalam kasus seperti itu, maka akan ada data yang serupa dan berbeda dengan hadits-hadits sahih, tentunya.

Jujurnya, saya tidak tahu bagaimana nanti hasilnya kalau dilakukan uji stylometri. Tapi mungkin saja hasilnya tidak tegas: sangat cocok ya tidak, tapi sangat tidak cocok ya tidak juga.

Misalnya, ada buku yang ditulis oleh dua penulis X dan Z yang terbagi dalam bab-bab.

Sebagaimana contoh di bawah, jika ada bab yang mengandung tulisan X adan Z sekaligus, mungkin akan dikelompokkan jadi Y yang berada di antara X dan Z:

XX X XXX XX                        Y                     ZZ ZZZ ZZZ

Maksudnya, bab Y diklasifikasi jauh berbeda dari X maupun Z.

Keadaan ini mengelirukan, tapi bisa memberikan tambahan informasi.

Hope I responded to your question…

Halim

—————————

Ini menarik karena mungkin saja hasilnya bukan sekedar COCOK vs TIDAK COCOK, tapi ada abu-abunya kalau memang ada campuran antara palsu dan sahih. Tapi intinya ini salah satu dari sekian banyak yang perlu dipertimbangkan oleh seorang peneliti. Sebagaimana disebutkan sebelumnya, bisa saja ada perawi yang mengambil matan hadits sahih lalu yang dipalsukan adalah sanadnya. Atau, ada kompilasi hadits yang isinya hadits-hadits yang beraneka ragam tingkat kesahihan (dan ketidaksahihan)nya.

Lalu bagaimana kiranya menggunakan teknik ini? Khususnya mempertimbangkan (a) perlunya dataset besar, dan (b) masalah ketiga di atas terkait banyaknya pemalsu hadits yang berbeda dalam satu kompilasi.

Mungkin ada tiga kemungkinan penggunaan, untuk lebih menjelaskan dua manfaat yang sudah sempat saya singgung di atas (yang di atas tidak saya hapus, karena masih relevan. ):

  1. Mengkaji kompilasi hadits dan/atau penilaian ulama atasnya: memang betul bahwa banyak kompilasi hadits (semisal Sunan Tirmidzi dan Sunan Abi Dawud) yang tidak dimaksudkan menjadi kumpulan hadits sahih. Tapi para ‘ulama telah mencoba melakukan takhrij terhadap kompilasi-kompilasi hadits ini dan memberikan penilaian (misalnya, Syaikh Nassirudin Al-Albani). Mungkin bisa dicoba mengumpulkan hadits-hadits dalam kitab-kitab Sunan yang disahihkan oleh Syaikh Albani (atau Syaikh Syu’aib Al-Arnauth atau siapa lah yang lain) dan dibandingkan dengan Sahih Al-Bukhari dengan tes stylometry. Bisa juga dilakukan kajian terhadap kitab-kitab hadits Syi’ah seperti Al-Kafi-nya Al-Kulani (tentu harus disortir yang dinisbatkan kepada Nabi Muhammad ﷺ saja, karena kitab tersebut juga berisi riwayat-riwayat yang kononnya datang dari imam-imam Syiah yang lain).
  2. Mengkaji Perawi-Perawi Tertentu: Mungkin akan bagus untuk memulai dengan mengkaji perawi-perawi pendusta yang merawikan banyak riwayat dusta, misalnya Jabir ibn Yazid Al-Ju’fi atau Abu al-Mufaddal al-Shaybani, keduanya adalah Syiah Rafidah yang memalsukan banyak hadits (terima kasih pada Ustaz Tommi Marsetio dan Ustaz Abdullah Al-Rabbat yang telah mengusulkan kedua nama ini). Riwayat-riwayat mereka bisa dibandingkan dengan hadits-hadits sahih melalui tes stylometri. Kalau hasilnya sukses, mungkin bisa mulai mencoba melakukan kajian serupa terhadap perawi-perawi yang masih 50-50 (dha’if) sebagai pertimbangan tambahan dalam kajian jarh wa ta’dil. Tentunya batasan kajian ini adalah hanya bisa dilakukan terhadap perawi yang banyak meriwayatkan.
  3. Mengkaji Keakuratan Sahabat: kita bisa membandingkan (a) hadits sahih yang diriwayatkan oleh seorang sahabat, dengan (b) kalam-kalam personal sahabat tersebut yang sahih dinisbatkan kepadanya. Ini bisa menjadi pertimbangan tambahan dalam memeriksa sejauh mana para sahabat melakukan parafrase dalam meriwayatkan hadits. Sebab, ada banyak hadits dengan redaksi sama persis yang diriwayatkan oleh banyak sahabat sekaligus, tapi ada juga hadits yang redaksinya beda dengan makna yang sama diriwayatkan oleh sahabat yang berbeda.

Sayang sekali ini bidang ini bukan kepakaran saya, jadi saya tidak mampu melakukan kajian ini sendiri. Insha’Allah saya sedang melakukan kajian-kajian lain terkait Islam yang beririsan dengan bidang saya, tapi untuk ide penelitian yang saya tulis ini saya tidak bisa. Mudah-mudahan Prof Halim berhasil ter-moduskan dengan baik, tapi kalaupun tidak mudah-mudahan setidaknya beliau bisa memberikan masukan terkait ide tersebut.

Saya berdoa mudah-mudahan pakar ilmu computational linguistics Muslim Indonesia bisa bekerjasama dengan pakar-pakar ilmu hadits menyambut ide penelitian ini dan dieksekusi dengan baik.

.