Connect with us

Riset

Mengintip Bagaimana Mendeteksi Berita Faktual dan Palsu

Published

on

KEPRIHATINAN mengenai dampak berita palsu (hoax, fake-news), bukan hanya ada di Indonesia, tetapi juga masyarakat internasional. Itulah kemudian, para peneliti di Massachusetts Institute of Technology (MIT) meriset tema berita faktual dan palsu.

Sebuah riset yang dilakukan para peneliti MIT mencoba untuk mengintip  sistem pendeteksi berita palsu secara otomatis. Penelitian ini mencoba untuk mengungkap bagaimana model pembelajaran mesin detektor menangkap perbedaan yang halus namun konsisten dalam bahasa berita yang  faktual dan palsu. Penelitian ini juga menggarisbawahi bagaimana detektor berita palsu, harus menjalani pengujian yang lebih keras agar efektif untuk aplikasi dunia nyata.

Konsep berita palsu ini  populer di Amerika Serikat selama pemilihan presiden 2016. Berita  palsu adalah bentuk propaganda yang dibuat untuk menyesatkan pembaca, untuk menghasilkan pandangan di situs web atau mengarahkan opini publik.

Mengikuti cepatnya masalah  berita palsu, para peneliti kemudian mulai mengembangkan detektor berita palsu otomatis – yang disebut jaringan saraf (neural networks) yang “belajar” dari sejumlah data untuk mengenali isyarat linguistik yang mengindikasikan artikel palsu. Dia dapat mengingat artikel baru untuk dinilai, dengan akurasi yang cukup tinggi, memisahkan fakta dari fiksi, dalam pengaturan yang terkontrol.

Namun, satu masalah adalah masalah “kotak hitam” – artinya tidak ada yang tahu pola linguistik apa yang dianalisis jaringan selama pelatihan. Mereka juga dilatih dan diuji pada topik yang sama, yang mungkin membatasi potensi mereka untuk menggeneralisasi ke topik baru, suatu keharusan untuk menganalisis berita di internet.

Dalam sebuah makalah yang dipresentasikan pada Konferensi dan Lokakarya tentang Sistem Pemrosesan Informasi Saraf Tiruan, para peneliti menangani kedua masalah tersebut. Mereka mengembangkan model pembelajaran mendalam yang belajar mendeteksi pola bahasa dari berita palsu dan nyata. Bagian dari pekerjaan mereka “membuka” kotak hitam untuk menemukan kata-kata dan frasa yang ditangkap model untuk membuat prediksi.

Selain itu, mereka menguji model mereka pada topik novel yang tidak dilihatnya dalam pelatihan. Pendekatan ini mengklasifikasikan artikel individu hanya berdasarkan pola bahasa, yang lebih dekat mewakili aplikasi dunia nyata untuk pembaca berita. Detektor berita palsu tradisional mengklasifikasikan artikel berdasarkan teks yang dikombinasikan dengan informasi sumber, seperti halaman Wikipedia atau situs web.

“Dalam kasus kami, kami ingin memahami apa proses keputusan pengklasifikasi hanya berdasarkan bahasa, karena ini dapat memberikan wawasan tentang apa yang merupakan bahasa berita palsu,” kata  Xavier Boix, seorang peneliti postdoc di laboratorium  Eugene McDermott Profesor Tomaso Poggio di Center for Brains, Minds, and Machines (CBMM) di  Department of Brain and Cognitive Sciences (BCS).

“Masalah utama dengan pembelajaran mesin dan kecerdasan buatan adalah, bahwa Anda mendapatkan jawaban dan tidak tahu mengapa Anda mendapatkan jawaban itu,” kata Nicole O’Brien, mahasiswa pascasarjana dan penulis pertama untuk riset ini.

“Menampilkan pekerjaan dalam hal ini mengambil langkah pertama untuk memahami keandalan pendeteksi berita palsu yang mendalam.”

Model mengidentifikasi serangkaian kata-kata yang cenderung lebih sering muncul baik dalam berita nyata atau palsu – beberapa mungkin jelas, yang lain jauh lebih jarang. Temuan itu, kata para peneliti, menunjuk pada perbedaan halus namun konsisten dalam berita palsu – yang lebih disukai berlebihan dan superlatif – dan berita nyata, yang lebih condong ke pilihan kata konservatif.

“Berita palsu adalah ancaman bagi demokrasi,” kata Boix.

“Di lab kami, tujuan kami bukan hanya untuk mendorong ilmu pengetahuan maju, tetapi juga menggunakan teknologi untuk membantu masyarakat. … Akan sangat kuat untuk memiliki alat untuk pengguna atau perusahaan yang dapat memberikan penilaian apakah berita itu palsu atau tidak. “

 

Membatasi bias

Model para peneliti adalah jaringan saraf convolutional yang melatih pada dataset berita palsu dan berita nyata. Untuk pelatihan dan pengujian, para peneliti menggunakan dataset penelitian berita palsu yang populer, yang disebut Kaggle, yang berisi sekitar 12.000 artikel sampel berita palsu dari 244 situs web yang berbeda. Mereka juga menyusun setumpuk sampel berita nyata, menggunakan lebih dari 2.000 dari New York Times dan lebih dari 9.000 dari The Guardian.

Dalam pelatihan, model menangkap bahasa artikel sebagai “embeddings kata,” di mana kata-kata diwakili sebagai vektor – pada dasarnya, array angka – dengan kata-kata yang memiliki makna semantik serupa yang saling berdekatan.

Dengan demikian, ia menangkap kembar tiga kata sebagai pola yang menyediakan beberapa konteks – seperti, katakanlah, komentar negatif tentang partai politik. Diberikan artikel baru, model memindai teks untuk pola yang sama dan mengirimkannya ke serangkaian lapisan. Lapisan keluaran akhir menentukan probabilitas setiap pola: nyata atau palsu.

Para peneliti pertama kali melatih dan menguji model dengan cara tradisional, menggunakan topik yang sama. Tetapi mereka berpikir ini mungkin membuat bias yang melekat dalam model, karena topik tertentu lebih sering menjadi subjek berita palsu atau nyata. Misalnya, berita palsu biasanya lebih cenderung memasukkan kata-kata “Trump” dan “Clinton.”

“Tapi bukan itu yang kita inginkan,” kata O’Brien. “Itu hanya menunjukkan topik yang sangat membebani berita palsu dan nyata. … Kami ingin menemukan pola aktual dalam bahasa yang menunjukkan itu. ”

Selanjutnya, para peneliti melatih model pada semua topik tanpa menyebutkan kata “Trump,” dan menguji model hanya pada sampel yang telah disisihkan dari data pelatihan dan yang memang mengandung kata “Trump.”

Sementara pendekatan tradisional mencapai akurasi 93 persen, pendekatan kedua mencapai akurasi 87 persen. Kesenjangan akurasi ini, kata para peneliti, menyoroti pentingnya menggunakan topik yang diadakan dari proses pelatihan, untuk memastikan model dapat menggeneralisasi apa yang telah dipelajari ke topik baru.

 

Dibutuhkan lebih banyak penelitian

Untuk membuka kotak hitam, para peneliti kemudian menelusuri kembali langkah mereka. Setiap kali model membuat prediksi tentang kata triplet, bagian tertentu dari model diaktifkan, tergantung pada apakah triplet lebih mungkin dari cerita berita nyata atau palsu. Para peneliti merancang metode untuk melacak kembali setiap prediksi kembali ke bagian yang ditentukan dan kemudian menemukan kata-kata yang tepat yang membuatnya diaktifkan.

Dibutuhkan lebih banyak penelitian untuk menentukan seberapa berguna informasi ini bagi pembaca, kata Boix. Di masa depan, model ini berpotensi digabungkan dengan, katakanlah, pemeriksa fakta otomatis dan alat-alat lain untuk memberi pembaca keunggulan dalam memerangi informasi yang salah. Setelah beberapa perbaikan, model juga bisa menjadi dasar dari ekstensi browser atau aplikasi yang mengingatkan pembaca ke bahasa berita potensial palsu.

“Jika saya hanya memberi Anda artikel, dan menyoroti pola-pola dalam artikel saat Anda membaca, Anda dapat menilai apakah artikel tersebut lebih atau kurang palsu,” katanya. “Akan seperti peringatan untuk mengatakan, ‘Hei, mungkin ada sesuatu yang aneh di sini.'”***

Continue Reading
Advertisement
Click to comment

Leave a Reply

Your email address will not be published. Required fields are marked *