Di dunia keamanan siber, ancaman malware tidak hanya semakin canggih tetapi juga semakin sulit dideteksi. Para penyerang terus berinovasi, menciptakan varian malware yang mampu menghindari deteksi antivirus tradisional. Di sisi lain, perusahaan dan peneliti membutuhkan data nyata dalam skala besar untuk melatih model machine learning (ML) agar bisa menghadapi tantangan ini.
Inilah yang melatarbelakangi hadirnya EMBER2024, pembaruan dari dataset malware open-source populer EMBER yang pertama kali dirilis pada 2018.
Dirilis oleh tim peneliti dari berbagai organisasi, termasuk ilmuwan data CrowdStrike, EMBER2024 menghadirkan lebih dari 3,2 juta file dari enam format berbeda, lengkap dengan metadata, label, serta fitur terhitung. Dataset ini bukan sekadar kumpulan file, melainkan sebuah fondasi penting untuk melatih model ML yang lebih tangguh menghadapi malware evasif — malware yang bisa lolos dari radar solusi keamanan konvensional.
Dari EMBER 2018 hingga EMBER2024: Sebuah Evolusi
EMBER pertama kali dirilis pada 2018 sebagai dataset benchmark yang digunakan untuk melatih model ML mendeteksi file Windows Portable Executable (PE) berbahaya. Tujuannya sederhana namun berdampak besar: menghidupkan kembali riset klasifikasi malware, seperti halnya dataset benchmark di bidang computer vision mendorong kemajuan AI untuk pengenalan gambar.
Hasilnya luar biasa. Paper EMBER telah dikutip lebih dari 700 kali oleh peneliti akademis, dan dataset ini digunakan untuk berbagai riset mulai dari mengukur degradasi model seiring waktu hingga menguji serangan dan pertahanan dalam adversarial machine learning. Bahkan, EMBER menjadi landasan bagi proyek-proyek lanjutan seperti EMBERSim, yang membantu pengembangan teknik Binary Code Similarity.
Kini, EMBER2024 melanjutkan tongkat estafet itu dengan peningkatan signifikan: jumlah data lebih besar, variasi file lebih beragam, serta penambahan fitur dan label baru.
Apa yang Baru di EMBER2024?
-
Skala Lebih Besar dan Beragam
EMBER2024 memuat data lebih dari 3,2 juta file, mencakup Win32, Win64, .NET, APK, PDF, hingga ELF. Dataset ini juga dilengkapi tujuh jenis label dan tag untuk mendukung berbagai tugas, termasuk deteksi malware, klasifikasi keluarga malware, dan identifikasi perilaku. -
Challenge Set untuk Malware Evasif
Salah satu inovasi paling menarik adalah adanya challenge set berisi lebih dari 6.300 file yang awalnya lolos dari deteksi semua antivirus di VirusTotal, namun belakangan terbukti berbahaya. Dengan challenge set ini, peneliti bisa menguji apakah model ML mereka mampu mendeteksi malware “paling licin” yang bahkan gagal diantisipasi oleh banyak solusi keamanan komersial. -
Fitur Lebih Modern
EMBER2024 mengganti dependensi lama (LIEF 0.9.0 di Python 3.6) dengan pefile, sebuah library Python yang lebih fleksibel dan tahan lama. Selain itu, fitur baru kini mencakup informasi richheader, authenticode, hingga peringatan dari modul pefile saat membaca format PE. -
Keterbukaan Kode Infrastruktur
Tidak hanya dataset, EMBER2024 juga menyertakan kode untuk membangun dataset itu sendiri: mulai dari pengambilan laporan VirusTotal, labeling, hingga seleksi file. Ini membuka peluang penelitian lanjutan, termasuk studi tentang evolusi malware dari waktu ke waktu.
Contoh Kasus: Dari Lab ke Dunia Nyata
Salah satu klien di sektor perbankan yang menggunakan model ML berbasis dataset EMBER2018 sempat menghadapi kendala: model mereka sulit mengenali malware varian baru yang memanfaatkan file PDF sebagai medium serangan. Dengan EMBER2024 yang kini mencakup format PDF, APK, dan ELF, model yang mereka latih ulang berhasil mendeteksi lebih dari 30% ancaman baru yang sebelumnya lolos dari sistem lama.
Hasil ini menunjukkan bahwa dataset yang lebih modern dan beragam bukan hanya membantu riset akademik, tetapi juga punya dampak nyata dalam melindungi organisasi dari serangan malware evasif.
Mengapa EMBER2024 Penting untuk Masa Depan Keamanan Siber
-
Menghadirkan Realisme: EMBER2018 terlalu “mudah” sehingga model ML bisa mendapat skor nyaris sempurna. EMBER2024 lebih menantang, mendekati kondisi nyata di dunia industri.
-
Mendorong Kolaborasi: Dataset publik di bidang keamanan siber sangat jarang karena isu privasi dan kerahasiaan. EMBER2024 menjadi bukti nyata bagaimana kolaborasi peneliti bisa melahirkan terobosan penting.
-
Memperkuat Generasi Peneliti Baru: Dengan kode terbuka dan dokumentasi lengkap, EMBER2024 adalah alat belajar sempurna bagi mahasiswa dan peneliti muda untuk masuk ke dunia cybersecurity ML tanpa terhalang kendala teknis.
CrowdStrike: Komitmen pada Inovasi dan Kolaborasi
Bagi CrowdStrike, keterlibatan dalam proyek EMBER sejak 2018 hingga kini adalah cermin dari komitmen kami pada riset terbuka. Ketika peneliti dan praktisi keamanan saling berbagi pengetahuan, posisi kita sebagai defender akan semakin kuat.
EMBER2024 bukan hanya dataset — ia adalah simbol kolaborasi industri yang membantu menyeimbangkan medan pertempuran melawan penyerang. Dengan dukungan riset terbuka seperti ini, platform CrowdStrike Falcon® terus menjadi pemimpin dalam menghentikan pelanggaran dan melindungi organisasi di seluruh dunia.
Infrastruktur IT yang kuat adalah kunci produktivitas perusahaan. Dengan crowdstrike indonesia, Anda bisa mendapatkan solusi IT lengkap yang sesuai dengan kebutuhan Anda. iLogo Indonesia sebagai mitra terpercaya siap mengintegrasikan semuanya agar bisnis Anda tetap berjalan lancar dan aman.
Hubungi kami sekarang atau kunjungi crowdstrike.ilogoindonesia.id untuk informasi lebih lanjut!
