Perjalanan CrowdStrike Mengoptimalkan Model NVIDIA Nemotron untuk Akurasi dan Performa Maksimal

Tim keamanan modern membutuhkan AI yang bukan sekadar pintar, tetapi benar-benar memahami konteks operasional keamanan. Model AI harus mampu menalar jutaan telemetry, memahami pola serangan kompleks, dan bahkan mendukung aksi otonom di Security Operations Center (SOC). Inilah tantangan nyata yang kami hadapi di CrowdStrike, dan alasan mengapa kami bekerja sangat dekat dengan NVIDIA untuk mengoptimalkan model open NVIDIA Nemotron agar siap digunakan dalam skenario keamanan dunia nyata.

Kolaborasi ini dibangun di atas integrasi Nemotron yang sudah kami operasionalkan di CrowdStrike Falcon® melalui Amazon Bedrock. Tujuannya jelas: menguji, menyesuaikan, dan menyempurnakan large language model (LLM) agar benar-benar akurat, andal, aman, dan siap produksi untuk beban kerja SOC.

Salah satu hasil paling nyata dari upaya ini adalah pengembangan model natural language ke CrowdStrike Query Language (CQL). CQL adalah bahasa yang digunakan analis kami untuk mencari, menyaring, dan menganalisis data keamanan di Falcon. Dengan memanfaatkan jutaan query nyata yang ditulis analis setiap tahun, dikombinasikan dengan synthetic data dari NVIDIA NeMo Data Designer dan fine-tuning terarah pada Llama Nemotron Super 49B, kami berhasil melampaui performa model frontier tertutup.

Ini adalah bukti bahwa adaptasi berbasis domain dapat menghasilkan lompatan besar dalam akurasi, reliabilitas, dan interpretabilitas AI keamanan.

Data Nyata sebagai Fondasi Keunggulan

Keunggulan utama CrowdStrike terletak pada data. Analis kami menulis jutaan query CQL setiap tahun saat melakukan threat hunting dan investigasi. Namun, data mentah ini memiliki tantangan besar.

Pertama, query tersebut tidak disertai deskripsi bahasa alami. Untuk melatih model yang menerjemahkan pertanyaan manusia ke CQL, kami membutuhkan pasangan “apa yang ingin dicari” dan “query CQL yang tepat”.

Kedua, banyak query secara logika identik, hanya berbeda urutan atau parameter. Melatih model dengan data duplikat semacam ini tidak efisien dan berisiko membuat model bias pada pola yang terlalu sempit.

Untuk mengatasinya, kami membangun sistem deduplikasi berbasis Abstract Syntax Tree (AST). Alih-alih membandingkan teks mentah, pendekatan ini memahami struktur logis query. Query yang secara fungsi sama, meskipun tampil berbeda, diperlakukan sebagai satu pola unik. Hasilnya adalah dataset yang lebih ringkas, beragam, dan jauh lebih representatif terhadap kemampuan CQL secara menyeluruh.

Privasi Bukan Kompromi

Karena query internal dapat mengandung IP address, hostname, dan detail sensitif lain, kami mengembangkan pipeline khusus untuk PII scrubbing. Data sensitif digantikan dengan nilai palsu yang realistis tanpa merusak struktur query.

Pendekatan ini mencapai F1 score 99,35%, melampaui solusi pihak ketiga. Artinya, kami dapat menjaga privasi tanpa mengorbankan kualitas data pelatihan.

Synthetic Data yang Relevan, Bukan Asal Banyak

Setelah deduplikasi dan pembersihan data, tantangan awal kembali muncul: kami punya query, tetapi belum punya pertanyaan bahasa alami yang menjelaskan maksudnya.

Alih-alih anotasi manual yang mahal dan lambat, kami memanfaatkan NVIDIA NeMo Data Designer untuk menghasilkan synthetic natural language descriptions. Setiap query CQL dipasangkan dengan pertanyaan bahasa alami yang dihasilkan oleh dua LLM berbeda, lalu dievaluasi ulang oleh model “co-teacher” untuk memastikan akurasi dan kejelasan.

Kami juga mensimulasikan berbagai persona analis—dari SOC analyst hingga DevOps—dan berbagai tingkat kompleksitas. Hasilnya adalah ribuan pasangan data berkualitas tinggi yang mencerminkan cara manusia sungguhan bertanya, bukan sekadar deskripsi teknis kaku.

Fine-Tuning yang Tepat Sasaran

Dengan data siap, kami melakukan fine-tuning pada Llama-3.3-Nemotron-Super-49B-v1.5 menggunakan LoRA. Pendekatan ini memungkinkan spesialisasi mendalam pada CQL tanpa biaya pelatihan yang berlebihan.

Model dilatih untuk menuliskan langkah penalaran sebelum menghasilkan query final. Strategi ini meningkatkan interpretabilitas dan membantu model menangani pertanyaan baru yang kompleks.

Evaluasi dilakukan secara ketat, mencakup validasi sintaks (apakah query bisa dieksekusi) dan evaluasi semantik (apakah maksud pertanyaan benar-benar terwakili). Hasilnya berbicara sendiri: model kami mencapai 96% akurasi query valid, mengungguli GPT-4o dan Claude Sonnet dalam tugas spesifik ini.

Melangkah ke Masa Depan dengan Nemotron 3

Keberhasilan ini bukan akhir, melainkan fondasi. Kami kini mulai mengevaluasi keluarga NVIDIA Nemotron 3, yang menawarkan pendekatan bertingkat: Nano, Super, dan Ultra.

Model kecil seperti Nemotron 3 Nano sangat penting untuk kebutuhan inferensi masif dengan latensi rendah. Model Super kami nilai untuk kolaborasi multi-agent dalam investigasi kompleks. Sementara Nemotron 3 Ultra membuka peluang penalaran mendalam untuk threat modeling tingkat lanjut.

Pendekatan “model yang tepat untuk pekerjaan yang tepat” memungkinkan kami menyeimbangkan akurasi, kecepatan, dan biaya secara optimal.

Kami juga mengeksplorasi model safety khusus untuk AI Detection and Response, memastikan AI tidak hanya cerdas, tetapi juga aman dan dapat dipercaya.

Penutup

Pengalaman ini menegaskan satu hal: AI terbaik untuk keamanan bukanlah yang paling besar atau paling populer, melainkan yang paling memahami domain. Dengan Nemotron, NeMo Data Designer, dan keahlian keamanan CrowdStrike, kami berhasil mengubah foundation model menjadi komponen tepercaya dalam workflow SOC modern.

Hasilnya adalah SOC yang lebih cepat, lebih akurat, dan lebih siap menghadapi ancaman—tanpa menambah beban analis. Inilah masa depan keamanan berbasis AI yang kami bangun, bersama NVIDIA.

Amankan Cloud Bisnis Anda dengan Teknologi Keamanan Terdepan

Ancaman siber terus berkembang—dan infrastruktur cloud Anda membutuhkan perlindungan yang tidak kalah canggih. Tim CrowdStrike Indonesia, bersama mitra resmi PT. iLogo Infralogy Indonesia, siap menjadi garda terdepan dalam membantu Anda menghadapi tantangan keamanan siber, khususnya dalam melindungi lingkungan cloud bisnis Anda.

Didukung teknologi berbasis kecerdasan buatan (AI) yang telah terbukti secara global, kami membantu mengevaluasi postur keamanan Anda secara menyeluruh dan merekomendasikan solusi yang tepat, sesuai dengan kebutuhan spesifik perusahaan Anda.

Kami juga menyediakan sesi demo langsung, sehingga Anda dapat melihat secara nyata bagaimana teknologi CrowdStrike bekerja dalam mendeteksi, mencegah, dan merespons ancaman siber secara real-time.