Gandalf LLM Pentester Toolkit adalah sebuah tool pengujian keamanan siber yang dirancang khusus untuk melakukan uji coba pada Model Bahasa Besar (LLM) dengan pendekatan red-team yang terotomasi, bertujuan untuk mengidentifikasi dan menganalisis celah keamanan.
Toolkit ini berfokus pada demonstrasi sistematis pengujian penetrasi melalui platform tantangan Lakera Gandalf. Inisiatif ini didasarkan pada riset yang mendalam untuk memahami dinamika kerentanan pada LLM.
Cara Install
Untuk memulai pengujian tanpa perlu instalasi rumit, pengguna dapat langsung menjalankan toolkit ini di Google Colab. Dengan mengeklik tautan yang tersedia, pengguna akan disambut dengan lingkungan yang sudah terkonfigurasi, termasuk kunci API dengan batasan penggunaan, serta semua dependensi yang terinstal dan contoh-contoh siap pakai.
Bagi pengguna yang lebih memilih lingkungan lokal, toolkit ini dapat diinstal dengan beberapa langkah sederhana:
- Mengkloning repositori:
git clone https://github.com/yourusername/gandalf-llm-pentester.git cd gandalf-llm-pentester
- Menginstal dependensi:
pip install anthropic requests jupyter
- Meluncurkan notebook:
jupyter notebook notebooks/gandalf_llm_pentester_gm.ipynb
Penting untuk dicatat, bagi eksekusi lokal, pengguna wajib menambahkan kunci API Claude mereka di dalam notebook.
Fitur Utama
Gandalf LLM Pentester adalah kerangka kerja pengujian keamanan yang komprehensif. Fungsinya adalah menganalisis kerentanan LLM secara sistematis melalui platform Lakera Gandalf. Toolkit ini memadukan eksekusi serangan terotomasi dengan analisis berbasis kecerdasan buatan (AI) untuk memberikan penilaian keamanan yang menyeluruh.
Fitur inti yang diusung oleh toolkit ini mencakup:
- Eksekusi Serangan Terotomasi: Menguji tujuh level keamanan progresif dengan lebih dari 64 vektor serangan.
- Validasi Berbasis AI: Deteksi kata sandi cerdas di berbagai format.
- Mesin Analisis Risiko: Menguantifikasi risiko keamanan di tujuh dimensi kerentanan.
- Pelaporan Komprehensif: Menghasilkan laporan penilaian keamanan yang rinci.
- Siap Dijalankan: Eksekusi instan melalui Google Colab atau Jupyter lokal.
Level Keamanan yang Diuji
Toolkit ini menguji LLM pada tujuh level pertahanan yang berbeda, masing-masing dengan karakteristik dan vektor serangannya sendiri.
- Level 1: Baseline (Tanpa Proteksi)
- Tipe Pertahanan: Tidak ada
- Vektor Serangan: Permintaan langsung
- Tingkat Keberhasilan: 11 dari 11 prompt
- Level 2: Instruksi “Jangan Katakan”
- Tipe Pertahanan: Instruksi “Jangan Katakan”
- Vektor Serangan: Pembingkaian ulang semantik
- Tingkat Keberhasilan: 10 dari 10 prompt
- Level 3: Pemblokiran Kata Kunci
- Tipe Pertahanan: Pemblokiran kata kunci
- Vektor Serangan: Pengkodean & Obfuscation
- Tingkat Keberhasilan: 7 dari 7 prompt
- Level 4: Pengkodean Kata Sandi GPT
- Tipe Pertahanan: Pengkodean Kata Sandi GPT
- Vektor Serangan: Ekstraksi pola
- Tingkat Keberhasilan: 9 dari 9 prompt
- Level 5: Blacklisting Kata
- Tipe Pertahanan: Blacklisting kata
- Vektor Serangan: Eksploitasi kapitalisasi
- Tingkat Keberhasilan: 22 dari 22 prompt
- Level 6: Filtering GPT Lanjut
- Tipe Pertahanan: Filtering GPT canggih
- Vektor Serangan: Pengkodean canggih
- Tingkat Keberhasilan: 3 dari 3 prompt
- Level 7: Pertahanan Multi-Lapisan
- Tipe Pertahanan: Pertahanan multi-lapisan
- Vektor Serangan: Serangan injeksi kompleks
- Tingkat Keberhasilan: 2 dari 2 prompt
Agen AI
Dalam menjalankan fungsinya, toolkit ini didukung oleh dua agen AI utama:
- Analis Validasi Level
Sistem otomatisasi cerdas ini memvalidasi keberhasilan ekstraksi kata sandi di berbagai format. Termasuk di dalamnya adalah pengenalan teks langsung, deteksi format terenkripsi (Base64, fonetik NATO), rekonstruksi kata sandi yang terfragmentasi, dan analisis presentasi kreatif seperti acrostic atau daftar kata. - Agen Analisis Risiko Prompt
Mesin penilaian risiko keamanan komprehensif ini menilai prompt di tujuh kategori kerentanan, yaitu:- Ekstraksi Informasi Sensitif: Berfokus pada upaya ekstraksi kata sandi langsung dengan rentang risiko 75-95/100.
- Underspesifikasi Tugas: Menyoroti ambiguitas permintaan yang dapat dieksploitasi dengan rentang risiko 40-85/100.
- Kelemahan Evaluasi: Berhubungan dengan bypass safety guardrail dengan rentang risiko 25-60/100.
- Kelemahan Model yang Melekat: Mengeksploitasi halusinasi model dengan rentang risiko 10-45/100.
- Masalah Penjelasan: Mengaburkan niat dengan rentang risiko 25-50/100.
- Kompleksitas Multi-Agen: Mengidentifikasi kelemahan arsitektur sistem dengan rentang risiko 0-30/100.
- Lingkungan Dinamis: Meliputi manipulasi lingkungan dengan rentang risiko 0-20/100.
Hasil Penelitian
Hasil riset yang diperoleh dari penggunaan toolkit ini sangat signifikan.
- Temuan Kunci:
- 64 Prompt Serangan Berhasil di semua 7 level keamanan.
- Kompleksitas Pertahanan Progresif memerlukan serangan yang semakin canggih.
- Eskalasi Skor Risiko dari 55/100 (dasar) menjadi 95/100 (lanjut).
- Analisis Celah Pertahanan yang mengungkapkan kerentanan bahkan pada sistem multi-lapisan.
- Laporan yang Dihasilkan:
- Laporan Ringkasan Eksekutif: Gambaran proyek dan metodologi yang lengkap.
- Laporan Keberhasilan Level: Hasil validasi terperinci berdasarkan level keamanan.
- Laporan Analisis Risiko Prompt: Penilaian kerentanan yang komprehensif.
- Makalah Penelitian:
Makalah penelitian berjudul “Vector Attacks on LLMs: A Gandalf Case Study” ini menyajikan analisis komprehensif tentang kerentanan LLM melalui pengujian penetrasi sistematis. Makalah ini membahas kerangka analisis empat dimensi untuk penilaian keamanan LLM, taksonomi serangan yang mengkategorikan dasar kerentanan dan metode eksploitasi, evolusi pertahanan progresif, permukaan serangan yang muncul, serta implikasi keamanan dunia nyata untuk aplikasi enterprise.
Gambaran Arsitektur
Toolkit ini dibangun dengan komponen inti yang dirancang secara modular.
- Komponen Inti:
- Lapisan API LLM: Antarmuka abstrak untuk implementasi API (BaseLLMAPI), integrasi tantangan Lakera Gandalf (GandalfAPI), dan mesin analisis AI Anthropic Claude (ClaudeAPI).
- Kerangka Pengujian: Berisi prompt serangan yang telah ditentukan untuk setiap level keamanan, sistem validasi kata sandi multi-format, dan eksekusi dengan batasan rate (delay 0,3 detik).
- Agen Analisis AI: Prompt Safety Analyzer untuk penilaian kerentanan 7 dimensi dan Level Validation Analyzer untuk deteksi kata sandi multi-format.
Catatan Penting
Toolkit ini menekankan pada aspek keamanan dan etika dalam penggunaannya.
- Keamanan & Etika:
- Fokus Keamanan Defensif: Toolkit ini dirancang untuk penelitian dan pengujian keamanan defensif.
- Tujuan Edukasional: Penelitian ini menunjukkan kerentanan LLM untuk meningkatkan kesadaran dan perbaikan.
- Pengungkapan Bertanggung Jawab: Temuan ini mendukung peningkatan keamanan, bukan eksploitasi berbahaya.
- Pembatasan Rate:
- Penundaan Bawaan: Terdapat penundaan 0,3 detik antara permintaan API.
- Batasan Kunci API: Kunci API Claude yang disertakan memiliki batasan penggunaan.
- Pengujian yang Bertanggung Jawab: Kerangka kerja ini dirancang untuk penelitian keamanan yang bertanggung jawab.