Hugging Face baru-baru ini meluncurkan support untuk EmbeddingGemma, sebuah keluarga model bahasa (LLM) sumber terbuka dari Google yang dirancang untuk memberikan kinerja yang kompetitif dengan model yang lebih besar, namun dengan ukuran yang lebih ringkas dan efisiensi yang lebih tinggi.
Seperti kita tahu, Google telah merilis EmbeddingGemma kemarin, sebuah model embedding multibahasa canggih yang dioptimalkan untuk perangkat lokal. Model ini dirancang agar cepat dan efisien, dengan ukuran yang ringkas yaitu 308 juta parameter dan jendela konteks 2K token, sehingga ideal untuk kasus penggunaan on-device seperti pipeline RAG seluler dan agen AI. EmbeddingGemma dilatih untuk mendukung lebih dari 100 bahasa dan menempati peringkat tertinggi untuk model embedding teks-saja multibahasa dengan ukuran di bawah 500 juta parameter pada Massive Text Embedding Benchmark (MTEB).
Fitur dan Arsitektur
EmbeddingGemma didasarkan pada arsitektur transformator Gemma 3, tetapi diubah menjadi arsitektur encoder dua arah, yang lebih unggul dalam tugas embedding. Model ini menggunakan lapisan mean pooling untuk mengubah token embedding menjadi text embedding 768 dimensi. Fitur uniknya adalah penggunaan Matryoshka Representation Learning (MRL), yang memungkinkan vektor 768 dimensi dipangkas menjadi 512, 256, atau 128 dimensi tanpa kehilangan kualitas yang signifikan. Ini menghasilkan pemrosesan yang lebih cepat dan penggunaan memori yang lebih rendah. Model ini juga menggunakan Quantization-Aware Training (QAT) untuk mengurangi penggunaan RAM hingga di bawah 200MB, menjadikannya sangat efisien untuk perangkat dengan sumber daya terbatas seperti ponsel dan laptop.
Model ini dilatih dengan korpus multibahasa berukuran sekitar 320 miliar token, yang mencakup data dari web publik, kode, dokumentasi teknis, dan contoh-contoh sintetik. Data ini disaring untuk memastikan kualitas dan keamanan.
Meskipun ukurannya kecil, EmbeddingGemma menunjukkan performa yang sangat baik pada tolok ukur MMTEB dan MTEB, mengungguli model sejenis yang ukurannya bahkan dua kali lipat lebih besar dalam beberapa tugas. Model ini juga dapat disesuaikan (di-finetune) untuk domain tertentu. Sebagai contoh, saat disesuaikan untuk domain medis, model ini mengungguli model yang jauh lebih besar dalam tugas pengambilan teks dari makalah medis.
Lebih lanjut silakan baca versi lengkap dari blog huggingface berikut: https://huggingface.co/blog/embeddinggemma
