Pada tanggal 25 Agustus 2025, komunitas penelitian AI menyambut peluncuran InternVL 3.5, sebuah keluarga model multimodal sumber terbuka yang inovatif dan mendorong batas-batas dalam hal fleksibilitas, kemampuan penalaran, dan efisiensi.
Membangun kesuksesan pendahulunya, InternVL 3, iterasi baru ini memperkenalkan teknik-teknik canggih dan mencapai peningkatan performa yang luar biasa, menjadikannya pemimpin di antara model bahasa besar multimodal sumber terbuka (MLLM). Berikut adalah ulasan mendalam tentang apa yang membuat InternVL 3.5 begitu istimewa.
Fitur Utama di Model AI InternVL 3.5
1. Cascade Reinforcement Learning (Cascade RL)
InternVL 3.5 memperkenalkan kerangka kerja Cascade Reinforcement Learning (Cascade RL), sebuah proses pelatihan dua tahap yang dirancang untuk meningkatkan kemampuan penalaran:
- Offline RL: Memastikan konvergensi yang stabil selama pelatihan.
- Online RL: Menyempurnakan penyelarasan untuk performa optimal.
Strategi pelatihan dari kasar ke halus ini secara signifikan meningkatkan performa pada tugas-tugas penalaran kompleks, seperti MMMU dan MathVista, dengan peningkatan hingga 16,0% dalam performa penalaran secara keseluruhan dibandingkan dengan InternVL 3.
2. Visual Resolution Router (ViR)
Untuk mengoptimalkan efisiensi komputasi, InternVL 3.5 menghadirkan Visual Resolution Router (ViR). Mekanisme inovatif ini secara dinamis menyesuaikan resolusi token visual tanpa mengorbankan performa. Dengan mengelola sumber daya secara cerdas, ViR memastikan model tetap efisien tanpa mengurangi akurasi.
3. Decoupled Vision-Language Deployment (DvD)
Bersamaan dengan ViR, strategi Decoupled Vision-Language Deployment (DvD) membawa efisiensi ke tingkat berikutnya. Dengan memisahkan encoder visi dan model bahasa ke GPU yang berbeda, DvD menyeimbangkan beban komputasi, menghasilkan peningkatan kecepatan inferensi hingga 4,05 kali dibandingkan pendahulunya. Ini menjadikan InternVL 3.5 tidak hanya kuat tetapi juga praktis untuk implementasi dunia nyata.
Performa dan Kemampuan Tak Tertandingi
Model terbesar InternVL 3.5, yaitu InternVL3.5-241B-A28B, mencapai hasil terbaik di antara MLLM sumber terbuka dalam berbagai tugas, termasuk:
- Tugas Multimodal Umum: Menangani teks, gambar, dan lainnya dengan mulus.
- Tugas Penalaran: Unggul dalam benchmark seperti MMMU dan MathVista.
- Tugas Berbasis Teks: Memberikan performa kuat dalam pemrosesan bahasa alami.
- Tugas Agen: Mendukung kemampuan baru seperti interaksi GUI dan agensi terwujud.
Kemajuan ini mempersempit kesenjangan performa dengan model komersial terkemuka seperti GPT-5, menjadikan InternVL 3.5 sebagai pesaing tangguh di dunia AI.
Komitmen pada Sumber Terbuka
Salah satu aspek paling menarik dari InternVL 3.5 adalah komitmennya pada komunitas sumber terbuka. Semua model dan kode dirilis secara publik, memungkinkan peneliti, pengembang, dan penggemar untuk menjelajahi, mengadaptasi, dan membangun teknologi mutakhir ini. Transparansi ini mendorong kolaborasi dan mempercepat inovasi di bidang AI multimodal.
Mengapa InternVL 3.5 Penting
Peluncuran InternVL 3.5 menandai tonggak penting dalam evolusi AI sumber terbuka. Kombinasi penalaran canggih, efisiensi yang dioptimalkan, dan kemampuan baru seperti interaksi GUI menjadikannya alat serbaguna untuk berbagai aplikasi, mulai dari penelitian akademik hingga implementasi praktis di industri seperti robotika, pendidikan, dan lainnya.
Dengan pencapaian peningkatan performa penalaran sebesar 16,0% dan kecepatan inferensi 4,05 kali lebih cepat, InternVL 3.5 menunjukkan bahwa model sumber terbuka dapat menyaingi model komersial sambil tetap dapat diakses oleh semua. Baik Anda peneliti yang mendorong batas-batas AI atau pengembang yang membangun aplikasi cerdas generasi berikutnya, InternVL 3.5 menawarkan platform yang kuat, efisien, dan fleksibel untuk mewujudkan ide-ide Anda.
Siap untuk menjelajahi kemampuan InternVL 3.5? Kunjungi halaman makalah di Hugging Face atau baca makalah di arXiv untuk penjelasan teknis mendalam. Dengan semua model dan kode tersedia secara publik, sekarang adalah waktu yang tepat untuk bergabung dalam revolusi AI sumber terbuka.