Oracle Bangun Datacenter AI untuk 18 ZettaFlops, Pakai Ratusan Ribu GPU

Oracle pada Selasa lalu mengungkapkan rencananya untuk menggelar infrastruktur AI senilai lebih dari 18 zettaFLOPS dari Nvidia dan AMD pada paruh kedua tahun depan. Komitmen ini menandai langkah signifikan dalam pengembangan kapasitas komputasi AI global.

Secara spesifik, Oracle akan mengoperasikan klaster yang terdiri dari 800.000 GPU Nvidia. Klaster ini dirancang untuk memberikan kinerja AI puncak hingga 16 zettaFLOPS, dengan fokus pada format sparse FP4. Kemampuan ini menunjukkan dedikasi Oracle dalam menyediakan daya komputasi yang masif untuk aplikasi AI.

Klaster Nvidia ini merupakan bagian dari penawaran Oracle Cloud Infrastructure (OCI) yang dinamakan Zettascale10. Ini adalah kemenangan besar bagi Nvidia, yang tidak hanya menyediakan GPU dan sistem rak, tetapi juga solusi jaringan. Nvidia Spectrum-X Ethernet switching platform akan digunakan untuk menghubungkan semua GPU, menjadikan klaster ini salah satu implementasi skala besar terbaru yang dibangun di sekitar platform tersebut. Oracle juga berencana untuk menawarkan serangkaian layanan AI Nvidia melalui platform cloud-nya.

Sementara Nvidia menikmati keuntungan besar, AMD juga memiliki peran penting dalam ekspansi ini. AMD diperkirakan akan melihat 50.000 akselerator MI450X-series miliknya diterapkan di pusat data Oracle pada paruh kedua tahun depan, dengan rencana penyebaran tambahan pada tahun berikutnya. Ini menunjukkan peningkatan pangsa pasar AMD di segmen akselerator AI.

MI450X, yang pertama kali diperkenalkan pada acara “Advancing AI” AMD di bulan Juni, akan ditawarkan dalam arsitektur skala rak yang mirip dengan Nvidia NVL72, yang disebut Helios. Setiap rak Helios akan dilengkapi dengan 72 GPU MI450X yang dihubungkan menggunakan Ultra Accelerator Link (UALink), sebuah alternatif terbuka untuk interkoneksi berkecepatan tinggi NVLink milik Nvidia.

Pada acara OCP, tampilan awal dari rak produksi Helios berbasis form factor “open rack wide” (ORW) telah diperlihatkan. Sistem “double-wide” ini secara teknis dianggap sebagai satu rak sesuai dengan spesifikasi OCP, mengoptimalkan kepadatan komputasi.

AMD memprediksi bahwa satu rak Helios akan memberikan 2,9 exaFLOPS kinerja FP4 dan hingga 1,4 exaFLOPS kinerja FP8. Rak ini juga akan dilengkapi dengan memori HBM4 sebesar 31 TB yang mampu menghasilkan bandwidth 1,4 petabyte per detik. Meskipun belum jelas apakah ini adalah FLOPS padat atau jarang, kemungkinan besar ini adalah FLOPS jarang. Dengan spesifikasi ini, rak Helios menempatkannya dalam kelas kinerja yang sama dengan sistem Nvidia Vera Rubin NVL144 yang akan datang, tetapi dengan kapasitas HBM yang jauh lebih besar.

Dengan demikian, penyebaran awal 50.000 MI450X di OCI akan menghasilkan lebih dari dua zettaFLOPS komputasi presisi ultra-rendah. Angka zettaFLOPS ini memang mengesankan, tetapi penting untuk dicatat bahwa hanya sedikit pelanggan yang akan mampu memanfaatkan seluruh kapasitas komputasi yang disediakan oleh Oracle.

Untuk memanfaatkan kapasitas penuh ini, pelanggan tidak hanya harus memesan seluruh klaster, tetapi juga mempertimbangkan bahwa FP4 umumnya dianggap sebagai format penyimpanan untuk inferensi AI. Meskipun demikian, pengembang model, seperti OpenAI, kini mulai mempertimbangkan penggunaan format ini untuk tugas-tugas yang lebih luas.

Untuk jenis pekerjaan pelatihan model yang mungkin memerlukan klaster 50 ribu atau lebih GPU, tipe data presisi tinggi seperti BF16 dan FP8 secara historis lebih disukai. Namun, bukan berarti tidak mungkin untuk melatih model secara native menggunakan FP4. Nvidia baru-baru ini menerbitkan sebuah makalah yang mengeksplorasi manfaat pra-pelatihan menggunakan tipe data microscaling 4-bit seperti NVFP4, dan temuan awal menunjukkan bahwa tipe data tersebut dapat mencapai tingkat kualitas yang sebanding dengan FP8.

Diskusi tentang “zettaFLOPS” juga membawa implikasi besar terhadap konsumsi daya. Proyek-proyek AI berskala besar seperti ini akan membutuhkan infrastruktur energi yang masif, dan pertanyaan mengenai tagihan listrik “Godzilla-sized” AI menjadi relevan. Beberapa analis bahkan memprediksi bahwa Oracle perlu meminjam setidaknya $25 miliar setahun untuk mendanai “fantasi AI” ini.

Salah satu perusahaan yang kemungkinan besar akan mendapatkan akses signifikan ke “harta karun” GPU Oracle adalah OpenAI. Baik Nvidia maupun AMD baru-baru ini menandatangani kesepakatan investasi dengan OpenAI, yang didasarkan pada penyebaran akselerator mereka secara besar-besaran oleh mitra OpenAI. Oracle, dalam konteks ini, adalah mitra terbesar OpenAI.

Meskipun pangsa pasar GPU pusat data AMD masih jauh di bawah Nvidia, situasi ini kemungkinan akan berubah. Berdasarkan perjanjian yang baru diumumkan, OpenAI akan memiliki kesempatan untuk mengakuisisi 160 juta saham pembuat chip tersebut dengan harga satu sen per saham, jika AMD dapat memfasilitasi penyebaran enam gigawatt akselerator Instinct.

Klaster 50.000 MI450X yang diumumkan oleh Oracle minggu ini tampaknya merupakan bagian pertama dari penyebaran awal berskala gigawatt. Berdasarkan estimasi, ini menunjukkan bahwa Oracle bisa jadi akan menyebarkan sekitar 180.000 MI450 tambahan sebagai bagian dari kesepakatan tersebut, memperkuat posisi kedua perusahaan dalam peta jalan pengembangan AI.

Sumber: https://www.oracle.com/news/announcement/ai-world-oracle-unveils-next-generation-oci-zettascale10-cluster-for-ai-2025-10-14

Oracle Bangun Datacenter AI untuk 18 ZettaFlops, Pakai Ratusan Ribu GPU

RSS Tutorial

Quick Links

RSS