Google Cloud mengumumkan pembaruan signifikan pada lapisan perangkat lunak AI Hypercomputer-nya, yang berfokus pada peningkatan kinerja pelatihan dan inferensi, peningkatan ketahanan dalam skala besar, dan menyediakan hub terpusat untuk sumber daya AI Hypercomputer.
Salah satu pembaruan utama adalah dukungan untuk MaxText pada A3 Mega VM, yang memungkinkan pelatihan model bahasa besar (LLM) yang lebih cepat dan lebih efisien. VM ini, yang ditenagai oleh NVIDIA H100 Tensor Core GPU, menawarkan peningkatan 2X dalam bandwidth jaringan GPU-ke-GPU dibandingkan A3 VM.
Selain itu, Google Cloud memperkenalkan SparseCore pada Cloud TPU v5p, yang menyediakan akselerasi perangkat keras untuk operasi penyematan, yang mengarah pada kinerja yang lebih tinggi untuk sistem rekomendasi.
Untuk meningkatkan inferensi LLM, Google Cloud juga memperkenalkan kuantisasi cache KV dan kernel perhatian yang tidak teratur di JetStream, yang meningkatkan kinerja inferensi hingga 2X pada Cloud TPU v5e.
Dengan pembaruan ini, Google Cloud terus memberdayakan organisasi untuk mempercepat perjalanan AI mereka dengan menyediakan infrastruktur yang berkinerja dan hemat biaya. Fokus pada perangkat keras dan perangkat lunak yang dioptimalkan, bersama dengan sumber daya yang komprehensif, menjadikan AI Hypercomputer solusi yang menarik bagi bisnis yang ingin memanfaatkan kekuatan AI.