Jalankan aplikasi inferensi AI Anda di Cloud Run dengan GPU NVIDIA

Google Cloud telah mengumumkan penambahan dukungan NVIDIA L4 GPU ke Cloud Run, dalam pratinjau. Ini membuka banyak kasus penggunaan baru untuk developer Cloud Run, antara lain:

* Melakukan inferensi real-time dengan model terbuka yang ringan seperti model Gemma (2B/7B) terbuka Google atau Llama 3 (8B) dari Meta untuk membuat chatbot khusus atau peringkasan dokumen saat bepergian, sekaligus menskalakan untuk menangani lalu lintas pengguna yang melonjak.

* Menyajikan model AI generatif yang disediaakan khusus, seperti pembuatan gambar yang disesuaikan dengan merek perusahaan Anda, dan mengurangi skala untuk mengoptimalkan biaya saat tidak ada yang menggunakannya.

* Mempercepat layanan Cloud Run Anda yang intensif komputasi, seperti pengenalan gambar sesuai permintaan, transcoding dan streaming video, dan rendering 3D.

Sebagai platform yang dikelola sepenuhnya, Cloud Run memungkinkan Anda menjalankan kode secara langsung di atas infrastruktur Google yang skalabel, yang menggabungkan fleksibilitas container dengan kesederhanaan tanpa server untuk membantu meningkatkan produktivitas Anda. Dengan Cloud Run, Anda dapat menjalankan layanan frontend dan backend, tugas batch, men-deploy situs web dan aplikasi, dan menangani beban kerja pemrosesan antrean — semuanya tanpa harus mengelola infrastruktur di baliknya.

Pada saat yang sama, banyak beban kerja yang melakukan inferensi AI, terutama aplikasi yang membutuhkan pemrosesan real-time, memerlukan akselerasi GPU untuk menghadirkan pengalaman pengguna yang responsif. Dengan dukungan untuk GPU NVIDIA, Anda dapat melakukan inferensi AI online sesuai permintaan menggunakan LLM pilihan Anda dalam hitungan detik.

Pelanggan awal sangat antusias dengan kombinasi Cloud Run dan GPU NVIDIA.

“Dukungan GPU Cloud Run telah menjadi pengubah permainan untuk aplikasi inferensi real-time kami. Latensi mulai dingin yang rendah sangat mengesankan, memungkinkan model kami untuk menyajikan prediksi hampir secara instan, yang sangat penting untuk pengalaman pelanggan yang sensitif terhadap waktu. Selain itu, GPU Cloud Run mempertahankan latensi penyajian minimal secara konsisten di bawah berbagai beban, memastikan aplikasi AI generatif kami selalu responsif dan andal — semuanya sambil dengan mudah diskalakan ke nol selama periode tidak aktif. Secara keseluruhan, GPU Cloud Run telah secara signifikan meningkatkan kemampuan kami untuk memberikan hasil yang cepat, akurat, dan efisien kepada pengguna akhir kami.” - Thomas MENARD, Head of AI - Global Beauty Tech, L’Oréal

Secara keseluruhan, penambahan dukungan GPU NVIDIA ke Cloud Run adalah perkembangan yang signifikan bagi developer yang ingin membangun aplikasi inferensi AI real-time. Fitur ini akan memungkinkan developer untuk memanfaatkan kekuatan GPU NVIDIA, sambil menikmati kemudahan penggunaan dan skalabilitas Cloud Run.

Untuk mulai menggunakan Cloud Run dengan GPU NVIDIA, Anda dapat mendaftar ke program pratinjau di g.co/cloudrun/gpu.

Jalankan aplikasi inferensi AI Anda di Cloud Run dengan GPU NVIDIA

Recommends