Cara men-deploy model Llama 3.2-1B-Instruct dengan Google Cloud Run GPU

2024-11-14

Google Cloud

Google Cloud menerbitkan postingan blog yang menjelaskan cara men-deploy model Meta Llama 3.2-1B-Instruct di Cloud Run menggunakan GPU. Postingan ini memberikan petunjuk langkah demi langkah tentang cara memanfaatkan Cloud Run GPU untuk men-deploy model bahasa besar (LLM) open-source. Postingan ini juga mencakup praktik terbaik untuk merampingkan proses pengembangan menggunakan pengujian model lokal dengan image Docker Text Generation Inference (TGI), sehingga pemecahan masalah menjadi mudah dan meningkatkan produktivitas. Dengan Cloud Run GPU, developer mendapatkan keuntungan dari ketersediaan sesuai permintaan dan skalabilitas mudah yang mereka sukai dengan CPU dan memori Cloud Run, dengan tambahan kekuatan GPU NVIDIA. Saat aplikasi Anda tidak aktif, instance yang dilengkapi GPU Anda secara otomatis diperkecil menjadi nol, sehingga mengoptimalkan biaya Anda. Postingan ini juga memberikan tips tentang cara meningkatkan cold start menggunakan Cloud Storage FUSE. Cloud Storage FUSE memungkinkan developer untuk memasang bucket Google Cloud Storage sebagai sistem file, sehingga mengurangi waktu cold start secara signifikan.

Cara men-deploy model Llama 3.2-1B-Instruct dengan Google Cloud Run GPU

Recommends