Google Cloud menerbitkan panduan tentang cara menangani kesalahan 429 "kehabisan sumber daya", terutama saat bekerja dengan Model Bahasa Besar (LLM). Artikel tersebut menekankan pentingnya mengelola konsumsi sumber daya untuk pengalaman pengguna yang lancar, mengingat tuntutan komputasi LLM yang substansial. Artikel ini menyajikan tiga strategi utama:
1. **Backoff dan Coba Lagi:** Terapkan logika backoff eksponensial dan coba lagi untuk menangani kehabisan sumber daya atau ketidaktersediaan API. Waktu tunggu meningkat secara eksponensial dengan setiap percobaan ulang hingga sistem yang kelebihan beban pulih.
2. **Kuota Bersama Dinamis:** Google Cloud mengelola alokasi sumber daya untuk model tertentu dengan mendistribusikan kapasitas yang tersedia secara dinamis di antara pengguna yang membuat permintaan. Ini meningkatkan efisiensi dan mengurangi latensi.
3. **Throughput yang Dipersiapkan:** Layanan ini memungkinkan Anda memesan kapasitas khusus untuk model AI generatif di Vertex AI, memastikan kinerja yang dapat diprediksi bahkan selama permintaan puncak.
Artikel tersebut menyoroti penggabungan backoff/coba lagi dengan kuota bersama dinamis, terutama karena volume permintaan dan ukuran token bertambah. Opsi lain seperti penggantian kuota konsumen dan throughput yang dipersiapkan disebutkan untuk ketahanan aplikasi LLM. Ini mendorong pembangunan dengan AI generatif menggunakan sampel Vertex AI di GitHub atau memanfaatkan panduan pemula, mulai cepat, atau paket awal Google Cloud.