Google Cloud telah mengumumkan pratinjau indeks vektor TreeAH, yang menghadirkan bagian inti dari penelitian dan inovasi Google dalam algoritma perkiraan tetangga terdekat ke BigQuery. Jenis indeks baru ini menggunakan teknologi dasar yang sama yang mendukung beberapa layanan Google yang paling populer dan memberikan latensi yang signifikan dan pengurangan biaya dalam situasi tertentu dibandingkan dengan indeks pertama yang diterapkan di BigQuery, indeks file terbalik (IVF).
Salah satu keuntungan utama dari indeks TreeAH adalah penggunaan hashing asimetris (yang "AH" di TreeAH), yang menggunakan kuantisasi produk untuk mengompresi embeddings. Ditambah dengan algoritma komputasi jarak yang dioptimalkan untuk CPU, pencarian vektor menggunakan TreeAH dapat menjadi lebih cepat dan hemat biaya dalam urutan besarnya daripada IVF. Pembuatan indeks juga bisa 10x lebih cepat dan lebih murah serta memiliki jejak memori yang lebih kecil, karena hanya embeddings yang dikompresi yang disimpan.
Benchmark yang dilakukan oleh tim teknik Google menunjukkan bahwa TreeAH secara signifikan mengungguli IVF ketika ukuran batch kueri besar. Misalnya, untuk batch kueri dengan 10.000 vektor, TreeAH hingga 23x lebih cepat dan 95% lebih murah daripada IVF. Pelatihan indeks TreeAH juga secara signifikan lebih cepat dan lebih murah daripada IVF dalam banyak kasus.
Namun, perlu dicatat bahwa TreeAH masih dalam pengembangan aktif dan ada beberapa batasan saat ini. Misalnya, tabel dasar dapat memiliki maksimal 200 juta baris, dan kolom yang disimpan dan pra-pemfilteran tidak didukung untuk indeks TreeAH.
Secara keseluruhan, TreeAH adalah tambahan yang berharga untuk BigQuery, yang menawarkan peningkatan kinerja dan biaya yang signifikan untuk jenis beban kerja pencarian vektor tertentu. Hal ini diharapkan dapat memungkinkan lebih banyak kasus penggunaan untuk pencarian vektor di BigQuery, seperti pencarian semantik dan pembuatan augmented retrieval (RAG) berbasis LLM.