Aktual.co.id – Google telah merilis model AI baru bernama Gemini 2.5 Computer Use. Model ini memungkinkan agen AI berinteraksi dengan situs web dan antarmuka pengguna layaknya manusia.
Model ini tersedia dalam pratinjau publik melalui Gemini API di Google AI Studio dan Vertex AI. Model ini dibangun berdasarkan kemampuan pemahaman visual dan penalaran Gemini 2.5 Pro.
Mengutip dari Gizmochina, model ini dapat melakukan berbagai tindakan berbasis browser seperti mengeklik, mengetik, menggulir, mengarahkan kursor, membuka menu tarik-turun, dan menavigasi URL.
Google menyatakan bahwa model ini mengungguli perangkat pesaing dalam beberapa uji tolok ukur, termasuk Online-Mind2Web, WebVoyager, dan AndroidWorld, dengan tetap mempertahankan latensi yang lebih rendah.
Berbeda dengan model AI tradisional yang mengandalkan API, Gemini 2.5 Computer Use memproses tangkapan layar antarmuka web dan menghasilkan tindakan UI spesifik sebagai responsnya.
Agen menerima prompt tugas, tangkapan layar lingkungan digital, dan riwayat tindakan terbaru. Kemudian, agen menganalisis antarmuka dan menampilkan tindakan UI, seperti mengklik tombol atau mengetik di kolom.
Tindakan tersebut dieksekusi di sisi klien, dan tangkapan layar baru dikirim kembali ke model untuk melanjutkan tugas secara berulang.
Google mendemonstrasikan performa model tersebut dengan contoh-contoh yang menunjukkan agen menyortir catatan tempel di papan tulis digital dan mentransfer detail hewan peliharaan dari satu situs web ke sistem CRM.
Video demo dipercepat untuk menunjukkan prosesnya secara real-time. Model ini mendukung 13 tindakan dan berfungsi paling baik dengan peramban web.
Google menyatakan bahwa model ini belum dioptimalkan untuk tugas-tugas tingkat OS desktop, meskipun telah menunjukkan potensi pada uji coba seluler.
Google juga telah menerapkan langkah-langkah keamanan untuk mencegah penyalahgunaan. Setiap tindakan yang diusulkan oleh model ini ditinjau oleh layanan keamanan sebelum dieksekusi.
Pengembang dapat membatasi tindakan tertentu atau mewajibkan konfirmasi eksplisit dari pengguna untuk tugas berisiko tinggi seperti transaksi keuangan.
Beberapa tim internal Google telah menggunakan model ini dalam tahap produksi. Model ini mendukung pengujian UI dan tugas-tugas otomatisasi di berbagai platform seperti Google Search dan Firebase.
Pengembang eksternal dalam program akses awal telah menggunakan model ini untuk membangun otomatisasi alur kerja dan alat asisten.
Pengembang dapat mulai menggunakan model ini melalui Google AI Studio atau Vertex AI. Google juga menyediakan lingkungan demo melalui Browserbase untuk pengujian dan eksperimen. (ndi/gizmochina)
