Jakarta, Dexpert.co.id – Setelah ramai disebut-sebut akan membuat aplikasi pengganti Google, OpenAI akhirnya resmi meluncurkan ‘GPT-4o’. Huruf ‘o’ merupakan singkatan ‘omni’ yang merujuk pada kemampuan pemodelan dalam format teks, suara, dan video.
Model AI premium ini akan tersedia di seluruh produk developer dan konsumen milik OpenAI dalam beberapa pekan ke depan.
CTO OpenAI Mira Murati menjelaskan GPT-4o meruapakan tool paling canggih yang meningkatkan kapabilitas GPT-4 di berbagai bentuk media.
“GPT-4o bisa bekerja lewat suara, teks, dan visual. Ini merupakan alat yang sangat penting, sebab di masa depan kita semua akan melihat interaksi antara manusia dan mesin,” kata dia, dikutip dari TechCrunch, Selasa (14/5/2024).
Sebagai informasi, GPT-4 Turbo yang sebelumnya merupakan layanan paling canggih dari OpenAI dilatih untuk menganalisa kombinasi teks dan gambar. GPT-4o merupakan tingkat lanjutannya yang menambahkan aspek audio.
Lantas, seperti apa saja kegunaannya di kehidupan sehari-hari?
GPT-4o meningkatkan kemampuan yang sebelumnya sudah ada pada layanan populer ChatGPT. Sejatinya, ChatGPT selama ini sudah menawarkan mode suara untuk melakukan transkip pada respons chatbot dengan metode teks-ke-suara.
Namun, GPT-4o meningkatkan kemampuannya sehingga pengguna bisa berinteraksi dengan ChatGPT benar-benar seperti lawan bicara atau asisten.
Sebagai contoh, pengguna bisa bertanya ke ChatGPT yang ditenagai GPT-4o. Lalu, pengguna juga bisa menginterupsi ketika ChatGPT sedang menjawab.
Artinya, GPT-4o memungkinkan respons yang lebih ‘real-time’, sehingga benar-benar seperti teman mengobrol. Bahkan, OpenAI mengklaim GPT-4o bisa membaca nada suara pengguna berdasarkan emosi, bahkan dalam bentuk nyanyian.
GPT-4o juga bisa meningkatkan kapabilitas visual ChatGPT, baik dalam bentuk foto maupun layar desktop. ChatGPT kini bisa menjawab dengan cepat pertanyaan-pertanyaan untuk berbagai topik. Mulai dari ‘apa yang dilakukan kode software ini?’ hingga ‘apa merek baju yang dipakai orang ini?’.
Murati mengatakan fitur-fitur ini akan berevolusi di masa depan. Misalnya, saat ini GPT-4o bisa melihat gambar di menu dalam berbagai bahasa dan menerjemahkannya ke pengguna.
Ke depan, model ChatGPT itu bahkan bisa menonton pertandingan olahraga dan menjelaskan peraturannya ke pengguna.
“Kami tahu bahwa model-model ini akan menjadi lebih kompleks di masa depan. Kami ingin menghadirkan pengalaman interkasi yang lebih natural ke pengguna. Jadi, manusia hanya perlu fokus untuk berkolaborasi dengan ChatGPT,” ia menjelaskan.
GPT-4o juga lebih menguasai banyak bahasa. OpenAI mengklaim GPT-4o bisa mengenali lebih dari 50 bahasa di seluruh dunia.
Untuk saat ini, suara bukan bagian dari API GPT-4o untuk semua konsumen secara luas. Sebab, perusahaan khawatir soal risiko penyalahgunaannya.
OpenAI mengatakan dukungan suara akan pertama kali diuji pada sekelompok mitra terpercaya dalam beberapa pekan ke depan.
Namun, versi gratisd ari GPT-4o dengan kemampuan yang masih terbatas sudah tersedia hari ini di ChatGPT.
Dengan berbagai kecanggihan yang ditawarkan GPT-4o, rasanya tak berlebihan untuk menyebut nasib Google di masa depan akan terancam. Tentu saja hal itu bisa tak terjadi jika Google bergerak cepat menghadirkan inovasi serupa atau lebih.