AI multimodal adalah bentuk AI yang sangat maju yang meniru kemampuan manusia untuk menginterpretasikan dunia menggunakan konten dan data dari berbagai indera. Sama seperti manusia memahami teks, gambar, dan suara, AI multimodal mengintegrasikan berbagai jenis data ini untuk memahami konteks dan makna kompleks yang terkandung dalam informasi. Dalam bisnis, misalnya, ini dapat memungkinkan pemahaman yang lebih baik tentang pendapat pelanggan dengan menganalisis apa yang mereka katakan dan bagaimana mereka mengekspresikannya melalui nada suara atau ekspresi wajah.
Sistem AI tradisional biasanya unimodal, yang berarti mereka mengkhususkan diri dalam satu jenis data, seperti teks atau gambar. Mereka dapat memproses sejumlah besar data dengan cepat dan menemukan pola yang tidak dapat ditangkap oleh kecerdasan manusia. Namun, mereka memiliki batasan serius. Mereka tidak peka terhadap konteks dan kurang mahir dalam menghadapi situasi yang tidak biasa dan ambigu.
Inilah sebabnya mengapa AI multimodal melangkah lebih jauh, mengintegrasikan modalitas. Ini memungkinkan pemahaman yang lebih dalam dan interaksi yang jauh lebih menarik antara manusia dan AI.
Model kecerdasan buatan yang dikembangkan saat ini menggunakan pasangan modalitas berikut:
Sumber: Ideogram (https://ideogram.ai)
Model AI multimodal juga mampu mengikuti petunjuk tekstual dan gambar yang mereka “inspirasi” secara bersamaan. Mereka menawarkan hasil dan variasi gambar yang lebih menarik dan lebih terdefinisi dengan baik. Ini sangat membantu jika Anda hanya ingin mendapatkan grafik atau spanduk yang sedikit berbeda, atau menambahkan atau menghapus satu elemen, seperti cangkir kopi:
Sumber: Ideogram (https://ideogram.ai)
Sumber: HuggingFace.co (https://huggingface.co/tasks/image-to-text)
Sumber: NeROIC (https://zfkuang.github.io/NeROIC/resources/material.png)
Juga ada eksperimen dengan AI multimodal yang menerjemahkan musik menjadi gambar, misalnya (https://huggingface.co/spaces/fffiloni/Music-To-Image), tetapi mari kita lihat lebih dekat aplikasi bisnis dari AI multimodal. Jadi, bagaimana isu multimodalitas muncul dalam chatbot berbasis AI yang paling populer, ChatGPT dan Google Bard?
Google Bard dapat menggambarkan gambar sederhana dan telah dilengkapi dengan komunikasi suara sejak Juli 2023, ketika muncul di Eropa. Meskipun kualitas hasil pengenalan gambar bervariasi, ini sejauh ini menjadi salah satu kekuatan yang membedakan solusi Google dari ChatGPT.
BingChat, berkat penggunaan DALL-E 3, dapat menghasilkan gambar berdasarkan petunjuk teks atau suara. Meskipun tidak dapat menggambarkan dalam kata-kata gambar yang dilampirkan oleh pengguna, ia dapat memodifikasinya atau menggunakannya sebagai inspirasi untuk membuat gambar baru.
Per Oktober 2023, OpenAI juga mulai memperkenalkan fitur suara dan gambar baru ke ChatGPT Plus, versi berbayar dari alat tersebut. Mereka memungkinkan untuk melakukan percakapan suara atau menunjukkan gambar kepada ChatGPT, sehingga ia akan tahu apa yang Anda tanyakan tanpa harus menggambarkannya dalam kata-kata yang tepat.
Misalnya, Anda dapat mengambil foto sebuah monumen saat bepergian dan melakukan percakapan langsung tentang apa yang menarik tentangnya. Atau ambil gambar bagian dalam kulkas Anda untuk mengetahui apa yang dapat Anda siapkan untuk makan malam dengan bahan yang tersedia dan meminta resep langkah demi langkah.
Menggambarkan gambar dapat membantu, misalnya, untuk menyiapkan inventaris barang berdasarkan data kamera CCTV atau mengidentifikasi produk yang hilang di rak toko. Manipulasi objek dapat digunakan untuk mengisi kembali barang yang hilang yang diidentifikasi pada langkah sebelumnya. Tetapi bagaimana chatbot multimodal dapat digunakan dalam bisnis? Berikut adalah tiga contoh:
Contoh yang sangat baik dari AI multimodal yang berpandangan ke depan adalah optimasi proses bisnis perusahaan. Misalnya, sistem AI dapat menganalisis data dari berbagai sumber, seperti data penjualan, data pelanggan, dan data media sosial, untuk mengidentifikasi area yang perlu perbaikan dan menyarankan solusi yang mungkin.
Contoh lain adalah menggunakan AI multimodal untuk mengatur logistik. Menggabungkan data GPS, status gudang yang dibaca dari kamera, dan data pengiriman untuk mengoptimalkan proses logistik dan mengurangi biaya bisnis.
Banyak dari fungsionalitas ini sudah diterapkan hari ini dalam sistem kompleks seperti mobil otonom dan kota pintar. Namun, mereka belum berada pada skala ini dalam konteks bisnis yang lebih kecil.
Multimodalitas, atau kemampuan untuk memproses berbagai jenis data, seperti teks, gambar, dan audio, mendorong pemahaman kontekstual yang lebih dalam dan interaksi yang lebih baik antara manusia dan sistem AI.
Pertanyaan terbuka tetap ada, kombinasi modalitas baru apa yang mungkin ada di masa depan? Misalnya, apakah mungkin untuk menggabungkan analisis teks dengan bahasa tubuh, sehingga AI dapat mengantisipasi kebutuhan pelanggan dengan menganalisis ekspresi wajah dan gerakan mereka? Jenis inovasi ini membuka cakrawala baru bagi bisnis, membantu memenuhi harapan pelanggan yang terus berubah.
Jika Anda menyukai konten kami, bergabunglah dengan komunitas lebah sibuk kami di Facebook, Twitter, LinkedIn, Instagram, YouTube, Pinterest, TikTok.
Ahli JavaScript dan instruktur yang melatih departemen TI. Tujuan utamanya adalah untuk meningkatkan produktivitas tim dengan mengajarkan orang lain bagaimana berkolaborasi secara efektif saat melakukan pengkodean.
Perusahaan menghadapi tantangan dalam mengelola sejumlah besar konten yang dipublikasikan secara online, mulai dari pos…
Di era transformasi digital, perusahaan memiliki akses ke jumlah data yang belum pernah terjadi sebelumnya…
Apakah Anda tahu bahwa Anda dapat mendapatkan inti dari rekaman multi-jam dari pertemuan atau percakapan…
Bayangkan sebuah dunia di mana perusahaan Anda dapat membuat video yang menarik dan dipersonalisasi untuk…
Untuk sepenuhnya memanfaatkan potensi Model Bahasa Besar (LLM), perusahaan perlu menerapkan pendekatan yang efektif dalam…
Pada tahun 2018, Unilever telah memulai perjalanan sadar untuk menyeimbangkan kemampuan otomatisasi dan augmentasi. Dalam…