AI Multimodal. Penggunaan baru kecerdasan buatan dalam bisnis | AI dalam bisnis #21

Apa itu AI multimodal?

AI multimodal adalah bentuk AI yang sangat maju yang meniru kemampuan manusia untuk menginterpretasikan dunia menggunakan konten dan data dari berbagai indera. Sama seperti manusia memahami teks, gambar, dan suara, AI multimodal mengintegrasikan berbagai jenis data ini untuk memahami konteks dan makna kompleks yang terkandung dalam informasi. Dalam bisnis, misalnya, ini dapat memungkinkan pemahaman yang lebih baik tentang pendapat pelanggan dengan menganalisis apa yang mereka katakan dan bagaimana mereka mengekspresikannya melalui nada suara atau ekspresi wajah.

Sistem AI tradisional biasanya unimodal, yang berarti mereka mengkhususkan diri dalam satu jenis data, seperti teks atau gambar. Mereka dapat memproses sejumlah besar data dengan cepat dan menemukan pola yang tidak dapat ditangkap oleh kecerdasan manusia. Namun, mereka memiliki batasan serius. Mereka tidak peka terhadap konteks dan kurang mahir dalam menghadapi situasi yang tidak biasa dan ambigu.

Inilah sebabnya mengapa AI multimodal melangkah lebih jauh, mengintegrasikan modalitas. Ini memungkinkan pemahaman yang lebih dalam dan interaksi yang jauh lebih menarik antara manusia dan AI.

Apa yang dapat dilakukan AI multimodal?

Model kecerdasan buatan yang dikembangkan saat ini menggunakan pasangan modalitas berikut:

dari teks ke gambar – AI multimodal semacam ini dapat membuat gambar berdasarkan petunjuk tekstual; ini adalah kemampuan inti dari Midjourney yang terkenal, DALL-E 3 yang dikembangkan oleh OpenAI, tersedia di browser sebagai Bing Image Creator, Stable Diffusion yang canggih, atau alat termuda dalam keluarga, Ideogram, yang tidak hanya memahami petunjuk tekstual tetapi juga dapat menempatkan teks pada gambar:

Sumber: Ideogram (https://ideogram.ai)

Model AI multimodal juga mampu mengikuti petunjuk tekstual dan gambar yang mereka “inspirasi” secara bersamaan. Mereka menawarkan hasil dan variasi gambar yang lebih menarik dan lebih terdefinisi dengan baik. Ini sangat membantu jika Anda hanya ingin mendapatkan grafik atau spanduk yang sedikit berbeda, atau menambahkan atau menghapus satu elemen, seperti cangkir kopi:

Sumber: Ideogram (https://ideogram.ai)

Dari gambar ke teks – kecerdasan buatan dapat melakukan jauh lebih banyak daripada mengenali dan menerjemahkan teks yang terlihat dalam gambar atau menemukan produk serupa. Ini juga dapat menggambarkan gambar dalam kata-kata – seperti yang dilakukan Midjourney ketika Anda mengetik perintah /describe, Google Bard, dan model Salesforce (digunakan terutama untuk membuat deskripsi produk dan gambar otomatis di situs e-commerce,

Sumber: HuggingFace.co (https://huggingface.co/tasks/image-to-text)

dari suara ke teks – AI multimodal juga memberdayakan perintah suara di Google Bard, tetapi ini paling baik dilakukan oleh Bing Chat, serta ChatGPT berkat API Whisper yang sangat baik, yang mampu mengenali dan merekam ucapan beserta tanda baca dalam berbagai bahasa, yang dapat, antara lain, sangat memudahkan pekerjaan pusat layanan pelanggan internasional, serta mempersiapkan transkripsi cepat dari rapat dan terjemahan percakapan bisnis ke dalam bahasa lain secara real-time,
dari teks ke suara – alat ElevenLabs memungkinkan kita untuk mengubah teks apa pun yang kita pilih menjadi ucapan yang terdengar realistis, dan bahkan “kloning suara,” di mana kita dapat mengajarkan AI suara dan ekspresinya untuk membuat rekaman teks apa pun dalam bahasa asing untuk pemasaran atau presentasi kepada investor asing, misalnya,
dari teks ke video – mengubah teks menjadi video dengan avatar yang berbicara dimungkinkan dalam alat D-ID, Colossyan, dan Synthesia, antara lain,
dari gambar ke video – menghasilkan video, termasuk video musik, dari gambar dan petunjuk tekstual sudah dimungkinkan hari ini oleh Kaiber, dan Meta telah mengumumkan rilis alat Make-A-Video segera,
gambar dan model 3D – ini adalah area AI multimodal yang sangat menjanjikan, yang ditargetkan oleh Meta dan Nvidia, yang memungkinkan pembuatan avatar realistis dari foto, serta pembangunan model 3D objek dan produk oleh Masterpiece Studio (https://masterpiecestudio.com/masterpiece-studio-pro), NeROIC (https://zfkuang.github.io/NeROIC/), 3DFY (https://3dfy.ai/), di mana, misalnya, produk prototipe dua dimensi dapat dikembalikan ke kamera dengan sisi yang berbeda, visualisasi 3D cepat dapat dibuat dari sketsa sebuah furnitur, atau bahkan deskripsi tekstual:

Sumber: NeROIC (https://zfkuang.github.io/NeROIC/resources/material.png)

dari gambar ke gerakan di ruang – modalitas ini membuat AI multimodal menjangkau di luar layar ke zona Internet of Things (IoT), kendaraan otonom, dan robotika, di mana perangkat dapat melakukan tindakan yang tepat berkat pengenalan gambar yang canggih dan kemampuan untuk merespons perubahan di lingkungan.

Juga ada eksperimen dengan AI multimodal yang menerjemahkan musik menjadi gambar, misalnya (https://huggingface.co/spaces/fffiloni/Music-To-Image), tetapi mari kita lihat lebih dekat aplikasi bisnis dari AI multimodal. Jadi, bagaimana isu multimodalitas muncul dalam chatbot berbasis AI yang paling populer, ChatGPT dan Google Bard?

Multimodalitas di Google Bard, BingChat, dan ChatGPT

Google Bard dapat menggambarkan gambar sederhana dan telah dilengkapi dengan komunikasi suara sejak Juli 2023, ketika muncul di Eropa. Meskipun kualitas hasil pengenalan gambar bervariasi, ini sejauh ini menjadi salah satu kekuatan yang membedakan solusi Google dari ChatGPT.

BingChat, berkat penggunaan DALL-E 3, dapat menghasilkan gambar berdasarkan petunjuk teks atau suara. Meskipun tidak dapat menggambarkan dalam kata-kata gambar yang dilampirkan oleh pengguna, ia dapat memodifikasinya atau menggunakannya sebagai inspirasi untuk membuat gambar baru.

Per Oktober 2023, OpenAI juga mulai memperkenalkan fitur suara dan gambar baru ke ChatGPT Plus, versi berbayar dari alat tersebut. Mereka memungkinkan untuk melakukan percakapan suara atau menunjukkan gambar kepada ChatGPT, sehingga ia akan tahu apa yang Anda tanyakan tanpa harus menggambarkannya dalam kata-kata yang tepat.

Misalnya, Anda dapat mengambil foto sebuah monumen saat bepergian dan melakukan percakapan langsung tentang apa yang menarik tentangnya. Atau ambil gambar bagian dalam kulkas Anda untuk mengetahui apa yang dapat Anda siapkan untuk makan malam dengan bahan yang tersedia dan meminta resep langkah demi langkah.

3 aplikasi AI Multimodal dalam bisnis

Menggambarkan gambar dapat membantu, misalnya, untuk menyiapkan inventaris barang berdasarkan data kamera CCTV atau mengidentifikasi produk yang hilang di rak toko. Manipulasi objek dapat digunakan untuk mengisi kembali barang yang hilang yang diidentifikasi pada langkah sebelumnya. Tetapi bagaimana chatbot multimodal dapat digunakan dalam bisnis? Berikut adalah tiga contoh:

Layanan pelanggan: Chat multimodal yang diterapkan di toko online dapat berfungsi sebagai asisten layanan pelanggan yang canggih yang tidak hanya menjawab pertanyaan teks tetapi juga memahami gambar dan pertanyaan yang diajukan dengan suara. Misalnya, seorang pelanggan dapat mengambil gambar produk yang rusak dan mengirimkannya ke chatbot, yang akan membantu mengidentifikasi masalah dan menawarkan solusi yang sesuai.
Analisis media sosial: Kecerdasan buatan multimodal dapat menganalisis posting media sosial, yang mencakup teks, gambar, dan bahkan video, untuk memahami apa yang pelanggan katakan tentang perusahaan dan produknya. Ini dapat membantu perusahaan lebih memahami umpan balik pelanggan dan merespons kebutuhan mereka dengan lebih cepat.
Pelatihan dan Pengembangan: ChatGPT dapat digunakan untuk melatih karyawan. Misalnya, ia dapat melakukan sesi pelatihan interaktif yang mencakup teks dan gambar untuk membantu karyawan lebih memahami konsep yang kompleks.

Masa depan AI multimodal dalam bisnis

Contoh yang sangat baik dari AI multimodal yang berpandangan ke depan adalah optimasi proses bisnis perusahaan. Misalnya, sistem AI dapat menganalisis data dari berbagai sumber, seperti data penjualan, data pelanggan, dan data media sosial, untuk mengidentifikasi area yang perlu perbaikan dan menyarankan solusi yang mungkin.

Contoh lain adalah menggunakan AI multimodal untuk mengatur logistik. Menggabungkan data GPS, status gudang yang dibaca dari kamera, dan data pengiriman untuk mengoptimalkan proses logistik dan mengurangi biaya bisnis.

Banyak dari fungsionalitas ini sudah diterapkan hari ini dalam sistem kompleks seperti mobil otonom dan kota pintar. Namun, mereka belum berada pada skala ini dalam konteks bisnis yang lebih kecil.

Ringkasan

Multimodalitas, atau kemampuan untuk memproses berbagai jenis data, seperti teks, gambar, dan audio, mendorong pemahaman kontekstual yang lebih dalam dan interaksi yang lebih baik antara manusia dan sistem AI.

Pertanyaan terbuka tetap ada, kombinasi modalitas baru apa yang mungkin ada di masa depan? Misalnya, apakah mungkin untuk menggabungkan analisis teks dengan bahasa tubuh, sehingga AI dapat mengantisipasi kebutuhan pelanggan dengan menganalisis ekspresi wajah dan gerakan mereka? Jenis inovasi ini membuka cakrawala baru bagi bisnis, membantu memenuhi harapan pelanggan yang terus berubah.

Jika Anda menyukai konten kami, bergabunglah dengan komunitas lebah sibuk kami di Facebook, Twitter, LinkedIn, Instagram, YouTube, Pinterest, TikTok.

Robert Whitney

Ahli JavaScript dan instruktur yang melatih departemen TI. Tujuan utamanya adalah untuk meningkatkan produktivitas tim dengan mengajarkan orang lain bagaimana berkolaborasi secara efektif saat melakukan pengkodean.

View all posts →

Robert Whitney

Next Bagaimana strategi operasi mempengaruhi proyek? »

Previous « Interaksi manusia baru — AI. Bagaimana kecerdasan buatan mengubah cara kita mengoperasikan perangkat? | AI dalam bisnis #22

Peran AI dalam moderasi konten | AI dalam bisnis #129

Perusahaan menghadapi tantangan dalam mengelola sejumlah besar konten yang dipublikasikan secara online, mulai dari pos…

3 days ago

Analisis sentimen dengan AI. Bagaimana ini membantu mendorong perubahan dalam bisnis? | AI dalam bisnis #128

Di era transformasi digital, perusahaan memiliki akses ke jumlah data yang belum pernah terjadi sebelumnya…

3 days ago

Alat transkripsi AI terbaik. Bagaimana cara mengubah rekaman panjang menjadi ringkasan yang singkat? | AI dalam bisnis #127

Apakah Anda tahu bahwa Anda dapat mendapatkan inti dari rekaman multi-jam dari pertemuan atau percakapan…

3 days ago

AI Multimodal. Penggunaan baru kecerdasan buatan dalam bisnis | AI dalam bisnis #21

Apa itu AI multimodal?

Apa yang dapat dilakukan AI multimodal?

Multimodalitas di Google Bard, BingChat, dan ChatGPT

3 aplikasi AI Multimodal dalam bisnis

Masa depan AI multimodal dalam bisnis

Ringkasan

Robert Whitney

Recent Posts

Peran AI dalam moderasi konten | AI dalam bisnis #129

Analisis sentimen dengan AI. Bagaimana ini membantu mendorong perubahan dalam bisnis? | AI dalam bisnis #128

Alat transkripsi AI terbaik. Bagaimana cara mengubah rekaman panjang menjadi ringkasan yang singkat? | AI dalam bisnis #127

Generasi video AI. Cakrawala baru dalam produksi konten video untuk bisnis | AI dalam bisnis #126

LLMOps, atau cara mengelola model bahasa secara efektif dalam sebuah organisasi | AI dalam bisnis #125

Automatisasi atau augmentasi? Dua pendekatan terhadap AI di perusahaan | AI dalam bisnis #124