Apa itu AI multimodal?

AI multimodal adalah bentuk AI yang sangat maju yang meniru kemampuan manusia untuk menginterpretasikan dunia menggunakan konten dan data dari berbagai indera. Sama seperti manusia memahami teks, gambar, dan suara, AI multimodal mengintegrasikan berbagai jenis data ini untuk memahami konteks dan makna kompleks yang terkandung dalam informasi. Dalam bisnis, misalnya, ini dapat memungkinkan pemahaman yang lebih baik tentang pendapat pelanggan dengan menganalisis apa yang mereka katakan dan bagaimana mereka mengekspresikannya melalui nada suara atau ekspresi wajah.

Sistem AI tradisional biasanya unimodal, yang berarti mereka mengkhususkan diri dalam satu jenis data, seperti teks atau gambar. Mereka dapat memproses sejumlah besar data dengan cepat dan menemukan pola yang tidak dapat ditangkap oleh kecerdasan manusia. Namun, mereka memiliki batasan serius. Mereka tidak peka terhadap konteks dan kurang mahir dalam menghadapi situasi yang tidak biasa dan ambigu.

Inilah sebabnya mengapa AI multimodal melangkah lebih jauh, mengintegrasikan modalitas. Ini memungkinkan pemahaman yang lebih dalam dan interaksi yang jauh lebih menarik antara manusia dan AI.

Apa yang dapat dilakukan AI multimodal?

Model kecerdasan buatan yang dikembangkan saat ini menggunakan pasangan modalitas berikut:

  • dari teks ke gambar – AI multimodal semacam ini dapat membuat gambar berdasarkan petunjuk tekstual; ini adalah kemampuan inti dari Midjourney yang terkenal, DALL-E 3 yang dikembangkan oleh OpenAI, tersedia di browser sebagai Bing Image Creator, Stable Diffusion yang canggih, atau alat termuda dalam keluarga, Ideogram, yang tidak hanya memahami petunjuk tekstual tetapi juga dapat menempatkan teks pada gambar:
  • AI Multimodal

    Sumber: Ideogram (https://ideogram.ai)

    Model AI multimodal juga mampu mengikuti petunjuk tekstual dan gambar yang mereka “inspirasi” secara bersamaan. Mereka menawarkan hasil dan variasi gambar yang lebih menarik dan lebih terdefinisi dengan baik. Ini sangat membantu jika Anda hanya ingin mendapatkan grafik atau spanduk yang sedikit berbeda, atau menambahkan atau menghapus satu elemen, seperti cangkir kopi:

    AI Multimodal

    Sumber: Ideogram (https://ideogram.ai)

  • Dari gambar ke teks – kecerdasan buatan dapat melakukan jauh lebih banyak daripada mengenali dan menerjemahkan teks yang terlihat dalam gambar atau menemukan produk serupa. Ini juga dapat menggambarkan gambar dalam kata-kata – seperti yang dilakukan Midjourney ketika Anda mengetik perintah /describe, Google Bard, dan model Salesforce (digunakan terutama untuk membuat deskripsi produk dan gambar otomatis di situs e-commerce,
  • AI Multimodal

    Sumber: HuggingFace.co (https://huggingface.co/tasks/image-to-text)

  • dari suara ke teks – AI multimodal juga memberdayakan perintah suara di Google Bard, tetapi ini paling baik dilakukan oleh Bing Chat, serta ChatGPT berkat API Whisper yang sangat baik, yang mampu mengenali dan merekam ucapan beserta tanda baca dalam berbagai bahasa, yang dapat, antara lain, sangat memudahkan pekerjaan pusat layanan pelanggan internasional, serta mempersiapkan transkripsi cepat dari rapat dan terjemahan percakapan bisnis ke dalam bahasa lain secara real-time,
  • dari teks ke suara – alat ElevenLabs memungkinkan kita untuk mengubah teks apa pun yang kita pilih menjadi ucapan yang terdengar realistis, dan bahkan “kloning suara,” di mana kita dapat mengajarkan AI suara dan ekspresinya untuk membuat rekaman teks apa pun dalam bahasa asing untuk pemasaran atau presentasi kepada investor asing, misalnya,
  • dari teks ke video – mengubah teks menjadi video dengan avatar yang berbicara dimungkinkan dalam alat D-ID, Colossyan, dan Synthesia, antara lain,
  • dari gambar ke video – menghasilkan video, termasuk video musik, dari gambar dan petunjuk tekstual sudah dimungkinkan hari ini oleh Kaiber, dan Meta telah mengumumkan rilis alat Make-A-Video segera,
  • gambar dan model 3D – ini adalah area AI multimodal yang sangat menjanjikan, yang ditargetkan oleh Meta dan Nvidia, yang memungkinkan pembuatan avatar realistis dari foto, serta pembangunan model 3D objek dan produk oleh Masterpiece Studio (https://masterpiecestudio.com/masterpiece-studio-pro), NeROIC (https://zfkuang.github.io/NeROIC/), 3DFY (https://3dfy.ai/), di mana, misalnya, produk prototipe dua dimensi dapat dikembalikan ke kamera dengan sisi yang berbeda, visualisasi 3D cepat dapat dibuat dari sketsa sebuah furnitur, atau bahkan deskripsi tekstual:
  • AI Multimodal

    Sumber: NeROIC (https://zfkuang.github.io/NeROIC/resources/material.png)

  • dari gambar ke gerakan di ruang – modalitas ini membuat AI multimodal menjangkau di luar layar ke zona Internet of Things (IoT), kendaraan otonom, dan robotika, di mana perangkat dapat melakukan tindakan yang tepat berkat pengenalan gambar yang canggih dan kemampuan untuk merespons perubahan di lingkungan.

Juga ada eksperimen dengan AI multimodal yang menerjemahkan musik menjadi gambar, misalnya (https://huggingface.co/spaces/fffiloni/Music-To-Image), tetapi mari kita lihat lebih dekat aplikasi bisnis dari AI multimodal. Jadi, bagaimana isu multimodalitas muncul dalam chatbot berbasis AI yang paling populer, ChatGPT dan Google Bard?

Multimodalitas di Google Bard, BingChat, dan ChatGPT

Google Bard dapat menggambarkan gambar sederhana dan telah dilengkapi dengan komunikasi suara sejak Juli 2023, ketika muncul di Eropa. Meskipun kualitas hasil pengenalan gambar bervariasi, ini sejauh ini menjadi salah satu kekuatan yang membedakan solusi Google dari ChatGPT.

BingChat, berkat penggunaan DALL-E 3, dapat menghasilkan gambar berdasarkan petunjuk teks atau suara. Meskipun tidak dapat menggambarkan dalam kata-kata gambar yang dilampirkan oleh pengguna, ia dapat memodifikasinya atau menggunakannya sebagai inspirasi untuk membuat gambar baru.

Per Oktober 2023, OpenAI juga mulai memperkenalkan fitur suara dan gambar baru ke ChatGPT Plus, versi berbayar dari alat tersebut. Mereka memungkinkan untuk melakukan percakapan suara atau menunjukkan gambar kepada ChatGPT, sehingga ia akan tahu apa yang Anda tanyakan tanpa harus menggambarkannya dalam kata-kata yang tepat.

Misalnya, Anda dapat mengambil foto sebuah monumen saat bepergian dan melakukan percakapan langsung tentang apa yang menarik tentangnya. Atau ambil gambar bagian dalam kulkas Anda untuk mengetahui apa yang dapat Anda siapkan untuk makan malam dengan bahan yang tersedia dan meminta resep langkah demi langkah.

3 aplikasi AI Multimodal dalam bisnis

Menggambarkan gambar dapat membantu, misalnya, untuk menyiapkan inventaris barang berdasarkan data kamera CCTV atau mengidentifikasi produk yang hilang di rak toko. Manipulasi objek dapat digunakan untuk mengisi kembali barang yang hilang yang diidentifikasi pada langkah sebelumnya. Tetapi bagaimana chatbot multimodal dapat digunakan dalam bisnis? Berikut adalah tiga contoh:

  1. Layanan pelanggan: Chat multimodal yang diterapkan di toko online dapat berfungsi sebagai asisten layanan pelanggan yang canggih yang tidak hanya menjawab pertanyaan teks tetapi juga memahami gambar dan pertanyaan yang diajukan dengan suara. Misalnya, seorang pelanggan dapat mengambil gambar produk yang rusak dan mengirimkannya ke chatbot, yang akan membantu mengidentifikasi masalah dan menawarkan solusi yang sesuai.
  2. Analisis media sosial: Kecerdasan buatan multimodal dapat menganalisis posting media sosial, yang mencakup teks, gambar, dan bahkan video, untuk memahami apa yang pelanggan katakan tentang perusahaan dan produknya. Ini dapat membantu perusahaan lebih memahami umpan balik pelanggan dan merespons kebutuhan mereka dengan lebih cepat.
  3. Pelatihan dan Pengembangan: ChatGPT dapat digunakan untuk melatih karyawan. Misalnya, ia dapat melakukan sesi pelatihan interaktif yang mencakup teks dan gambar untuk membantu karyawan lebih memahami konsep yang kompleks.

Masa depan AI multimodal dalam bisnis

Contoh yang sangat baik dari AI multimodal yang berpandangan ke depan adalah optimasi proses bisnis perusahaan. Misalnya, sistem AI dapat menganalisis data dari berbagai sumber, seperti data penjualan, data pelanggan, dan data media sosial, untuk mengidentifikasi area yang perlu perbaikan dan menyarankan solusi yang mungkin.

Contoh lain adalah menggunakan AI multimodal untuk mengatur logistik. Menggabungkan data GPS, status gudang yang dibaca dari kamera, dan data pengiriman untuk mengoptimalkan proses logistik dan mengurangi biaya bisnis.

Banyak dari fungsionalitas ini sudah diterapkan hari ini dalam sistem kompleks seperti mobil otonom dan kota pintar. Namun, mereka belum berada pada skala ini dalam konteks bisnis yang lebih kecil.

Ringkasan

Multimodalitas, atau kemampuan untuk memproses berbagai jenis data, seperti teks, gambar, dan audio, mendorong pemahaman kontekstual yang lebih dalam dan interaksi yang lebih baik antara manusia dan sistem AI.

Pertanyaan terbuka tetap ada, kombinasi modalitas baru apa yang mungkin ada di masa depan? Misalnya, apakah mungkin untuk menggabungkan analisis teks dengan bahasa tubuh, sehingga AI dapat mengantisipasi kebutuhan pelanggan dengan menganalisis ekspresi wajah dan gerakan mereka? Jenis inovasi ini membuka cakrawala baru bagi bisnis, membantu memenuhi harapan pelanggan yang terus berubah.

AI Multimodal

Jika Anda menyukai konten kami, bergabunglah dengan komunitas lebah sibuk kami di Facebook, Twitter, LinkedIn, Instagram, YouTube, Pinterest, TikTok.

Robert Whitney

Ahli JavaScript dan instruktur yang melatih departemen TI. Tujuan utamanya adalah untuk meningkatkan produktivitas tim dengan mengajarkan orang lain bagaimana berkolaborasi secara efektif saat melakukan pengkodean.

View all posts →

AI in business:

  1. 6 plugin ChatGTP yang luar biasa yang akan memudahkan hidup Anda
  2. Menavigasi peluang bisnis baru dengan ChatGPT-4
  3. 3 penulis AI luar biasa yang harus Anda coba hari ini
  4. Aktor sintetis. 3 besar generator video AI
  5. Apa saja kelemahan dari ide bisnis saya? Sesi brainstorming dengan ChatGPT
  6. Menggunakan ChatGPT dalam bisnis
  7. Layanan dan produk baru yang beroperasi dengan AI
  8. Postingan media sosial otomatis
  9. Jadwal posting media sosial. Bagaimana AI dapat membantu?
  10. Peran AI dalam pengambilan keputusan bisnis
  11. NLP bisnis hari ini dan besok
  12. Chatbot teks yang dibantu AI
  13. Aplikasi AI dalam bisnis - gambaran umum
  14. Ancaman dan peluang AI dalam bisnis (bagian 2)
  15. Ancaman dan peluang AI dalam bisnis (bagian 1)
  16. Apa masa depan AI menurut McKinsey Global Institute?
  17. Kecerdasan buatan dalam bisnis - Pendahuluan
  18. Apa itu NLP, atau pemrosesan bahasa alami dalam bisnis
  19. Google Translate vs DeepL. 5 aplikasi penerjemahan mesin untuk bisnis
  20. Pemrosesan dokumen otomatis
  21. Operasi dan aplikasi bisnis dari voicebot
  22. Teknologi asisten virtual, atau bagaimana cara berbicara dengan AI?
  23. Apa itu Intelijen Bisnis?
  24. Bagaimana kecerdasan buatan dapat membantu dengan BPM?
  25. Kecerdasan Buatan Kreatif hari ini dan besok
  26. Kecerdasan buatan dalam manajemen konten
  27. Menjelajahi kekuatan AI dalam penciptaan musik
  28. 3 alat desain grafis AI yang berguna. AI generatif dalam bisnis
  29. AI dan media sosial – apa yang mereka katakan tentang kita?
  30. Apakah kecerdasan buatan akan menggantikan analis bisnis?
  31. Alat AI untuk manajer
  32. Pasar kerja di masa depan dan profesi yang akan datang
  33. RPA dan API di perusahaan digital
  34. Interaksi baru. Bagaimana AI mengubah cara kita mengoperasikan perangkat?
  35. AI multimodal dan aplikasinya dalam bisnis
  36. Kecerdasan buatan dan lingkungan. 3 solusi AI untuk membantu Anda membangun bisnis yang berkelanjutan
  37. Detektor konten AI. Apakah mereka sepadan?
  38. ChatGPT vs Bard vs Bing. Chatbot AI mana yang memimpin perlombaan?
  39. Apakah chatbot AI merupakan pesaing pencarian Google?
  40. Prompt Efektif ChatGPT untuk HR dan Rekrutmen
  41. Rekayasa prompt. Apa yang dilakukan seorang insinyur prompt?
  42. AI dan apa lagi? Tren teknologi teratas untuk bisnis di 2024
  43. AI dan etika bisnis. Mengapa Anda harus berinvestasi dalam solusi etis
  44. Meta AI. Apa yang perlu Anda ketahui tentang fitur-fitur yang didukung AI di Facebook dan Instagram?
  45. Regulasi AI. Apa yang perlu Anda ketahui sebagai seorang pengusaha?
  46. 5 penggunaan baru AI dalam bisnis
  47. Produk dan proyek AI - bagaimana mereka berbeda dari yang lain?
  48. AI sebagai ahli di tim Anda
  49. Tim AI vs. pembagian peran
  50. Bagaimana cara memilih bidang karir di AI?
  51. AI dalam HR: Bagaimana otomatisasi rekrutmen mempengaruhi HR dan pengembangan tim
  52. Automatisasi proses yang dibantu AI. Dari mana harus mulai?
  53. 6 alat AI paling menarik di 2023
  54. Apa analisis kematangan AI perusahaan?
  55. AI untuk personalisasi B2B
  56. Kasus penggunaan ChatGPT. 18 contoh bagaimana meningkatkan bisnis Anda dengan ChatGPT di 2024
  57. Generator mockup AI. 4 alat terbaik
  58. Mikrolearning. Cara cepat untuk mendapatkan keterampilan baru
  59. Implementasi AI yang paling menarik di perusahaan pada tahun 2024
  60. Apa tantangan yang dihadirkan oleh proyek AI?
  61. 8 Alat AI Terbaik untuk Bisnis di 2024
  62. AI dalam CRM. Apa yang diubah AI dalam alat CRM?
  63. Undang-Undang AI UE. Bagaimana Eropa mengatur penggunaan kecerdasan buatan
  64. 7 Pembuat Situs Web AI Teratas
  65. Alat tanpa kode dan inovasi AI
  66. Seberapa banyak penggunaan AI meningkatkan produktivitas tim Anda?
  67. Bagaimana cara menggunakan ChatGTP untuk riset pasar?
  68. Bagaimana cara memperluas jangkauan kampanye pemasaran AI Anda?
  69. AI dalam transportasi dan logistik
  70. Masalah bisnis apa yang dapat diperbaiki oleh AI?
  71. Bagaimana Anda mencocokkan solusi AI dengan masalah bisnis?
  72. Kecerdasan buatan di media
  73. AI dalam perbankan dan keuangan. Stripe, Monzo, dan Grab
  74. AI dalam industri perjalanan
  75. Bagaimana AI mendorong lahirnya teknologi baru
  76. AI dalam e-commerce. Tinjauan pemimpin global
  77. 4 Alat Pembuatan Gambar AI Teratas
  78. 5 Alat AI Terbaik untuk Analisis Data
  79. Revolusi AI di media sosial
  80. Apakah selalu layak untuk menambahkan kecerdasan buatan ke dalam proses pengembangan produk?
  81. 6 kesalahan bisnis terbesar yang disebabkan oleh AI
  82. Strategi AI di perusahaan Anda - bagaimana cara membangunnya?
  83. Kursus AI terbaik – 6 rekomendasi luar biasa
  84. Mengoptimalkan pendengaran media sosial dengan alat AI
  85. IoT + AI, atau bagaimana mengurangi biaya energi di sebuah perusahaan
  86. AI dalam logistik. 5 alat terbaik
  87. GPT Store – gambaran umum tentang GPT yang paling menarik untuk bisnis
  88. LLM, GPT, RAG... Apa arti akronim AI?
  89. Robot AI – masa depan atau saat ini dalam bisnis?
  90. Apa biaya untuk menerapkan AI di sebuah perusahaan?
  91. Apa yang dilakukan spesialis kecerdasan buatan?
  92. Bagaimana AI dapat membantu dalam karir seorang freelancer?
  93. Mengotomatiskan pekerjaan dan meningkatkan produktivitas. Panduan AI untuk pekerja lepas
  94. AI untuk startup – alat terbaik
  95. Membangun situs web dengan AI
  96. Sebelas Labs dan apa lagi? Startup AI yang paling menjanjikan
  97. OpenAI, Midjourney, Anthropic, Hugging Face. Siapa yang siapa di dunia AI?
  98. Data sintetis dan pentingnya untuk pengembangan bisnis Anda
  99. Mesin pencari AI teratas. Di mana mencari alat AI?
  100. Video AI. Generator video AI terbaru
  101. AI untuk manajer. Bagaimana AI dapat mempermudah pekerjaan Anda
  102. Apa yang baru di Google Gemini? Semua yang perlu Anda ketahui
  103. AI di Polandia. Perusahaan, pertemuan, dan konferensi
  104. Kalender AI. Bagaimana cara mengoptimalkan waktu Anda di sebuah perusahaan?
  105. AI dan masa depan kerja. Bagaimana mempersiapkan bisnis Anda untuk perubahan?
  106. Kloning suara AI untuk bisnis. Bagaimana cara membuat pesan suara yang dipersonalisasi dengan AI?
  107. "Kita semua adalah pengembang." Bagaimana pengembang warga dapat membantu perusahaan Anda?
  108. Fakta pemeriksaan dan halusinasi AI
  109. AI dalam perekrutan – mengembangkan materi perekrutan langkah demi langkah
  110. Sora. Bagaimana video realistis dari OpenAI akan mengubah bisnis?
  111. Midjourney v6. Inovasi dalam generasi gambar AI
  112. AI di UKM. Bagaimana UKM dapat bersaing dengan raksasa menggunakan AI?
  113. Bagaimana AI mengubah pemasaran influencer?
  114. Apakah AI benar-benar menjadi ancaman bagi pengembang? Devin dan Microsoft AutoDev
  115. Chatbot AI terbaik untuk ecommerce. Platform
  116. Chatbot AI untuk e-commerce. Studi kasus
  117. Bagaimana cara tetap mengikuti perkembangan yang terjadi di dunia AI?
  118. Menjinakkan AI. Bagaimana cara mengambil langkah pertama untuk menerapkan AI dalam bisnis Anda?
  119. Perplexity, Bing Copilot, atau You.com? Membandingkan mesin pencari AI
  120. Ahli AI di Polandia
  121. ReALM. Model bahasa yang inovatif dari Apple?
  122. Google Genie — model AI generatif yang menciptakan dunia interaktif sepenuhnya dari gambar
  123. Otomatisasi atau augmentasi? Dua pendekatan terhadap AI di sebuah perusahaan
  124. LLMOps, atau bagaimana mengelola model bahasa secara efektif dalam sebuah organisasi
  125. Generasi video AI. Cakrawala baru dalam produksi konten video untuk bisnis.
  126. Alat transkripsi AI terbaik. Bagaimana cara mengubah rekaman panjang menjadi ringkasan yang singkat?
  127. Analisis sentimen dengan AI. Bagaimana hal itu membantu mendorong perubahan dalam bisnis?
  128. Peran AI dalam moderasi konten