Categories: AI dalam bisnisBlog

ReALM. Model bahasa yang inovatif dari Apple? | AI dalam bisnis #121

Apa itu ReALM?

ReALM adalah singkatan dari “Reference Resolution As Language Modeling,” sebuah solusi inovatif yang dikembangkan oleh peneliti Apple. Ini adalah model bahasa baru (Large Language Model, LLM) yang memperlakukan masalah pengenalan referensi sebagai tugas di bidang pemodelan bahasa.

ReALM secara efektif mengubah berbagai jenis konteks menjadi representasi tekstual, yang kemudian diproses sebagai bagian dari tugas bahasa. Ini dapat mencakup:

  • percakapan – seperti pesan teks, perintah suara kepada asisten, atau email,
  • elemen di layar – misalnya, foto, kalender, widget cuaca, atau aplikasi dan proses yang berjalan di latar belakang.

Apa yang membuat ReALM berbeda dari model pengenalan referensi lainnya? Pertama, pendekatannya – alih-alih bergantung pada pemrosesan gambar, ReALM berjalan di domain teks. Ini membuatnya jauh lebih ringan dan lebih efisien, yang seharusnya memungkinkan untuk berjalan langsung di perangkat seluler sambil menjaga privasi pengguna.

Dalam hal apa ReALM lebih baik daripada GPT-4?

Tim penelitian Apple membandingkan ReALM dengan model bahasa paling kuat di pasar saat ini – GPT-3.5 dan GPT-4 dari OpenAI. Hasilnya sangat mengesankan. Dalam tugas pengenalan referensi, varian ReALM terkecil mencapai akurasi yang sebanding dengan GPT-4! Model ReALM yang lebih besar bahkan mengungguli GPT-4 dalam mengenali referensi terhadap item yang ditampilkan di layar (http://arxiv.org/abs/2403.20329).

Apa yang menjelaskan keunggulan ini? Pertama, ReALM sangat baik dengan kueri spesifik domain, seperti yang berkaitan dengan perangkat rumah pintar. Ini karena ReALM menunjukkan pemahaman yang lebih dalam tentang konteks dengan menyempurnakan model untuk data spesifik domain.

Lebih dari itu, tidak seperti GPT-4, yang dilatih terutama pada gambar objek nyata, ReALM unggul dalam mengenali elemen tekstual dan komponen antarmuka pengguna aplikasi. Dan pemahaman antarmuka adalah kunci untuk interaksi yang lancar antara asisten suara dengan aplikasi yang kita gunakan saat ini.

Sumber: DALL·E 3, prompt: Marta M. Kania (https://www.linkedin.com/in/martamatyldakania/)

Apakah ini awal dari era asisten yang benar-benar cerdas?

Memang, integrasi ReALM dengan Siri dapat membuka babak baru dalam interaksi manusia-komputer. Dengan ReALM, Siri akan mampu memahami perintah yang mencakup referensi terhadap item yang ditampilkan di layar smartphone, serta proses dan aplikasi yang berjalan di latar belakang. Tapi kapan opsi ini akan tersedia untuk pengguna? Itu masih belum diketahui.

Kita hanya bisa berspekulasi berdasarkan kemampuan teknis model tersebut. Jadi, bagaimana Siri yang didukung ReALM mungkin bekerja? Misalnya, jika Anda sedang menjelajahi situs daftar bisnis dan melihat perusahaan yang Anda minati, Anda bisa langsung berkata kepada Siri, “Hubungi perusahaan ini,” dan asisten – menggunakan ReALM untuk menganalisis konteks – akan menemukan nomor telepon perusahaan yang Anda sebutkan dan memulai panggilan. Anda bahkan tidak perlu menjelaskan perusahaan mana yang Anda maksud.

A dan ini baru permulaan dari kemampuan ReALM. Perintah seperti “Putar daftar putar terakhir” akan memungkinkan kontrol intuitif terhadap aplikasi multimedia dan perangkat rumah pintar. ReALM juga dapat memungkinkan Siri memahami konteks percakapan dan riwayat perintah, sehingga asisten merespons dengan tepat terhadap permintaan sebelumnya dari pengguna. Ini adalah langkah menuju agen cerdas yang mendekatkan kita bukan hanya pada kecerdasan buatan yang memahami permintaan kita, tetapi juga yang tahu bagaimana melaksanakan perintah.

Dan ini baru permulaan dari apa yang bisa dilakukan ReALM. Perintah seperti “putar daftar putar terakhir” akan memungkinkan kontrol intuitif terhadap aplikasi media dan perangkat rumah pintar. ReALM juga dapat memungkinkan Siri untuk memahami konteks percakapan dan riwayat perintah, sehingga asisten merespons dengan tepat terhadap permintaan sebelumnya dari pengguna. Ini adalah langkah menuju agen cerdas, yang membawa kita lebih dekat kepada bukan kecerdasan buatan yang memahami permintaan kita, tetapi satu yang tahu bagaimana mengeksekusi perintah.

Sayangnya, pengguna perangkat Android harus menunggu. Saat ini, tidak ada informasi tentang rencana Google untuk menambahkan kemampuan Gemini ke Google Assistant. Aplikasi Google Gemini untuk perangkat Android telah dikembangkan (https://play.google.com/store/apps/details?id=com.google.android.apps.bard&hl=en_US), tetapi belum tersedia di luar Amerika Serikat.

Sumber: Google Play (https://play.google.com/store/apps/details?id=com.google.android.apps.bard&hl=en_US)

Ringkasan

ReALM adalah pendekatan inovatif Apple untuk menyelesaikan masalah pengenalan konteks oleh asisten suara. Alih-alih bergantung pada pemrosesan gambar, model bahasa ini mengubah berbagai jenis konteks menjadi representasi tekstual, yang kemudian diproses dalam tugas bahasa. Pendekatan ini memastikan tidak hanya akurasi pengenalan yang tinggi, tetapi juga kemampuan untuk beroperasi di perangkat seluler sambil menjaga privasi pengguna.

Memberikan akses kepada Siri ke ReALM dapat memberikan interaksi suara yang lebih alami dan kontekstual, langkah penting menuju asisten yang benar-benar cerdas. Dengan ReALM, Siri akan mampu merespons perintah yang terkait dengan item di layar, aplikasi, dan proses latar belakang secara instan. Satu hal yang pasti – meningkatkan kesadaran kontekstual asisten adalah kunci untuk menciptakan interaksi suara yang benar-benar cerdas dan alami, dan ReALM jelas merupakan langkah penting ke arah itu.

Jika Anda menyukai konten kami, bergabunglah dengan komunitas sibuk kami di Facebook, Twitter, LinkedIn, Instagram, YouTube, Pinterest, TikTok.

Robert Whitney

Ahli JavaScript dan instruktur yang melatih departemen TI. Tujuan utamanya adalah untuk meningkatkan produktivitas tim dengan mengajarkan orang lain bagaimana berkolaborasi secara efektif saat melakukan pengkodean.

View all posts →

Robert Whitney

Ahli JavaScript dan instruktur yang melatih departemen TI. Tujuan utamanya adalah untuk meningkatkan produktivitas tim dengan mengajarkan orang lain bagaimana berkolaborasi secara efektif saat melakukan pengkodean.

Share
Published by
Robert Whitney

Recent Posts

Peran AI dalam moderasi konten | AI dalam bisnis #129

Perusahaan menghadapi tantangan dalam mengelola sejumlah besar konten yang dipublikasikan secara online, mulai dari pos…

3 days ago

Analisis sentimen dengan AI. Bagaimana ini membantu mendorong perubahan dalam bisnis? | AI dalam bisnis #128

Di era transformasi digital, perusahaan memiliki akses ke jumlah data yang belum pernah terjadi sebelumnya…

3 days ago

Alat transkripsi AI terbaik. Bagaimana cara mengubah rekaman panjang menjadi ringkasan yang singkat? | AI dalam bisnis #127

Apakah Anda tahu bahwa Anda dapat mendapatkan inti dari rekaman multi-jam dari pertemuan atau percakapan…

3 days ago

Generasi video AI. Cakrawala baru dalam produksi konten video untuk bisnis | AI dalam bisnis #126

Bayangkan sebuah dunia di mana perusahaan Anda dapat membuat video yang menarik dan dipersonalisasi untuk…

3 days ago

LLMOps, atau cara mengelola model bahasa secara efektif dalam sebuah organisasi | AI dalam bisnis #125

Untuk sepenuhnya memanfaatkan potensi Model Bahasa Besar (LLM), perusahaan perlu menerapkan pendekatan yang efektif dalam…

3 days ago

Automatisasi atau augmentasi? Dua pendekatan terhadap AI di perusahaan | AI dalam bisnis #124

Pada tahun 2018, Unilever telah memulai perjalanan sadar untuk menyeimbangkan kemampuan otomatisasi dan augmentasi. Dalam…

3 days ago