Google Genie — model AI generatif yang menciptakan dunia interaktif sepenuhnya dari gambar | AI dalam bisnis #123

Apa itu Google Genie?

Google Genie (https://sites.google.com/view/genie-2024/) adalah model dunia dasar yang dikembangkan oleh DeepMind. Ini adalah model AI generatif yang dilatih dengan lebih dari 30.000 jam rekaman video game platformer 2D yang tersedia untuk umum. Fitur kuncinya adalah kemampuan untuk menghasilkan lingkungan yang sepenuhnya interaktif dan dapat dimainkan langsung dari gambar tunggal, foto, dan bahkan sketsa yang digambar tangan.

Sumber: Genie: Generative Interactive Environments (https://arxiv.org/abs/2402.15391)

Bagaimana ini mungkin? Genie menggunakan teknik pembelajaran tanpa pengawasan dalam proses memperoleh kemampuan untuk mengontrol lingkungan dengan tepat hanya berdasarkan rekaman video. Tidak diperlukan penandaan tindakan manusia. Menggunakan modul pengkodean tindakan khusus, ia menangkap perubahan halus antara bingkai video yang berurutan dan memetakan mereka ke representasi internal gerakan, seperti melompat atau berbelok ke kiri. Model dinamika kemudian menghasilkan bingkai berikutnya dalam urutan berdasarkan tindakan yang dikodekan.

Akibatnya, Genie dapat menciptakan lingkungan permainan yang sepenuhnya dapat dikendalikan dan interaktif dari data visual mana pun. Setiap gerakan pemain menghasilkan bingkai baru yang unik secara real-time, menciptakan sesi yang halus dan dapat dimainkan. Ini adalah inovasi yang sangat besar yang memungkinkan kita untuk menciptakan seluruh dunia interaktif dari gambar atau teks.

Mengapa Genie inovatif?

Inovasi Genie terletak pada penggabungan beberapa elemen kunci dalam satu model:

model video generatif, seperti Phenaki (https://phenaki.video/), TECO (https://wilson1yan.github.io/teco/) atau maskvit (https://arxiv.org/abs/2206.11894), yang dapat memprediksi bingkai masa depan dari suatu urutan berdasarkan bingkai dan teks input, tetapi tidak menawarkan kemampuan kontrol aktif,
model dunia yang fokus pada memprediksi keadaan lingkungan masa depan berdasarkan tindakan agen, tetapi memerlukan data yang disediakan oleh manusia,
pembelajaran tanpa pengawasan, yang memungkinkan Genie untuk belajar baik dinamika lingkungan maupun ruang tindakan hanya dari data video mentah, tanpa label tindakan manusia.

Meski masing-masing area ini telah dieksplorasi sebelumnya, Genie adalah model pertama yang menggabungkannya untuk belajar lingkungan yang dapat dikendalikan langsung dari rekaman video. Pendekatan yang belum pernah terjadi sebelumnya ini untuk mengajarkan model tanpa pengawasan manusia adalah inovasi kunci dari Genie. Ini membuka pintu untuk menggunakan sejumlah besar video yang tersedia di Internet sebagai sumber pelatihan untuk model AI, dan mengatasi hambatan yang terkait dengan ketersediaan data berlabel yang terbatas.

Penggabungan model video generatif, model dunia, dan pembelajaran tanpa pengawasan dalam satu solusi mewakili kemajuan fundamental dalam pengembangan kecerdasan buatan. Genie menunjukkan bahwa sistem AI yang canggih dapat belajar perilaku dan lingkungan yang kompleks langsung dari data tidak terstruktur, tanpa penandaan manual. Ini adalah langkah kunci menuju pencapaian Kecerdasan Umum Buatan (AGI) yang sebenarnya.

Sumber: Google Genie (https://sites.google.com/view/genie-2024/)

Potensi aplikasi Google Genie

Kemampuan Google Genie jauh melampaui menghasilkan video game. Model AI perintis ini dapat menemukan aplikasi di banyak bidang:

alat untuk animator – cukup unggah gambar, sketsa, atau deskripsi teks pendek dan Genie akan menghasilkan animasi yang konsisten,
sumber pelatihan tak terbatas untuk agen AI – dengan kemampuannya untuk menggeneralisasi ke domain yang sepenuhnya baru, Genie menawarkan kumpulan tantangan yang tak terbatas di mana sistem AI masa depan dapat belajar. Kurangnya lingkungan pelatihan yang beragam sejauh ini telah menjadi salah satu hambatan utama dalam pengembangan agen AI generik,
simulasi fisik untuk robotika – penelitian telah menunjukkan bahwa Genie mampu tidak hanya mengontrol robot virtual, tetapi juga mewujudkan sifat fisik objek yang dapat berubah bentuk. Ini bisa memiliki implikasi besar untuk pengembangan robotika dan simulasi fisik,
aplikasi di industri kreatif – Genie dapat memfasilitasi penciptaan instalasi seni interaktif, pameran virtual, atau film. Cukup unggah sketsa dan model akan menghasilkan dunia 3D yang sepenuhnya dapat dikendalikan, siap untuk dijelajahi.

Namun, tantangan dan batasan potensial dari teknologi ini tidak boleh diabaikan. Pada tahap pengembangan saat ini, Genie bekerja paling baik di domain sempit seperti permainan platform 2D. Meningkatkan ke lingkungan 3D yang lebih kompleks akan memerlukan penelitian dan optimasi tambahan. Selain itu, ada risiko bahwa teknologi ini dapat disalahgunakan untuk membuat konten yang berbahaya atau berbahaya. Oleh karena itu, sangat penting untuk mengembangkan kerangka etika dan hukum yang kuat untuk mengatur pengembangan dan penggunaan model AI semacam itu.

Sumber: Google Genie (https://sites.google.com/view/genie-2024/)

Ringkasan

Dengan memungkinkan penciptaan lingkungan yang sepenuhnya interaktif langsung dari data visual, tanpa perlu menandai tindakan secara manual, Google Genie mewakili terobosan sejati dalam kecerdasan buatan generatif. Model dunia dasar ini memberikan kekuatan untuk mengekspresikan citra dalam bentuk realitas virtual yang dapat dimainkan yang dapat dijelajahi dan dikendalikan oleh manusia atau agen AI.

Potensi Genie sangat besar – dari alat untuk pengembang game, hingga sumber data pelatihan tak terbatas untuk AI, hingga simulasi fisik untuk robotika. Ini juga merupakan langkah penting menuju AGI. Seiring model seperti Genie terus berkembang, batas antara dunia nyata dan virtual menjadi semakin cair.

Jika Anda menyukai konten kami, bergabunglah dengan komunitas lebah sibuk kami di Facebook, Twitter, LinkedIn, Instagram, YouTube, Pinterest, TikTok.

Robert Whitney

Ahli JavaScript dan instruktur yang melatih departemen TI. Tujuan utamanya adalah untuk meningkatkan produktivitas tim dengan mengajarkan orang lain bagaimana berkolaborasi secara efektif saat melakukan pengkodean.

View all posts →

Robert Whitney

Next Automatisasi atau augmentasi? Dua pendekatan terhadap AI di perusahaan | AI dalam bisnis #124 »

Previous « ReALM. Model bahasa yang inovatif dari Apple? | AI dalam bisnis #121

Published by

Robert Whitney

3 days ago

Peran AI dalam moderasi konten | AI dalam bisnis #129

Perusahaan menghadapi tantangan dalam mengelola sejumlah besar konten yang dipublikasikan secara online, mulai dari pos…

2 days ago

Analisis sentimen dengan AI. Bagaimana ini membantu mendorong perubahan dalam bisnis? | AI dalam bisnis #128

Di era transformasi digital, perusahaan memiliki akses ke jumlah data yang belum pernah terjadi sebelumnya…

3 days ago

Alat transkripsi AI terbaik. Bagaimana cara mengubah rekaman panjang menjadi ringkasan yang singkat? | AI dalam bisnis #127

Apakah Anda tahu bahwa Anda dapat mendapatkan inti dari rekaman multi-jam dari pertemuan atau percakapan…

3 days ago

Google Genie — model AI generatif yang menciptakan dunia interaktif sepenuhnya dari gambar | AI dalam bisnis #123

Apa itu Google Genie?

Mengapa Genie inovatif?

Potensi aplikasi Google Genie

Ringkasan

Robert Whitney

Recent Posts

Peran AI dalam moderasi konten | AI dalam bisnis #129

Analisis sentimen dengan AI. Bagaimana ini membantu mendorong perubahan dalam bisnis? | AI dalam bisnis #128

Alat transkripsi AI terbaik. Bagaimana cara mengubah rekaman panjang menjadi ringkasan yang singkat? | AI dalam bisnis #127

Generasi video AI. Cakrawala baru dalam produksi konten video untuk bisnis | AI dalam bisnis #126

LLMOps, atau cara mengelola model bahasa secara efektif dalam sebuah organisasi | AI dalam bisnis #125

Automatisasi atau augmentasi? Dua pendekatan terhadap AI di perusahaan | AI dalam bisnis #124