Google Genie (https://sites.google.com/view/genie-2024/) adalah model dunia dasar yang dikembangkan oleh DeepMind. Ini adalah model AI generatif yang dilatih dengan lebih dari 30.000 jam rekaman video game platformer 2D yang tersedia untuk umum. Fitur kuncinya adalah kemampuan untuk menghasilkan lingkungan yang sepenuhnya interaktif dan dapat dimainkan langsung dari gambar tunggal, foto, dan bahkan sketsa yang digambar tangan.
Sumber: Genie: Generative Interactive Environments (https://arxiv.org/abs/2402.15391)
Bagaimana ini mungkin? Genie menggunakan teknik pembelajaran tanpa pengawasan dalam proses memperoleh kemampuan untuk mengontrol lingkungan dengan tepat hanya berdasarkan rekaman video. Tidak diperlukan penandaan tindakan manusia. Menggunakan modul pengkodean tindakan khusus, ia menangkap perubahan halus antara bingkai video yang berurutan dan memetakan mereka ke representasi internal gerakan, seperti melompat atau berbelok ke kiri. Model dinamika kemudian menghasilkan bingkai berikutnya dalam urutan berdasarkan tindakan yang dikodekan.
Akibatnya, Genie dapat menciptakan lingkungan permainan yang sepenuhnya dapat dikendalikan dan interaktif dari data visual mana pun. Setiap gerakan pemain menghasilkan bingkai baru yang unik secara real-time, menciptakan sesi yang halus dan dapat dimainkan. Ini adalah inovasi yang sangat besar yang memungkinkan kita untuk menciptakan seluruh dunia interaktif dari gambar atau teks.
Inovasi Genie terletak pada penggabungan beberapa elemen kunci dalam satu model:
Meski masing-masing area ini telah dieksplorasi sebelumnya, Genie adalah model pertama yang menggabungkannya untuk belajar lingkungan yang dapat dikendalikan langsung dari rekaman video. Pendekatan yang belum pernah terjadi sebelumnya ini untuk mengajarkan model tanpa pengawasan manusia adalah inovasi kunci dari Genie. Ini membuka pintu untuk menggunakan sejumlah besar video yang tersedia di Internet sebagai sumber pelatihan untuk model AI, dan mengatasi hambatan yang terkait dengan ketersediaan data berlabel yang terbatas.
Penggabungan model video generatif, model dunia, dan pembelajaran tanpa pengawasan dalam satu solusi mewakili kemajuan fundamental dalam pengembangan kecerdasan buatan. Genie menunjukkan bahwa sistem AI yang canggih dapat belajar perilaku dan lingkungan yang kompleks langsung dari data tidak terstruktur, tanpa penandaan manual. Ini adalah langkah kunci menuju pencapaian Kecerdasan Umum Buatan (AGI) yang sebenarnya.
Sumber: Google Genie (https://sites.google.com/view/genie-2024/)
Kemampuan Google Genie jauh melampaui menghasilkan video game. Model AI perintis ini dapat menemukan aplikasi di banyak bidang:
Namun, tantangan dan batasan potensial dari teknologi ini tidak boleh diabaikan. Pada tahap pengembangan saat ini, Genie bekerja paling baik di domain sempit seperti permainan platform 2D. Meningkatkan ke lingkungan 3D yang lebih kompleks akan memerlukan penelitian dan optimasi tambahan. Selain itu, ada risiko bahwa teknologi ini dapat disalahgunakan untuk membuat konten yang berbahaya atau berbahaya. Oleh karena itu, sangat penting untuk mengembangkan kerangka etika dan hukum yang kuat untuk mengatur pengembangan dan penggunaan model AI semacam itu.
Sumber: Google Genie (https://sites.google.com/view/genie-2024/)
Dengan memungkinkan penciptaan lingkungan yang sepenuhnya interaktif langsung dari data visual, tanpa perlu menandai tindakan secara manual, Google Genie mewakili terobosan sejati dalam kecerdasan buatan generatif. Model dunia dasar ini memberikan kekuatan untuk mengekspresikan citra dalam bentuk realitas virtual yang dapat dimainkan yang dapat dijelajahi dan dikendalikan oleh manusia atau agen AI.
Potensi Genie sangat besar – dari alat untuk pengembang game, hingga sumber data pelatihan tak terbatas untuk AI, hingga simulasi fisik untuk robotika. Ini juga merupakan langkah penting menuju AGI. Seiring model seperti Genie terus berkembang, batas antara dunia nyata dan virtual menjadi semakin cair.
Jika Anda menyukai konten kami, bergabunglah dengan komunitas lebah sibuk kami di Facebook, Twitter, LinkedIn, Instagram, YouTube, Pinterest, TikTok.
Ahli JavaScript dan instruktur yang melatih departemen TI. Tujuan utamanya adalah untuk meningkatkan produktivitas tim dengan mengajarkan orang lain bagaimana berkolaborasi secara efektif saat melakukan pengkodean.
Perusahaan menghadapi tantangan dalam mengelola sejumlah besar konten yang dipublikasikan secara online, mulai dari pos…
Di era transformasi digital, perusahaan memiliki akses ke jumlah data yang belum pernah terjadi sebelumnya…
Apakah Anda tahu bahwa Anda dapat mendapatkan inti dari rekaman multi-jam dari pertemuan atau percakapan…
Bayangkan sebuah dunia di mana perusahaan Anda dapat membuat video yang menarik dan dipersonalisasi untuk…
Untuk sepenuhnya memanfaatkan potensi Model Bahasa Besar (LLM), perusahaan perlu menerapkan pendekatan yang efektif dalam…
Pada tahun 2018, Unilever telah memulai perjalanan sadar untuk menyeimbangkan kemampuan otomatisasi dan augmentasi. Dalam…