Foto: Alibaba Cloud
Alibaba Cloud mengumumkan pembukaan akses open-source untuk model artificial intelligence (AI) penghasil konten video (video generator) sebagai bagian dari upaya mendukung komunitas open-source, untuk model dasar video Wan2.1.
Terdapat empat model dari seri Wan2.1, versi terbaru dari model dasar video Tongyi Wanxiang (Wan), dengan 14 miliar(B) dan 1,3 miliar(B) parameter, yaitu model T2V-14B, T2V-1.3B, I2V-14B-720P, dan I2V-14B-480P. Keempatnya dirancang untuk menghasilkan gambar dan konten video berkualitas tinggi dari input teks maupun gambar.
Untuk mengaksesnya, pengguna dari kalangan akademisi, peneliti, serta institusi komersial dapat mengunduh keempat model tersebut secara global melalui komunitas model AI Alibaba Cloud, Model Scope, serta platform kolaboratif AI Hugging Face.
Diluncurkan pada awal tahun ini, seri Wan2.1 menjadi model penghasil konten video pertama yang mendukung efek teks dalam bahasa Mandarin dan Inggris. Keunggulan utamanya mencakup:
- Menghasilkan visual yang realistis dengan menangani gerakan kompleks secara akurat.
- Meningkatkan ketajaman pixel.
- Mengikuti prinsip fisika, sehingga meningkatkan kewajaran gerakan, serta mengoptimalkan ketepatan dalam mengeksekusi instruksi.
Akurasi tinggi dalam menjalankan instruksi menjadikan Wan2.1 menempati posisi teratas dalam VBench leaderboard, yang merupakan rangkaian tolok ukur komprehensif untuk model pembuat konten video.
Selain itu, Wan2.1 adalah satu-satunya model generasi video open-source yang masuk dalam lima besar VBench leaderboard di Hugging Face. Berdasarkan VBench, seri Wan2.1 mencatat skor keseluruhan sebesar 86,22%, dengan keunggulan dalam dimensi utama seperti dinamika gerakan, hubungan spasial, warna, serta interaksi multi-objek.
Dengan dibukanya akses ini, maka sektor bisnis dapat memanfaatkan AI untuk menciptakan konten visual berkualitas tinggi sesuai kebutuhan, dengan biaya yang lebih hemat, karena tidak perlu melatih model dasar video menggunakan set data yang memerlukan sumber daya komputasi besar.
Model T2V-14B lebih cocok untuk menghasilkan visual berkualitas tinggi dengan dinamika gerakan yang dinamis, sementara T2V-1.3B menawarkan keseimbangan antara kualitas hasil dan efisiensi daya komputasi, sehingga ideal bagi developer yang ingin melakukan pengembangan lanjutan serta penelitian akademis.
Sebagai contoh, model T2V-1.3B memungkinkan pengguna dengan laptop standar untuk membuat video berdurasi 5 detik dengan resolusi 480p dalam waktu sekitar 4 menit.
Selain mendukung pembuatan video dari teks (text-to-video), model I2V-14B-720P dan I2V-14B-480P juga menyediakan fitur konversi gambar ke video (image-to-video). Pengguna cukup memasukkan satu gambar beserta deskripsi teks singkat untuk menghasilkan konten video yang dinamis. Platform ini juga mendukung input gambar dengan dimensi beragam.
Dengan dibukanya akses ini, maka Alibaba Cloud menjadi salah satu perusahaan teknologi global pertama yang membuka akses open-source untuk model AI berskala besar yang dikembangkan sendiri.