AI & Technology
Microsoft Luncurkan Tiga Model Dasar Multimodal untuk Tantang Rival AI

Ringkasan Artikel
- Microsoft AI merilis tiga model dasar — transkripsi, suara, dan gambar/video — yang tersedia di Microsoft Foundry dan MAI Playground
- Perusahaan menekankan efisiensi biaya dan kecepatan sebagai keunggulan dibandingkan model pesaing
- Langkah ini menunjukkan ambisi Microsoft memperluas tumpukan AI-nya meski kemitraan strategis dengan OpenAI tetap berjalan.
Microsoft memperkenalkan tiga model dasar (foundational models) baru pada 2 April 2026 yang dirancang untuk menangani transkripsi suara, produksi audio/voice, serta generasi gambar dan video. Rilis tersebut dilakukan oleh divisi Microsoft AI yang dipimpin Mustafa Suleyman dan diposisikan untuk memperkuat portofolio multimodal perusahaan sekaligus menawarkan alternatif yang lebih murah dan cepat dibandingkan penawaran dari Google dan OpenAI. Ketiga model kini tersedia di Microsoft Foundry; dua di antaranya juga dapat diuji melalui MAI Playground.
Detail Teknis dan Penawaran Harga
Microsoft meluncurkan MAI-Transcribe-1, MAI-Voice-1, dan MAI-Image-2. MAI-Transcribe-1 mampu mentranskripsikan ucapan dalam 25 bahasa dan diklaim 2,5 kali lebih cepat daripada layanan transkripsi Azure Fast milik Microsoft. MAI-Voice-1 adalah model penghasil audio yang memungkinkan pembuatan 60 detik audio dalam satu detik serta kemampuan membuat custom voice. MAI-Image-2 menargetkan generasi gambar dan video, dan sudah sempat diuji di MAI Playground sejak 19 Maret 2026.
Microsoft juga merilis skema harga: MAI-Transcribe-1 mulai dari $0,36 per jam; MAI-Voice-1 dihitung $22 per 1 juta karakter; MAI-Image-2 dipasarkan $5 per 1 juta token untuk input teks dan $33 per 1 juta token untuk output gambar.
Strategi Produk dan Persaingan Pasar
Langkah Microsoft menegaskan strategi untuk membangun tumpukan model multimodal sendiri meskipun perusahaan masih mempertahankan kemitraan multi-tahun dengan OpenAI, termasuk investasi yang jika dijumlahkan mencapai lebih dari $13 miliar ke divisi penelitian AI. Menurut pernyataan Mustafa Suleyman, Microsoft AI membangun apa yang disebutnya sebagai "Humanist AI" — model yang dioptimalkan untuk interaksi manusia nyata dan penggunaan praktis.
Rilis ini juga menyasar persaingan langsung dengan laboratorium AI lain seperti OpenAI, Google, dan Anthropic. Microsoft menonjolkan keunggulan biaya dan kinerja sebagai nilai jual, sekaligus memasukkan model ke dalam rangkaian produk dan layanan Azure untuk menarik pelanggan enterprise.
Implikasi Untuk Pelaku Bisnis dan Pengembang
Bagi perusahaan dan pengembang, tersedianya model di Foundry dan Playground berarti akses yang lebih mudah untuk menguji dan mengintegrasikan kemampuan transkripsi, sintesis suara, serta generasi visual ke produk dan layanan mereka. Skema harga yang diumumkan memperjelas struktur biaya bagi pengambil keputusan TI yang mempertimbangkan total biaya kepemilikan (TCO) untuk beban kerja multimedia.
Namun, adopsi komersial juga membawa pertanyaan tata kelola data, lisensi suara kustom, dan integrasi keamanan — isu yang sebelumnya muncul pada penawaran model besar lainnya. Mitra dan pelanggan Microsoft kemungkinan akan mengevaluasi trade-off antara kontrol, biaya, dan risiko kepatuhan saat memilih antara penawaran Microsoft, OpenAI, atau penyedia lain.
Kesimpulan dan Langkah Selanjutnya
Peluncuran tiga model MAI memperlihatkan ambisi Microsoft untuk memperluas kapabilitas AI-nya sambil tetap memelihara relasi strategis dengan OpenAI. Untuk pasar enterprise, tawaran ini membuka opsi baru yang menjanjikan efisiensi biaya dan kinerja lebih tinggi untuk beban kerja multimodal. Pengukuran adopsi nyata akan terlihat dalam beberapa bulan ke depan ketika integrasi ke produk Microsoft dan uji coba pelanggan skala besar mulai dipublikasikan.
Pengamat industri akan memantau respons pesaing seperti Google dan OpenAI, serta bagaimana Microsoft menyeimbangkan inovasi in-house dengan kemitraan eksternal yang sudah ada.