SenseTime, seorang Cina Perusahaan AI terkenal karena itu pengenalan wajah Technology, merilis model open source baru pada hari Selasa yang diklaim dapat menghasilkan dan menafsirkan gambar jauh lebih cepat dibandingkan model teratas yang dikembangkan oleh pesaing AS. SenseNova U1 dapat membantu perusahaan mendapatkan kembali keunggulannya setelah terpuruk para pemain terkemuka dalam perlombaan pengembangan AI di Tiongkok.
Keunggulan model ini adalah kemampuannya untuk “membaca” gambar tanpa menerjemahkannya menjadi teks terlebih dahulu, sehingga mempercepat proses dan mengurangi jumlah daya komputasi yang diperlukan. “Seluruh proses penalaran model tidak lagi terbatas pada teks. Model ini juga dapat bernalar dengan gambar,” Dahua Lin, salah satu pendiri dan kepala ilmuwan di SenseTime, mengatakan dalam sebuah wawancara dengan WIRED.
Lin, yang juga seorang profesor teknik informasi di Chinese University of Hong Kong, mengatakan bahwa model yang mampu memproses gambar secara langsung akan memungkinkan robot untuk lebih memahami dunia fisik di masa depan.
Seperti model andalan terbaru DeepSeek, SenseTime mengatakan U1 dapat ditenagai oleh chip buatan China. “Beberapa pembuat chip dalam negeri Tiongkok telah selesai mengoptimalkan kompatibilitas dengan model baru kami,” kata Lin. Pada hari peluncurannya, 10 perancang chip Tiongkok, termasuk Cambricon dan Biren Technology, mengumumkan bahwa perangkat keras mereka mendukung U1.
Fleksibilitas itu penting karena Kontrol ekspor AS membatasi perusahaan Tiongkok untuk mengakses chip AI tercanggih di dunia, khususnya yang digunakan untuk pelatihan, yang saat ini terutama dikembangkan oleh perusahaan Barat seperti Nvidia. “Kami akan terus mendorong pelatihan tentang lebih banyak chip yang berbeda,” kata Lin. Namun dia juga mengakui bahwa SenseTime “mungkin masih perlu menggunakan chip terbaik untuk memastikan kecepatan iterasi kami.”
SenseTime merilis U1 secara gratis di Hugging Face dan GitHub, yang merupakan tanda lain bagaimana perusahaan Tiongkok menjadi kontributor paling aktif terhadap AI open source.
SenseTime didirikan pada tahun 2014 dan menjadi pemimpin dunia dalam visi komputer, yang digunakan dalam aplikasi seperti pengenalan wajah dan mengemudi otonom. Namun ketika ChatGPT dan sistem AI lainnya yang didukung oleh pemrosesan bahasa alami menjadi hal yang paling populer di industri teknologi, SenseTime mulai kesulitan untuk menghasilkan keuntungan dan tertinggal dari startup baru Tiongkok seperti DeepSeek dan MiniMax.
SenseTime mengatakan pihaknya berharap dengan merilis SenseNova-U1 secara publik agar dapat digunakan oleh siapa saja akan membantu mereka mengejar ketertinggalan dari pemain AI domestik dan Barat. Lin mengatakan perusahaan akhirnya membuat keputusan tahun lalu untuk fokus pada open source karena masukan bermanfaat yang didapat dari para peneliti, yang memungkinkan perusahaan untuk melakukan iterasi lebih cepat. “Di zaman sekarang ini, menjadi open source atau close source bukanlah faktor penentunya; kecepatan iterasilah yang menentukan,” jelas Lin.
Menjadi open source juga membantu SenseTime terus berkolaborasi dengan peneliti internasional tanpa campur tangan geopolitik. Perusahaan tersebut telah berulang kali dijatuhi sanksi oleh pemerintah AS dalam beberapa tahun terakhir atas tuduhan bahwa teknologi pengenalan wajah mereka membantu memperkuat sistem pengawasan yang digunakan untuk memantau dan menahan warga Uighur dan kelompok minoritas lainnya di wilayah Xinjiang, Tiongkok. Akibatnya, perusahaan-perusahaan AS dilarang berinvestasi di SenseTime dan menjual teknologi tertentu tanpa izin. (SenseTime membantah tuduhan tersebut.)

Contoh gambar yang dibuat menggunakan SenseNova U1. Dihasilkan menggunakan AI
Atas perkenan SenseTime
Melihat dengan Jelas
Dalam laporan teknis yang menyertainya, SenseTime mengklaim bahwa SenseNova-U1 menghasilkan gambar berkualitas lebih tinggi dibandingkan semua model open source lainnya yang saat ini ada di pasaran. Kinerjanya sebanding dengan model sumber tertutup terkemuka di Tiongkok seperti Qwen dari Alibaba dan Seedream dari ByteDance, namun masih tertinggal dari pemimpin industri seperti GPT-Image-2.0, yang dirilis seminggu yang lalu.
Namun nilai jual utama model ini adalah kemampuannya menghasilkan gambar jauh lebih cepat dibandingkan semua model tersebut. Ini bergantung pada struktur teknis inovatif yang disebut NEO-Unify yang dipratinjau SenseTime awal tahun ini.
Arsitektur baru model ini, yang dapat meningkatkan efisiensi dan kinerja, adalah hal yang membedakan U1, kata Adina Yakefu, peneliti AI di Hugging Face. “Ini adalah pendekatan yang lebih ambisius, karena masih menghadapi tantangan praktis yang signifikan,” katanya. “Ada baiknya mereka memutuskan untuk menjadikannya open source, sehingga komunitas dapat mengeksplorasi dan mengujinya lebih luas.” Model ini juga cukup kecil untuk dijalankan di PC dan ponsel, sehingga berpotensi berguna dalam banyak skenario.
Lin mengatakan teknik yang dikembangkan SenseTime akan sangat berguna dalam bidang robotika. Saat robot mencoba memproses dunia visual, ia perlu memilah sejumlah besar informasi. “Ia harus berpikir, ‘Bagaimana saya harus mengatasi semua kekacauan di ruangan ini? Jika ada mesin rumit di depan saya, tombol mana yang harus saya tekan?’ Semua ini merupakan bentuk informasi, dan perlu diintegrasikan ke dalam penilaian internal model,” katanya. Karena dapat memahami gambar secara alami, Lin berharap teknologi SenseTime akan membantu robot bertindak lebih cepat dan membuat lebih sedikit kesalahan di lingkungan yang kompleks.
Tiongkok sedang berada di tengah-tengah a ledakan robot humanoid. Meskipun SenseTime saat ini tidak mengembangkan robotnya sendiri, Lin mengatakan pihaknya bekerja sama dengan ACE Robotics, sebuah startup yang dipimpin oleh salah satu pendiri SenseTime lainnya. Mereka juga mengembangkan model yang berspesialisasi dalam pemahaman geospasial, atau menciptakan simulasi dunia nyata.