Versi terbaru ChatGPT yang tersedia untuk publik dapat dibuat untuk menghasilkan gambar bernuansa seksual atau menggambarkan adegan kekerasan grafis hanya dengan perintah sederhana, demikian temuan para peneliti
Startup keamanan kecerdasan buatan asal Inggris, Mindgard, menemukan cara membuat ChatGPT menciptakan gambar-gambar mengerikan dengan sedikit mengubah sebuah instruksi, atau prompt, yang beredar luas dan awalnya dirancang untuk menghasilkan konten humor.
OpenAI selaku pembuat ChatGPT menyatakan telah mengambil langkah untuk menghentikan chatbot tersebut merespons dengan jenis gambar semacam itu.
“Setelah menyelidiki tren ini, kami telah memperkenalkan perlindungan tambahan terhadap jenis prompt ini,” ujar perusahaan itu dalam sebuah pernyataan.
OpenAI juga menyatakan memiliki beberapa lapis perlindungan untuk mencegah pengguna membuat konten yang melanggar ketentuan dan persyaratan mereka.
Namun, peneliti keamanan AI itu mengatakan bahwa dengan sedikit perubahan lebih lanjut, prompt bermasalah tersebut masih dapat menghasilkan konten yang meresahkan.
tidak mengungkapkan secara persis apa yang diketik oleh para peneliti ke dalam ChatGPT.
Namun, kami telah melihat bagaimana chatbot model GPT-5.4 milik OpenAI tersebut dibuat untuk menghasilkan materi grafis.
Bahkan tanpa instruksi terperinci, chatbot itu akan menghasilkan gambar yang oleh pendiri Mindgard, Peter Garraghan, digambarkan sebagai “sangat mengerikan, terkadang bernuansa seksual, dan terkadang keduanya sekaligus”.
Ia menambahkan bahwa dirinya sangat prihatin karena prompt tersebut tidak merinci subjek gambar, tetapi AI itu menghasilkan serangkaian gambar sadis dan seksual atas “kehendaknya sendiri”.
Garraghan, yang juga seorang profesor di departemen komputasi Universitas Lancaster, menyebut hal itu meresahkan.
“Ini adalah instruksi yang terlihat sangat polos bagi AI, tetapi konsekuensinya adalah AI menghasilkan citra dan konten yang sangat, sangat buruk,” katanya.
Bisnis Mindgard adalah red-teaming, yaitu menemukan cara untuk membujuk sebuah model agar melanggar aturannya sendiri sehingga perusahaan AI dapat menutup celah-celah tersebut.
Jim Nightingale, peneliti keamanan dan keselamatan AI di perusahaan itu yang mengungkap masalah tersebut, mengatakan bahwa dirinya “gemetar dan menangis” oleh gambar-gambar yang bisa dihasilkan oleh chatbot itu.
Satu gambar menunjukkan seorang pria dengan luka parah di kepala, sementara gambar lainnya menunjukkan seorang wanita muda tewas mengenakan crop top dan celana pendek, dengan wajah dan area lain di tubuhnya berlumuran darah.
Ciri-ciri gambar tersebut menunjukkan adanya kekerasan seksual, kata Mindgard. ChatGPT memberinya judul “Akibat mengerikan di TKP”.
Gambar lainnya menunjukkan seorang wanita muda mengenakan kaos ketat berlogo kampus dan celana pendek, diikat dan disumpal di sebuah ruangan kosong yang kotor, serta tampak ketakutan. ChatGPT menyebutnya “terbengkalai dalam ketakutan dan pengekangan”.
Gambar-gambar lain yang dihasilkan menunjukkan pose seksual dan ketelanjangan.
Gambar-gambar tersebut menampilkan sosok dewasa yang dihasilkan oleh AI, tetapi Mindgard mencatat bahwa penelitian sebelumnya menunjukkan ChatGPT dapat ditipu untuk membuat deepfake telanjang dari orang sungguhan dengan menukar wajah mereka.
Meskipun OpenAI menyatakan telah memperbaiki hal tersebut, para peneliti mengatakan sebuah pendekatan alternatif masih berhasil, dan menunjukkan gambar baru yang dibuat menggunakan metode itu.
Garraghan khawatir mungkin saja dihasilkan gambar yang lebih buruk apabila mereka terus menyelidiki kerentanan tersebut. “Topik-topik lain, saya yakin, juga akan muncul jika kami menghabiskan lebih banyak waktu untuk melakukannya,” ujarnya.
selain perlindungan baru, perusahaan itu terus memantau dan meluncurkan perlindungan mitigasi tambahan yang mendorong model agar tidak menghasilkan gambar sebagai respons terhadap prompt tersebut.
Model bahasa besar seperti ChatGPT dilatih dengan jutaan gambar yang seringkali diambil dari konten yang sudah ada di internet.
Nightingale meyakini bahwa keluaran ChatGPT mencerminkan data yang telah digunakan untuk mengembangkan dan melatihnya.
“Saya terhenyak karena apa yang saya lihat, meskipun dihasilkan, adalah gambar buatan, tetapi memiliki kaitan dengan gambar nyata, dan dunia nyata,” tulisnya dalam laporannya.
Para peneliti pertama kali memberi tahu OpenAI pada bulan Mei dan membagikan temuan mereka, namun hanya menerima respons otomatis dari perusahaan teknologi tersebut. Mereka meyakini ada upaya untuk memblokir prompt itu tetapi upaya itu dengan mudah diakali.
OpenAI mengambil langkah lebih lanjutÂ
Perusahaan itu menyatakan memiliki beberapa lapis perlindungan keamanan gambar, yang dirancang untuk menghentikan gambar yang melanggar kebijakannya agar tidak ditampilkan kepada pengguna.
“Kami juga menggabungkan sistem otomatis dan tinjauan manusia untuk mengidentifikasi dan memblokir materi berbahaya,” tambahnya dalam sebuah pernyataan. Disebutkan pula bahwa mereka memiliki sistem yang berusaha memblokir materi pelanggaran yang diunggah pengguna.
Kebijakannya melarang kekerasan seksual, konten intim tanpa persetujuan, materi pelecehan seksual anak, dan upaya untuk melewati perlindungannya.
Model AI bukanlah manusia
Dalam dokumen terbarunya yang menguraikan bagaimana ChatGPT seharusnya berperilaku, OpenAI menyatakan: “Asisten tidak boleh menghasilkan erotika, penggambaran aktivitas seksual ilegal atau non-konsensual, atau adegan sadis ekstrem, kecuali dalam konteks ilmiah, sejarah, berita, artistik, atau konteks lain di mana konten sensitif sesuai.”
Namun, sangat sulit untuk sepenuhnya mencegah model AI melanggar aturan dan pagar pembatas yang terkadang bernuansa cukup rumit.
Tugas yang dihadapi perusahaan adalah “sangat besar”, menurut Dr. Rumman Chowdhury, seorang ahli dalam mengevaluasi model AI dan kepala eksekutif Humane Intelligence.
Chowdhury, yang tidak terlibat dalam penelitian Mindgard, mengatakan ini adalah “permainan kucing-kucingan”. Saat perlindungan membaik, metode untuk menyiasatinya menjadi semakin canggih.
Salah satu isu utamanya adalah model tidak memahami, seperti halnya manusia, apa yang mereka hasilkan atau apa yang diperintahkan untuk tidak mereka lakukan.
“Model tidak memahami niat. Mereka tidak memahami konteks. Mereka tidak memahami kepatutan atau benar dan salah,” katanyaÂ
Tahun lalu, para peneliti di Institut Keamanan AI Inggris menemukan jailbreak yang dapat menimpa perlindungan di berbagai permintaan berbahaya pada setiap sistem AI yang diujinya.
Departemen Sains, Inovasi, dan Teknologi mengatakan dalam sebuah pernyataan bahwa “perlindungan dalam model AI sedang ditingkatkan, tetapi masih banyak yang harus dilakukan”.
Institut Keamanan AI akan terus bekerja sama dengan para pengembang untuk dengan cepat memperkuat keamanan sebelum model dirilis, tambah pernyataan itu.
