Tech

Pihak yang bertanggungjawab di belakang dataset yang digunakan untuk melatih Stable Diffusion mendakwa bahawa mereka telah menyingkirkan CSAM

LAION, badan penyelidikan Jerman yang mencipta data yang digunakan untuk melatih Stable Diffusion, antara model AI generatif lain, telah mengeluarkan dataset baru yang mereka dakwa telah 'diperiksa dengan teliti untuk membuang pautan yang diketahui ke bahan serangan seksual kanak-kanak yang disyaki (CSAM)'.

Dataset baru, Re-LAION-5B, sebenarnya adalah pengeposan semula dataset lama, LAION-5B - tetapi dengan 'perbaikan' dilakukan dengan cadangan dari badan kebajikan Internet Watch, Human Rights Watch, Pusat Perlindungan Kanak-Kanak Kanada dan Pusat Pemerhati Internet Stanford yang sudah tiada. Ia boleh dimuat turun dalam dua versi, Penyelidikan Re-LAION-5B dan Penyelidikan Selamat Re-LAION-5B (yang juga menyingkirkan kandungan NSFW tambahan), kedua-duanya telah ditapis untuk ribuan pautan ke CSAM yang diketahui - dan 'mungkin' - LAION kata.

'LAION telah komited untuk membuang kandungan haram dari dataset sejak awal dan telah mengimplementasikan langkah-langkah yang sesuai untuk mencapainya sejak awal,' LAION menulis dalam catatan blog. 'LAION mematuhi dengan ketat prinsip bahawa kandungan haram dibuang SEGERA selepas ia diketahui.'

Perlu diperhatikan bahawa dataset LAION tidak - dan tidak pernah - mengandungi imej. Sebaliknya, mereka adalah indeks pautan ke imej dan teks imej alternatif yang dikurasi oleh LAION, yang semuanya datang dari dataset yang berbeza - Common Crawl - laman web yang digaruk dan kandungan web.

Pengeposan Re-LAION-5B datang selepas siasatan pada Disember 2023 oleh Pusat Pemerhati Internet Stanford yang mendapati bahawa LAION-5B - khususnya suatu subset yang disebut LAION-5B 400J - termasuk sekurang-kurangnya 1,679 pautan ke imej haram yang digaruk dari catatan media sosial dan laman web dewasa popular. Menurut laporan itu, 400J juga mengandungi pautan ke 'pelbagai kandungan yang tidak sesuai termasuk imej lucah, ejekan perkauman, dan stereotaip sosial yang merugikan'.

Walaupun para pengarang bersama laporan Stanford mencatat bahawa ia akan sukar untuk mengeluarkan kandungan yang menyinggung dan bahawa kehadiran CSAM tidak semestinya mempengaruhi output model yang dilatih atas dataset itu, LAION berkata ia akan menangguhkan sementara LAION-5B.

Laporan Stanford mencadangkan bahawa model yang dilatih atas LAION-5B 'harus diletakkan ke tepi dan pengedaran dihentikan jika memungkinkan'. Barangkali berkaitan, syarikat permulaan AI Runway baru-baru ini menurunkan model Stable Diffusion 1.5 daripada platform penginapan AI Hugging Face; kami telah menghubungi syarikat untuk maklumat lanjut. (Runway pada 2023 bekerjasama dengan Stability AI, syarikat di sebalik Stable Diffusion, untuk membantu melatih model Stable Diffusion asli).

Mengenai dataset Re-LAION-5B yang baru, yang mengandungi kira-kira 5.5 bilion pasangan teks-imej dan dikeluarkan di bawah lesen Apache 2.0, LAION mengatakan bahawa metadata itu boleh digunakan oleh pihak ketiga untuk membersihkan salinan sedia ada LAION-5B dengan mengeluarkan kandungan haram yang sepadan.

LAION menekankan bahawa dataset mereka adalah untuk tujuan penyelidikan - bukan komersial. Tetapi, jika sejarah menjadi petunjuk, itu tidak akan menolak beberapa organisasi. Selain Stability AI, Google sekali menggunakan dataset LAION untuk melatih model penghasil imejnya.

“Secara keseluruhan, 2,236 pautan [ke CSAM yang disyaki] telah dikeluarkan selepas sepadan dengan senarai pautan dan hentaman imej yang disediakan oleh rakan kongsi kami,” LAION teruskan dalam catatan tersebut. “Pautan-pautan ini juga mencakupi 1008 pautan yang ditemui oleh Laporan Pemerhati Internet Stanford pada Disember 2023... Kami sangat menasihati semua makmal penyelidikan dan organisasi yang masih menggunakan LAION-5B lama untuk bermigrasi ke dataset Re-LAION-5B secepat mungkin.”

Related Articles

Back to top button