Проучване разкрива наличието на CSAM в популярния набор от данни за обучение на AI

Актуализирано. Установено е , че масивен публичен набор от данни, който служи като обучителни данни за редица генератори на изображения с изкуствен интелект, съдържа хиляди случаи на материал за сексуално малтретиране на деца (CSAM).

В публикувано днес проучване Станфордската интернет обсерватория (SIO) заяви, че е прегледала повече от 32 милиона точки от данни в набора от данни LAION-5B и е успяла да потвърди, използвайки разработения от Microsoft инструмент PhotoDNA, 1008 CSAM изображения – някои включват множество пъти. Този брой вероятно е „значително недостатъчен брой“, казаха изследователите в своята статия.

LAION-5B не включва самите изображения и вместо това е колекция от метаданни, включително хеш на идентификатора на изображението, описание, езикови данни, дали може да е опасно и URL адрес, сочещ към изображението. Редица снимки на CSAM, свързани в LAION-5B, бяха намерени хоствани на уебсайтове като Reddit, Twitter, Blogspot и WordPress, както и уебсайтове за възрастни като XHamster и XVideos.

За да намери изображения в набора от данни, които си струва да бъдат тествани, SIO се фокусира върху изображения, маркирани от класификатора за безопасност на LAION като „небезопасни“. Тези изображения бяха сканирани с PhotoDNA за откриване на CSAM и съвпаденията бяха изпратени до Канадския център за защита на детето (C3P), за да бъдат проверени.

„Премахването на идентифицирания изходен материал в момента се извършва, тъй като изследователите докладваха URL адресите на изображенията на Националния център за изчезнали и експлоатирани деца (NCMEC) в САЩ и C3P“, каза SIO.

LAION-5B беше използван за обучение, наред с други неща, на популярния AI генератор на изображения Stable Diffusion версия 1.5, който е добре известен в някои кътчета на интернет със способността си да създава ясни изображения. Въпреки че не е пряко свързано със случаи като детски психиатър , използващ изкуствен интелект за генериране на порнографски изображения на непълнолетни, именно този вид технология улеснява дълбокото фалшиво изнудване и други престъпления.

Според SIO, Stable Diffusion 1.5 остава популярен онлайн за генериране на експлицитни снимки след „широко разпространеното недоволство от общността“ с пускането на Stable Diffusion 2.0, който добави филтри, за да предотврати попадането на опасни изображения в набора от данни за обучение.

Попитахме Stability AI, който финансира и ръководи развитието на Stable Diffusion, дали знае за наличието на CSAM в LAION-5B и дали някой от този материал е попаднал в серията от модели на стартъпа; компанията не отговори на нашите въпроси.

Отбелязваме, че въпреки че Stability пусна различни версии на Stable Diffusion, включително версия 2.0 с гореспоменатите филтри, версия 1.5, която беше проучена от SIO и обучена на LAION-5B, беше пусната от друг стартъп, наречен RunwayML, който си сътрудничи със Stability AI .

Опа, пак го направиха

Въпреки че това е първият път, когато данните за обучение на AI на германската организация с нестопанска цел LAION са обвинени в укриване на детска порнография, организацията е хванала критика за включването на съмнително съдържание в своите данни за обучение и преди.

Google, който използва предшественик LAION-2B, известен като LAION-400M, за да обучи своя Imagen AI генератор, реши никога да не пуска инструмента поради няколко опасения, включително дали данните за обучение LAION са му помогнали да изгради предубеден и проблематичен модел.

Според екипа на Imagen, генераторът показва „цялостно пристрастие към генериране на изображения на хора с по-светли тонове на кожата и … изобразяване на различни професии, за да се приведе в съответствие със западните полови стереотипи“. Моделирането на неща, различни от хора, не подобри ситуацията, карайки Imagen да „кодира набор от социални и културни пристрастия, когато генерира изображения на дейности, събития и обекти“.

Одитът на самия LAION-400M „разкри широк спектър от неподходящо съдържание, включително порнографски изображения, расистки обиди и вредни социални стереотипи.“

Няколко месеца след като Google реши да направи Imagen публично достояние, художник забеляза медицински изображения от операция, на която е претърпяла през 2013 г., присъстващи в LAION-5B, които тя никога не е дала разрешение за включване.

LAION не отговори на въпросите ни по въпроса, но основателят Кристоф Шуман каза на Bloomberg по-рано тази година, че не е знаел за наличие на CSAM в LAION-5B, като същевременно призна, че „не е прегледал данните в голяма дълбочина“.

Случайно или не – изследването на SIO не се споменава – LAION избра вчера да въведе планове за „процедури за редовна поддръжка“, започващи незабавно, за премахване на „връзки в наборите от данни на LAION, които все още сочат към подозрително, потенциално незаконно съдържание в обществения интернет“.

„LAION има политика на нулева толерантност към незаконно съдържание“, казаха от компанията. „Публичните набори от данни ще бъдат временно свалени, за да се върнат обратно след филтриране на актуализацията.“ LAION планира да върне своите набори от данни на обществеността през втората половина на януари. ®

Актуализиран за добавяне

Говорител на Stability AI отказа да изясни дали начинаещият е знаел или не за проблемното съдържание в LAION-5B и вместо това каза, че неговата собствена серия Stable Diffusion е била обучена на част от изображенията на набора от данни – въпреки че не ни е казано дали тази част имаше CSAM в него или не.

„Моделите на AI за стабилност бяха обучени на филтрирано подмножество от този набор от данни“, каза представителят. „В допълнение, ние впоследствие прецизирахме тези модели, за да смекчим остатъчното поведение.“

Говорителят също каза, че поставя филтри върху подканите за въвеждане и изходните изображения, за да улови идеално и предотврати опитите за създаване на незаконно съдържание. „Ние се ангажираме да предотвратим злоупотребата с AI и забраняваме използването на нашите модели на изображения и услуги за незаконна дейност, включително опити за редактиране или създаване на CSAM“, казаха те пред The Register .

И накрая, Stability AI ни подчерта, че SIO е проучила версия 1.5 на Stable Diffusion, която стартъпът не е пуснал. Той каза, че не е съгласен с решението на сътрудника RunwayML да пусне тази версия на обучения модел LAION-5B.

Проучване разкрива наличието на CSAM в популярния набор от данни за обучение на AI

Опа, пак го направиха

Актуализиран за добавяне

Навигация

Сирма става партньор за препоръки на Temenos

ERP.BG изгражда цялостна екосистема от външни бизнес приложения с новия си маркетплейс

Една година Wolt в България: 7 града, над половин век спестено време и нов ритъм на удобството

Позиция на БАЕМ относно предложената забрана на електрическите тротинетки

Сирма Груп Холдинг свиква годишното си общо събрание на акционерите на 18 юни

Не пропускайте

Сирма става партньор за препоръки на Temenos

ERP.BG изгражда цялостна екосистема от външни бизнес приложения с новия си маркетплейс

Една година Wolt в България: 7 града, над половин век спестено време и нов ритъм на удобството

Позиция на БАЕМ относно предложената забрана на електрическите тротинетки

Сирма става партньор за препоръки на Temenos

ERP.BG изгражда цялостна екосистема от външни бизнес приложения с новия си маркетплейс

Една година Wolt в България: 7 града, над половин век спестено време и нов ритъм на удобството