Предсказуемите и генериращи AI системи остават уязвими на различни атаки и всеки, който казва обратното, не е напълно честен, според Апостол Василев, компютърен учен от Националния институт за стандарти и технологии на САЩ (NIST).
„Въпреки значителния напредък, постигнат от AI и машинното обучение, тези технологии са уязвими на атаки, които могат да причинят грандиозни повреди с тежки последици“, каза той.
„Има теоретични проблеми с осигуряването на AI алгоритми, които просто все още не са решени. Ако някой каже различно, той продава змийско масло.“
Василев е съавтор на доклад по темата с Алина Опреа (Североизточния университет) и Али Фордайс и Хайръм Андерсън от магазина за сигурност Robust Intelligence, който се опитва да категоризира рисковете за сигурността, породени от AI системите. Като цяло резултатите не изглеждат добри.
Документът [PDF], озаглавен „Съпротивително машинно обучение: Таксономия и терминология на атаките и смекчаването“, следва от инициативата NIST Trustworthy AI, която отразява по-широките цели на правителството на САЩ за гарантиране на безопасността на AI. Той изследва различни техники за състезателно машинно обучение, базирани на индустриални изследвания през последните няколко десетилетия.
Изследователите са се съсредоточили върху четири специфични опасения за сигурността: избягване, отравяне, неприкосновеност на личния живот и атаки за злоупотреба, които могат да се прилагат към прогнозни (напр. разпознаване на обекти) или генеративни (напр. ChatGPT) модели.
„При атака за избягване целта на противника е да генерира конкурентни примери, които се дефинират като тестови проби, чиято класификация може да бъде променена по време на разгръщане на произволен клас по избор на атакуващия само с минимално смущение“, обяснява документът, проследявайки техниката обратно към изследванията от 1988 г.
Като пример NIST посочва техники, чрез които стоп знаците могат да бъдат маркирани по начини, които карат системите за компютърно зрение в автономните превозни средства да ги идентифицират погрешно.
След това има атаки с отравяне, при които нежелани данни се добавят към обучението на модел за машинно обучение и карат модела да реагира по нежелан начин, обикновено след получаване на конкретен вход. Документът посочва изследователска статия на Microsoft от 2020 г. , в която се казва, че атаките с отравяне са това, което най-много притеснява организациите, анкетирани относно състезателното машинно обучение.
„Атаките с отравяне, например, могат да бъдат организирани чрез контролиране на няколко дузини тренировъчни проби, което би било много малък процент от целия набор от тренировки“, смята Опреа.
Атаките срещу поверителността, които включват реконструкция на данни за обучение, които иначе би трябвало да са недостъпни, извличане на запаметени данни, правене на изводи за защитени данни и свързани прониквания, също са относително лесни за изпълнение.
И накрая, има атаки за злоупотреба, които включват пренасочване на генеративни AI системи, за да служат на целите на нападателя. „Атакуващите могат да използват възможностите на моделите на GenAI, за да насърчават реч на омразата или дискриминация, да генерират медии, които подбуждат към насилие срещу определени групи, или да мащабират офанзивни операции за киберсигурност, като създават изображения, текст или зловреден код, който позволява кибератака“, обяснява вестникът.
Целта на авторите при изброяването на тези различни категории атаки и вариации е да предложат методи за смекчаване, да помогнат на практикуващите AI да разберат опасенията, които трябва да бъдат разгледани, когато моделите се обучават и внедряват, и да насърчат разработването на по-добри защити.
Документът завършва, като отбелязва, че надеждният AI в момента включва компромис между сигурността, от една страна, и справедливостта и точността, от друга.
„Системите с изкуствен интелект, оптимизирани само за точност, са склонни да се представят по-слабо от гледна точка на конкурентна устойчивост и справедливост“, заключава той. „Обратно, AI система, оптимизирана за устойчивост на състезание, може да покаже по-ниска точност и влошени резултати за справедливост.“ ®