Докладите за грешки, генерирани от AI, са сериозно досадни за разработчиците

Share

Генеративните AI модели като Google Bard и GitHub Copilot имат потребителски проблем: Тези, които разчитат на софтуерна помощ, може да не разбират или да не се интересуват от ограниченията на тези инструменти за машинно обучение.

Това се появи в различни индустрии. Адвокати са санкционирани за това, че цитират казуси, измислени от чатботове в съдебните си документи. Публикациите са заклеймени за статии, приписвани на фалшиви автори. И генерираното от ChatGPT медицинско съдържание е около 7 процента точно .

Въпреки че AI моделите са показали полезност за разработка на софтуер, те все още грешат много неща . Внимателните разработчици могат да смекчат тези недостатъци, но това не винаги се случва – поради невежество, безразличие или злонамереност. И когато на изкуствения интелект е позволено да прави бъркотия, разходите за почистване се прехвърлят на някой друг.

Във вторник Даниел Стенберг, основател и водещ разработчик на широко използвани проекти с отворен код curl и libcurl, повдигна този въпрос в публикация в блог , в която описва проблема с боклука, създаден от небрежното използване на AI за изследване на сигурността.

Проектът curl предлага награда за грешки на изследователите по сигурността, които открият и докладват законни уязвимости. Според Стенберг програмата е изплатила над 70 000 долара награди до момента. От 415 получени доклада за уязвимости, 64 са потвърдени като пропуски в сигурността, а 77 са счетени за информативни – грешки без очевидни последици за сигурността. Така че около 66 процента от докладите са невалидни.

Проблемът за Stenberg е, че тези доклади все още трябва да бъдат проучени и това отнема време на разработчиците. И докато тези, които изпращат доклади за грешки, са започнали да използват инструменти за изкуствен интелект, за да ускорят процеса на намиране на предполагаеми грешки и писане на доклади, тези, които преглеждат докладите за грешки, все още разчитат на преглед от хора. Резултатът от тази асиметрия е по-правдоподобно звучащи отчети, тъй като моделите на чатбот могат да произвеждат подробен, четим текст без оглед на точността.

Както казва Стенберг, AI произвежда по-добри глупости.

„Колкото по-добри са глупостите, толкова повече време и повече енергия трябва да отделим за доклада, докато го затворим“, пише той. „Глупавият доклад изобщо не помага на проекта. Вместо това отнема време и енергия на разработчиците от нещо продуктивно. Отчасти защото работата по сигурността се счита за една от най-важните области, така че има тенденция да надделява над почти всичко останало.“

Като примери той цитира два доклада, изпратени до HackerOne, общност за докладване на уязвимости. Един твърди , че описва Curl CVE-2023-38545 преди действителното разкриване. Но Стенберг трябваше да публикува във форума, за да стане ясно, че докладът за грешка е фалшив.

Той каза, че докладът, изготвен с помощта на Google Bard, „мирише на типични халюцинации в стил AI: той смесва и съпоставя факти и подробности от стари проблеми със сигурността, създавайки и измисляйки нещо ново, което няма връзка с реалността.“

Другият доклад , подаден миналата седмица, твърди, че е открил уязвимост при препълване на буфера при обработката на WebSocket. След като публикува поредица от въпроси във форума и получи съмнителни отговори от акаунта за докладване на грешки, Стенберг заключи, че не съществува такъв недостатък и подозира, че е разговарял с AI модел.

„След многократни въпроси и многобройни халюцинации разбрах, че това не е истински проблем и на същия ден следобед затворих проблема като неприложим“, пише той. „Нямаше препълване на буфера.“

Той добави: „Не знам със сигурност дали този набор от отговори от потребителя е генериран от LLM, но има няколко признака за това.“

Стенберг с готовност признава, че помощта на AI може да бъде наистина полезна. Но той твърди, че наличието на човек в цикъла прави използването и резултата от инструментите на ИИ много по-добри. Въпреки това, той очаква лекотата и полезността на тези инструменти, съчетани с финансовия стимул от премии за грешки, ще доведат до по-некачествени доклади за сигурност, генерирани от LLM, в ущърб на тези, които получават.

Feross Aboukhadijeh, главен изпълнителен директор на Security biz Socket, повтори наблюденията на Stenberg.

„Има много положителни начини, по които LLMs се използват за подпомагане на защитниците, но за съжаление LLMs помагат и на нападателите по няколко ключови начина“, каза Aboukhadijeh в имейл до The Register . „Вече виждаме, че LLMs се използват, за да помогнат на атакуващите да изпращат по-убедителен спам и дори да създават целенасочени фишинг атаки в мащаб. И все пак е важно да се отбележи, че дори Даниел признава огромния положителен потенциал на LLM, по-специално за подпомагане намирането на сигурност уязвимости.“

Aboukhadijeh каза, че Socket използва LLM заедно с рецензенти за откриване на уязвими злонамерени пакети с отворен код в екосистемите на JavaScript, Python и Go.

„Човешкият преглед е абсолютно критичен за намаляване на фалшивите положителни резултати“, каза той. „Без човешка проверка, системата има 67 процента фалшиви положителни резултати. С хората в цикъла, тя е по-близо до 1 процент. Днес Socket открива около 400 злонамерени пакета на седмица.“ ®

Подобни статии

Не пропускайте