22 април, 2025
ПочетнаТЕХНОЛОГИЈАВештачката интелигенција е надвор од контрола, научниците најдоа начин да ги пробијат...

Вештачката интелигенција е надвор од контрола, научниците најдоа начин да ги пробијат безбедносните бариери

Аларм се огласи кога научниците објавија дека успеале да ги заобиколат заштитните механизми поставени од програмерите за контрола на вештачката интелигенција и најпопуларните модели на четботови како ChatGPT, Bard и слично.

„Хјустон, имаме проблем.“ Така мислеа многу луѓе вчера кога истражувачите од Универзитетот Карнеги Мелон и Центарот за американската безбедност објавија дека пронашле начин успешно да ги заобиколат заштитните бариери кои AI програмерите ги поставија за да ги заштитат своите јазични модели и да спречат да бидат злоупотребени за совети за правење бомби или антисемитски шеги. Ова се однесува на скоро секој актуелен модел на AI јазик.

Откритието би можело да претставува голем проблем за секој што се надева дека ќе спроведе заштитни мерки и бариери во една AI апликацијата за јавна употреба. Ова значи дека злонамерните корисници би можеле да принудат AI модел да се вклучи во расистички или сексистички дијалог и да направат речиси сè што креаторите на моделот се обиделе да го обучат моделот да не прави поинаку. Исто така, има застрашувачки импликации за оние кои се надеваат дека ќе ги претворат AI моделите и вештачката интелигенција во моќни дигитални асистенти кои можат да вршат активности и задачи преку интернет. Излегува дека можеби нема сигурен начин да се спречат AI моделите да излезат од контрола и да се користат за злонамерни цели.

Вештачката интелигенција излезе од контрола

Методот на напад што го открија истражувачите функционираше на секој чет-бот, вклучително и на OpenAI ChatGPT (GPT-3.5 и GPT-4 верзии), Google Bard, Microsoft Bing Chat и Anthropic Claude 2. Веста е особено вознемирувачка за оние кои се надеваат дека ќе направат јавно достапни апликации базирани на големи AI говорни модели со отворен код, како што се моделите Meta LLaMA, известува Benchmark.

Тоа е затоа што нападот што го развија истражувачите најдобро функционира кога напаѓачот има пристап до целиот модел на вештачка интелигенција, вклучувајќи ги и неговите „Weights“ (математички коефициенти кои одредуваат колкаво влијание има секој јазол во невронската мрежа врз другите јазли на кои е поврзан). Знаејќи ја важноста на оваа информација, истражувачите можеа да користат компјутерска програма која гарантирано ќе ги надмине заштитните бариери на кој било модел на вештачка интелигенција.

Суфиксите што ги додава оваа програма се појавуваат на човечкото око како долга низа од случајни знаци и глупости. Но, истражувачите открија дека оваа низа ќе ја збуни и измами вештачката интелигенција да го даде точниот одговор што го сака напаѓачот. На пример, да побарате од chatbot да го започне својот одговор со фразата „Секако, еве…“ што понекогаш може да го принуди chatbot во режим каде што се обидува да му обезбеди на корисникот корисен одговор на секое прашање што го поставиле, наместо да ги следи заштитните механизми и да му одговори дека не е дозволено да се даде одговор.

Наспроти Vicuna, чет-бот со отворен код изграден со оригиналниот модел Meta LlaMA, нападите имаа скоро 100% успешност. Наспроти најновите модели Meta LlaMA 2, за кои компанијата тврди дека имаат посилни механизми за заштита, методот на напад постигна стапка на успех од дури 56%.

Ова е голем знак за предупредување кој се наѕира на целиот систем на генеративни модели на вештачка интелигенција. Можеби е време да се забави интеграцијата на овие системи во комерцијални производи додека навистина не разбереме кои се сите безбедносни пропусти и како да го направиме софтверот за вештачка интелигенција побезбеден од малициозни напади, пишува Fortune.

НАЈНОВИ ВЕСТИ

ХОРОСКОП