МИТ тестираше 41 јазични модели на 11.000 работни задачи. Заклучок? Вештачката интелигенција работи приближно исто толку добро како разочаран практикант.
Минатата недела МИТ објави прелиминарни резултати од студија во која 41 јазични модели – вклучувајќи верзии на Claude, Gemini и ChatGPT – беа тестирани на повеќе од 11.000 работни задачи претежно базирани на текст, групирани по занимања од Регистарот на труд на САД. Резултатите беа оценети од луѓе со искуство во реалниот свет во тие занимања. Целта беше да се утврди колку често вештачката интелигенција може да произведе резултат што претпоставениот би го прифатил без никаква човечка интервенција.
Одговорот: околу 65% од случаите, преодната оценка е „минимално добра“, што би била двојка во македонското образование. На скала од 1 до 9, резултат од 7 се дефинира како работа што е употреблива каква што е, без потреба од корекции. Две третини од времето, тогаш, вештачката интелигенција го поминува тој праг, што звучи солидно, барем додека не погледнеме што се случува кога ќе се подигне прагот. Кога од модел се бара да се изврши „супериорно“ – резултат од 9 – веројатноста за успех никогаш не надминува 50%, без оглед на тоа колку време има на располагање моделот. Со други зборови, кога задачата бара повеќе чекори, креативност или прецизност, вештачката интелигенција почесто не успева отколку што успева.
Истражувачите го опишаа резултатот во формулација што заслужува да биде врамена и закачена на ѕидот на секој извршен директор кој размислува за намалување на бројот на вработени: Перформансите на моментално достапните модели се споредливи со оние на „разочаран практикант“ – ги исполнуваат потребните минимуми, но се борат да произведат квалитетна работа што би била употреблива без дополнителна интервенција.
Ако ова се чини дека е во спротивност со она што го слушаме со години, не сте сами. Приказната што ни ја раскажуваат, не само креаторите на модели за вештачка интелигенција, туку и консултантски куќи, деловните медиуми и Силиконската долина во целина, е приказна за експоненцијален напредок, за модели што ќе бидат доволно добри за да заменат цели оддели „следната година“. Податоците на МИТ сугерираат нешто фундаментално различно: напредокот се случува, но тој е постепен и, што е клучно, постои плафон што сè уште не знаеме како да го пробиеме.
Да земеме неколку примери од реалниот свет, бидејќи нема недостаток од нив. Минатата година, Deloitte изработи два извештаи за владини клиенти во Австралија и Канада кои беа преплавени со измислици. CNET и Sports Illustrated беа фатени како објавуваат статии генерирани од вештачка интелигенција полни со фактички грешки под имиња на фиктивни автори. Американска адвокатска фирма јавно се извини откако беше откриено дека правни референци генерирани од вештачка интелигенција кои не постоеле биле користени во барање за банкрот. Во сите овие случаи, некој одлучил дека вештачката интелигенција е „доволно добра“ – и згрешил.
Особено е интересно да се испита каде моделите на вештачка интелигенција се снаоѓаат подобро, а каде полошо. Податоците на МИТ покажуваат дека просечните стапки на успех се пониски за квалификувани улоги во правниот и ИТ секторот, додека моделите се снаоѓаат подобро на задачи базирани на текст во градежништвото и одржувањето. Без никакви поголеми изненадувања, колку е посложена работата и посериозни последиците од потенцијална грешка, толку е помалку сигурна вештачката интелигенција.
Компаниите, логично, прво го автоматизираат она што вештачката интелигенција може да го направи – едноставни задачи и позиции на почетно ниво – додека сложените работни места, оние каде што заштедите би биле најголеми, засега остануваат недостапни. Резултатот е пазар на труд на кој исчезнуваат два суштински фактори: првиот чекор во кариерата и рутината што ги научила луѓето на занаетот. Во исто време, скапите експерти продолжуваат да немаат замена. Кога за пет години ќе има недостиг од нови експерти, бидејќи никој не ги поминал некогашните помлади позиции, кругот ќе се затвори на најлош можен начин.
Истражувачите на МИТ проценуваат дека до 2029 година, повеќето модели ќе можат да извршуваат 80% до 95% од задачите базирани на текст на ниво „минимално доволно“. Околу две секунди звучи импресивно, сè додека не помислиме на самиот концепт „минимално доволно“, што е стандард што повеќето од нас нема да го прифатат, кога станува збор за сопствената работа. Нашата, но и туѓата. Дали би „легнале на кревет“ кај лекар кој го прави минимумот? Или адвокат кој е обучен да го води вашиот случај? „Минимално доволно“ е, по дефиниција, најниското прифатливо ниво, за сè над тоа, според МИТ, вештачката интелигенција во моментов нема одговор.
Конечно, тука е прашањето што го поставуваат истражувачите на МИТ, но не одговараат: Дали вештачката интелигенција некогаш ќе може да се скалира до одлични или совршени перформанси? Тоа е единственото нешто што е важно во оваа приказна. Никој не оспорува дека вештачката интелигенција може да извршува многу рутински задачи. Но, кога ни го продаваат наративот за вештачката интелигенција што го трансформира пазарот на трудот, тие не ја споменуваат алатката што ги исполнува апсолутните минимуми прифатливи две третини од случаите. Тие ни презентираат визија во која вештачката интелигенција ја извршува работата подобро од човекот.
Се испоставува дека повеќето од нас имаат слични искуства со работа со вештачка интелигенција: корисни за првата верзија, неопходни за забрзување на повторувачки задачи, но неспособни да произведат нешто што би го одобрил клиентот без внимателно да поминат низ сè што вештачката интелигенција го анализирала. Навистина е случај на разочаран практикант, на некој начин, освен што практикантот на крајот станува колега, додека вештачката интелигенција сè уште треба да се докаже во тој поглед.



