8 мај, 2025
ПочетнаТЕХНОЛОГИЈАChatGPT сè повеќе и повеќе лаже, а никој нема објаснување зошто

ChatGPT сè повеќе и повеќе лаже, а никој нема објаснување зошто

Најновите модели на вештачка интелигенција од компанијата OpenAI сè повеќе измислуваат неточни информации, а експертите немаат објаснување за овој загрижувачки тренд. Најпрво, за што станува збор?

Според извештајот на „Њујорк тајмс“, истражувањето на OpenAI покажа дека нивните најнови модели на ChatGPT (o3 и o4-mini) халуцинираат, односно измислуваат лажни информации, значително почесто од претходниот модел GPT o1.

Бројни тестови покажаа загрижувачки тренд. O3, кој е најмоќниот систем на компанијата, халуцинирал во дури 33% од случаите за време на тестот PersonQA кој поставува прашања за јавни личности. Тоа е повеќе од двојно поголема стапка на халуцинации од претходниот систем за инференција на OpenAI, o1. Новиот модел o4-mini се покажа уште полошо со стапка на халуцинации од 48%.

Резултатите од вториот тест се уште позагрижувачки. На тестот SimpleQA, кој поставува поопшти прашања, стапките на халуцинации за о3 и о4-мини беа високи, дури 51% и 79%, соодветно. Претходниот систем, o1, халуцинираше 44% од времето.

Она што дополнително ги збунува експертите е фактот дека токму најнапредните модели на вештачка интелигенција имаат растечки проблем со халуцинации. Најновите и најмоќните технологии – таканаречените системи за инференција од компании како OpenAI, Google и кинескиот стартап DeepSeek – генерираат повеќе грешки наместо помалку.

За да се разбере што е вклучено, важно е да се објасни што се „модели на расудување“ или инференција. Едноставно кажано, овие модели се еден вид јазичен модел (LLM) дизајниран да извршува сложени задачи. Наместо само да испишуваат текст врз основа на модели на статистичка веројатност, моделите на инференција ги разложуваат прашањата или задачите на поединечни чекори слични на процесот на човеково размислување.

Првиот модел на инференција на OpenAI, o1, се појави минатата година и се тврдеше дека се совпаѓа со перформансите на докторантите по физика, хемија и биологија, а ги надминува во математика и кодирање благодарение на техниките на засилено учење.

Во тест системот, OpenAI објави табела што покажува дека ChatGPT o3 е попрецизен од o1, но ќе халуцинира двојно почесто. Што се однесува до o4-mini, овој помал модел ќе дава помалку точни одговори од o1 и o3 и ќе халуцинира три пати повеќе од o1.

Иако компанијата сè уште ги истражува причините, постојат некои теории. Истражувачката група „Transluce“ откри дека моделот o3 ги измислува дејствата што наводно ги презема додека се обидува да реши задачи. Во еден пример, o3 тврдеше дека користи MacBook Pro од 2021 година „надвор од ChatGPT“ за да ги направи пресметките, а потоа ги копирал броевите во својот одговор, што е целосно лажно.

Една хипотеза предложена од Нил Чаудри, истражувач во Transluce и поранешен вработен во OpenAI, е: „Нашата хипотеза е дека видот на засилено учење што се користи за моделот o-серијата може да ги засили проблемите што обично се ублажуваат (но не се целосно елиминирани) со стандардни процеси по обуката“.

Сепак, OpenAI негира дека проблемот е системски. „Халуцинациите не се по природа позастапени во моделите за инференција, иако активно работиме на намалување на повисоките стапки на халуцинации што ги видовме кај o3 и o4-mini“, изјави Габи Рајла од OpenAI за The Times.

Како проблемот со халуцинациите влијае на корисноста на алатките за вештачка интелигенција

Би било неодговорно да се игнорира загрижувачкиот тренд на зголемување на халуцинациите кај најновите модели на вештачка интелигенција, што значително ја намалува нивната практична вредност. Каква и да е вистината, едно е сигурно. Моделите на вештачката интелигенција мора претежно да создаваат бесмислици и лаги ако сакаат да бидат ни приближно толку корисни како што нивните поддржувачи во моментов замислуваат. Во моментов, тешко е да се верува во резултатите од кој било LLM. Практично сè мора внимателно да се провери двапати.

Тоа е во ред за некои задачи. Но, таму каде што главната придобивка е заштедата на време или труд, потребата од внимателно проверување и проверка на фактите на резултатите од вештачката интелигенција всушност ја поништува целта на нивното користење.

Не е познато дали OpenAI и остатокот од индустријата за LLM ќе успеат да ги решат сите тие несакани „роботски соништа“, но едно е сигурно – патот до сигурна вештачка интелигенција која не измислува факти е очигледно подолг отколку што очекувавме.

НАЈНОВИ ВЕСТИ

ХОРОСКОП