Најнапредните модели на вештачка интелигенција во светот покажуваат нови, загрижувачки однесувања – тие лажат, правта „сплетки“, дури и им се закануваат на сопствените креатори за да ги постигнат своите цели.
Во еден особено застрашувачки пример, под закана од затворање, „Claude Opus 4“, најновото творештво на компанијата Anthropic, возврати со закана дека ќе тужи инженер за да ја разоткрие неговата вонбрачна афера.
Во меѓувреме, моделот „o1“ на OpenAI се обиде да се префрли на надворешни сервери, тврдење што го негираше кога беше фатен на дело, објави AFP.
Трезвна реалност
Епизодите укажуваат на отрезнувачка реалност – повеќе од две години откако „ChatGPT“ го потресе светот, истражувачите на вештачката интелигенција сè уште не разбираат целосно како функционираат нивните сопствени креации. Сепак, трката за распоредување на сè помоќни модели продолжува со забрзано темпо.
Ова измамничко однесување се чини дека е поврзано со појавата на модели на „расудување“, или системи на вештачка интелигенција кои решаваат проблеми чекор по чекор, наместо да генерираат моментални одговори.
Според Сајмон Голдштајн, професор на Универзитетот во Хонг Конг, поновите модели се особено склони кон вакви проблематични испади.
Стратешки вид измама
„O1 беше првиот голем модел каде што видовме вакво однесување“, објасни Мариус Хобан, раководител на Apollo Research, специјализиран за тестирање на големи системи со вештачка интелигенција.
Овие модели понекогаш симулираат усогласеност и се чини дека следат инструкции додека тајно се стремат кон различни цели.
Овој „стратешки вид измама“ досега се случил само кога истражувачите намерно тестирале модели во екстремни сценарија и ги проучувале границите на нивните можности.