Istraživanja otkrila kako AI ima ugrađenu sposobnost makijavelističkog laganja i obmanjivanja

10/06/2024

POVEZANE OBJAVE:

OpenAI svojim novim proizvodom cilja na svemoćni Google

Kinezi predvode pri usvajanju AI tehnologija - ali SAD su još uvijek vodeća AI sila

Infobip za FER kreirao AI chatbot "Branku"

Dva nedavna istraživanja — jedno objavljeno ovaj tjedan u časopisu PNAS, a drugo prošlog mjeseca u časopisu Patterns — otkrivaju kako veliki jezični modeli (LLM-ovima) imaju pomalo zastrašujuću sposobnost namjernog laganja i obmanjivanja, prenosi Futurism.

U radu objavljenom u PNAS-u, njemački etičar za umjetnu inteligenciju Thilo Hagendorff ka tvrdi kako sofisticirani LLM-ovi imaju sposobnost poticanja "makijavelizma", odnosno namjerne i amoralne manipulativnosti, što "može izazvati neusklađeno obmanjujuće ponašanje."

"GPT-4, na primjer, pokazuje obmanjujuće ponašanje u jednostavnim testnim scenarijima 99,16% vremena," piše istraživač sa Sveučilišta u Stuttgartu, citirajući vlastite eksperimente u kvantificiranju raznih "neprilagođenih" osobina u 10 različitih LLM-ova, većinom različitih verzija unutar OpenAI-ove GPT obitelji.

Predstavljen kao ljudski prvak u strateškoj društvenoj igri "Diplomacy," Meta-in Cicero model bio je predmet istraživanja objavljenog u Patterns-u. Kako je otkrila različita istraživačka grupa — koju čine fizičar, filozof i dva stručnjaka za sigurnost AI-ja — LLM je nadmašio svoje ljudske konkurente, i to kroz laganje!

Pod vodstvom istraživača s Massachusetts Institute of Technology (MIT), Petera Parka, taj rad je otkrio kako Cicero ne samo da se ističe u obmani, nego se čini da je naučio kako lagati što ga više koriste — situacija koja je "mnogo bliža eksplicitnoj manipulaciji" nego, recimo, sklonost AI-ja haluciniranju, u kojem modeli samouvjereno iznose pogrešne odgovore pukom slučajnosti.

Iako Hagendorff napominje kako je problem obmane i laganja kod LLM-ova posebno složen ako se uzme u obzir da AI nema nikakvu "namjeru" u ljudskom smislu, dok studija iz Patterns-a tvrdi kako unutar okvira igre Diplomacy, Cicero krši obećanje svojih programera da model "nikada neće izdati" svoje saveznike u igri.

Model, kako su autori starijeg rada primijetili, "sudjeluje u promišljenoj obmani, krši dogovore na koje je pristao i iznosi očite neistine."

Drugim riječima, kako je Park objasnio u priopćenju za javnost: "Otkrili smo kako je Meta-in AI naučio biti majstor obmane."

"Iako je Meta uspjela obučiti svoj AI da pobjeđuje u igri Diplomacy," rekao je fizičar s MIT-a u izjavi škole, "Meta nije uspjela obučiti svoj AI da pobjeđuje pošteno."

U izjavi za New York Post nakon što je istraživanje prvi put objavljeno, Meta je naglasila ključnu točku ponavljajući Parkovu tvrdnju o Cicerovoj vještini manipulacije - "modeli koje su naši istraživači izgradili obučeni su isključivo za igranje igre Diplomacy."

Poznata po tome da izričito dopušta laganje, Diplomacy je šaljivo nazvana igrom koja završava prijateljstva jer potiče prevaru protiv protivnika, a ako je Cicero bio treniran isključivo prema njenim pravilima, onda je zapravo bio treniran da laže.