Magazin

Modeli vještačke inteligencije naučili da lažu i prijete

30.06.2025.

OpenAI ChatGPT — Foto: Airam Dato-on/Pexels

Najnapredniji modeli vještačke inteligencije u svijetu pokazuju zabrinjavajuća nova ponašanja – lažu, spletkare, čak i prijete svojim tvorcima da bi postigli svoje ciljeve.

U jednom naročito zastrašujućem primjeru, pod prijetnjom da će biti isključena, „klod četiri“, najnovija kreacija kompanije „Antropik“, uzvratila je ucjenom jednog inženjera da će obznaniti njegovu vanbračnu aferu.

U međuvremenu, model „o1“ kompanije „OpenAI“ pokušao je da se prebaci na spoljne servere, a to je negirao kada je uhvaćen na djelu, prenosi AFP.

Ove epizode ukazuju na otrežnjujuću stvarnost – više od dvije godine nakon što je „čet dži-pi-ti“ potresao svijet, istraživači vještačke inteligencije još ne shvataju u potpunosti kako funkcionišu njihove sopstvene kreacije.

Ipak, trka za primjenom sve moćnijih modela se nastavlja vrtoglavom brzinom.

Čini se da je ovo obmanjujuće ponašanje povezano sa pojavom „rezonskih“ modela, odnosno sistema vještačke inteligencije koji rješavaju probleme korak po korak umjesto da generišu trenutne odgovore.

Prema riječima Sajmona Goldštajna, profesora na Univerzitetu u Hong Kongu, noviji modeli su posebno skloni takvim problematičnim ispadima.

– „O1“ je bio prvi veliki model gdje smo vidjeli ovakvo ponašanje – objasnio je Marijus Hoban, šef kompanije „Apolo riserč“, koja je specijalizovana za testiranje velikih sistema vještačke inteligencije.

Ovi modeli ponekad simuliraju usklađivanje i izgleda kao da prate uputstva dok tajno teže drugačijim ciljevima.

Ova „strateška vrsta obmane“ zasad se javlja samo kada istraživači namjerno testiraju modele u ekstremnim scenarijima i proučavaju granice njihovih mogućnosti.

Prijavite se na newsletter