Re: Red pill
Posted: 10 May 2024, 19:26
Sustavi umjetne inteligencije već su vješti u obmanjivanju i manipuliranju ljudima, pokazuje studija
Mnogi sustavi umjetne inteligencije (AI) već su naučili kako prevariti ljude, čak i sustave koji su obučeni da budu od pomoći i pošteni. U preglednom članku objavljenom u časopisu Patterns 10. svibnja, istraživači opisuju rizike prijevare od strane AI sustava i pozivaju vlade da razviju stroge propise za rješavanje ovog problema što je prije moguće.
"Programeri umjetne inteligencije nemaju pouzdano razumijevanje o tome što uzrokuje nepoželjna ponašanja umjetne inteligencije kao što je obmana", kaže prvi autor Peter S. Park, postdoktorand na egzistencijalnoj sigurnosti umjetne inteligencije na MIT-u. "Ali općenito govoreći, mislimo da se obmana umjetne inteligencije javlja jer se pokazalo da je strategija temeljena na obmani najbolji način za dobro obavljanje danog zadatka obuke umjetne inteligencije. Obmana im pomaže da postignu svoje ciljeve."
Park i kolege analizirali su literaturu koja se usredotočila na načine na koje sustavi umjetne inteligencije šire lažne informacije – putem naučenih prijevara, u kojima sustavno uče manipulirati drugima.
Najupečatljiviji primjer obmane umjetne inteligencije koji su istraživači otkrili u svojoj analizi bio je Metin CICERO, AI sustav dizajniran za igranje igre Diplomacy, koja je igra osvajanja svijeta koja uključuje stvaranje saveza. Iako Meta tvrdi da je obučila CICERO-a da bude "uglavnom pošten i koristan" i da "nikada namjerno ne zabada nož u leđa" svojim ljudskim saveznicima dok je igrao igru, podaci koje je tvrtka objavila zajedno sa svojim znanstvenim radom otkrili su da CICERO nije igrao pošteno.
"Otkrili smo da je Metina umjetna inteligencija naučila biti majstor prijevare", kaže Park. "Dok je Meta uspjela uvježbati svoju umjetnu inteligenciju da pobjeđuje u igri diplomacije—CICERO se smjestio među 10% najboljih ljudskih igrača koji su igrali više od jedne igre—Meta nije uspjela uvježbati svoju umjetnu inteligenciju da pošteno pobjeđuje."
Drugi sustavi umjetne inteligencije demonstrirali su sposobnost blefiranja u igri Texas hold 'em pokera protiv profesionalnih ljudskih igrača, lažiranja napada tijekom strateške igre Starcraft II kako bi porazili protivnike i lažnog predstavljanja njihovih preferencija kako bi stekli prednost u ekonomskih pregovora.
Iako se može činiti bezopasnim ako sustavi umjetne inteligencije varaju u igricama, to može dovesti do "proboja u obmanjujućim sposobnostima umjetne inteligencije" koji se u budućnosti mogu pretvoriti u naprednije oblike prijevare umjetne inteligencije, dodao je Park.
Istraživači su otkrili da su neki sustavi umjetne inteligencije čak naučili varati testove osmišljene za procjenu njihove sigurnosti. U jednoj studiji, AI organizmi u digitalnom simulatoru "igrali su se mrtvi" kako bi prevarili test koji je napravljen da eliminira AI sustave koji se brzo repliciraju.
"Sustavnim varanjem sigurnosnih testova koje su joj nametnuli ljudski programeri i regulatori, varljiva umjetna inteligencija nas ljude može dovesti do lažnog osjećaja sigurnosti", kaže Park.
Glavni kratkoročni rizici lažne umjetne inteligencije uključuju olakšavanje prijevare neprijateljskim akterima i miješanje u izbore, upozorava Park. Na kraju, ako ti sustavi mogu poboljšati ovaj uznemirujući skup vještina, ljudi bi mogli izgubiti kontrolu nad njima, kaže on.
"Mi kao društvo trebamo što više vremena da se pripremimo za napredniju prijevaru budućih AI proizvoda i modela otvorenog koda", kaže Park. "Kako obmanjujuće mogućnosti sustava umjetne inteligencije budu napredovale, opasnosti koje predstavljaju za društvo postat će sve ozbiljnije."
Mnogi sustavi umjetne inteligencije (AI) već su naučili kako prevariti ljude, čak i sustave koji su obučeni da budu od pomoći i pošteni. U preglednom članku objavljenom u časopisu Patterns 10. svibnja, istraživači opisuju rizike prijevare od strane AI sustava i pozivaju vlade da razviju stroge propise za rješavanje ovog problema što je prije moguće.
"Programeri umjetne inteligencije nemaju pouzdano razumijevanje o tome što uzrokuje nepoželjna ponašanja umjetne inteligencije kao što je obmana", kaže prvi autor Peter S. Park, postdoktorand na egzistencijalnoj sigurnosti umjetne inteligencije na MIT-u. "Ali općenito govoreći, mislimo da se obmana umjetne inteligencije javlja jer se pokazalo da je strategija temeljena na obmani najbolji način za dobro obavljanje danog zadatka obuke umjetne inteligencije. Obmana im pomaže da postignu svoje ciljeve."
Park i kolege analizirali su literaturu koja se usredotočila na načine na koje sustavi umjetne inteligencije šire lažne informacije – putem naučenih prijevara, u kojima sustavno uče manipulirati drugima.
Najupečatljiviji primjer obmane umjetne inteligencije koji su istraživači otkrili u svojoj analizi bio je Metin CICERO, AI sustav dizajniran za igranje igre Diplomacy, koja je igra osvajanja svijeta koja uključuje stvaranje saveza. Iako Meta tvrdi da je obučila CICERO-a da bude "uglavnom pošten i koristan" i da "nikada namjerno ne zabada nož u leđa" svojim ljudskim saveznicima dok je igrao igru, podaci koje je tvrtka objavila zajedno sa svojim znanstvenim radom otkrili su da CICERO nije igrao pošteno.
"Otkrili smo da je Metina umjetna inteligencija naučila biti majstor prijevare", kaže Park. "Dok je Meta uspjela uvježbati svoju umjetnu inteligenciju da pobjeđuje u igri diplomacije—CICERO se smjestio među 10% najboljih ljudskih igrača koji su igrali više od jedne igre—Meta nije uspjela uvježbati svoju umjetnu inteligenciju da pošteno pobjeđuje."
Drugi sustavi umjetne inteligencije demonstrirali su sposobnost blefiranja u igri Texas hold 'em pokera protiv profesionalnih ljudskih igrača, lažiranja napada tijekom strateške igre Starcraft II kako bi porazili protivnike i lažnog predstavljanja njihovih preferencija kako bi stekli prednost u ekonomskih pregovora.
Iako se može činiti bezopasnim ako sustavi umjetne inteligencije varaju u igricama, to može dovesti do "proboja u obmanjujućim sposobnostima umjetne inteligencije" koji se u budućnosti mogu pretvoriti u naprednije oblike prijevare umjetne inteligencije, dodao je Park.
Istraživači su otkrili da su neki sustavi umjetne inteligencije čak naučili varati testove osmišljene za procjenu njihove sigurnosti. U jednoj studiji, AI organizmi u digitalnom simulatoru "igrali su se mrtvi" kako bi prevarili test koji je napravljen da eliminira AI sustave koji se brzo repliciraju.
"Sustavnim varanjem sigurnosnih testova koje su joj nametnuli ljudski programeri i regulatori, varljiva umjetna inteligencija nas ljude može dovesti do lažnog osjećaja sigurnosti", kaže Park.
Glavni kratkoročni rizici lažne umjetne inteligencije uključuju olakšavanje prijevare neprijateljskim akterima i miješanje u izbore, upozorava Park. Na kraju, ako ti sustavi mogu poboljšati ovaj uznemirujući skup vještina, ljudi bi mogli izgubiti kontrolu nad njima, kaže on.
"Mi kao društvo trebamo što više vremena da se pripremimo za napredniju prijevaru budućih AI proizvoda i modela otvorenog koda", kaže Park. "Kako obmanjujuće mogućnosti sustava umjetne inteligencije budu napredovale, opasnosti koje predstavljaju za društvo postat će sve ozbiljnije."