Nova modeľ OpenAI pid nazvoju o1 namagalasja obijty kontroľ z boku rozrobnykiv, a takož «manipuljuvala» danymy ta namagalasja samozberegtysja, jakščo pidozrjuvala, ščo її možuť vymknuty.
Pro ce jdeťsja v doslidženni, opublikovanomu OpenAI ta Apollo Research, tezy z jakogo naviv TechCrunch.
Zagalom, modeľ o1 manipuljuvala danymy dlja prosuvannja vlasnoї programy v 19% vypadkiv. Modeľ takož namagalasja deaktyvuvaty mehanizmy nagljadu u 5% testiv.
Razom z tym, koly doslidnyky pytaly u modeli, naščo vona namagajeťsja obmanuty rozrobnykiv, ŠI «vygaduvav hybni pojasnennja» pryblyzno v 99% vypadkiv.
U 2% vypadkiv, vyjavyvšy navmysni zapysy rozrobnykiv pro plany zaminyty o1 novoju versijeju, modeľ namagalasja skopijuvaty svoї vnutrišni parametry ta perezapysaty novu modeľ.
o1 zalyšalasja najbiľš poslidovno omanlyvoju pislja zdijsnennja intryg.
Apollo Research
Raniše my rozpovidaly, ščo Apple hoče staty investorom OpenAI narjadu z Microsoft pislja vykorystannja ChatGPT u iOS 18.