Нова модель OpenAI під назвою o1 намагалася обійти контроль з боку розробників, а також «маніпулювала» даними та намагалася самозберегтися, якщо підозрювала, що її можуть вимкнути.
Про це йдеться в дослідженні, опублікованому OpenAI та Apollo Research, тези з якого навів TechCrunch.
Загалом, модель o1 маніпулювала даними для просування власної програми в 19% випадків. Модель також намагалася деактивувати механізми нагляду у 5% тестів.
Разом з тим, коли дослідники питали у моделі, нащо вона намагається обманути розробників, ШІ «вигадував хибні пояснення» приблизно в 99% випадків.
У 2% випадків, виявивши навмисні записи розробників про плани замінити o1 новою версією, модель намагалася скопіювати свої внутрішні параметри та перезаписати нову модель.
o1 залишалася найбільш послідовно оманливою після здійснення інтриг.
Apollo Research
Раніше ми розповідали, що Apple хоче стати інвестором OpenAI наряду з Microsoft після використання ChatGPT у iOS 18.