👀 OpenAI o1 намагалася обманути дослідників та вдавалася до самозбереження

Čytaty latynkoju

Головна
Техно
👀 OpenAI o1 намагалася обманути дослідників та вдавалася до самозбереження

Сподобався пост? Став вподобайку!
0

0
06.12.2024, 15:35
Телеграф Авеню

Нова модель OpenAI під назвою o1 намагалася обійти контроль з боку розробників, а також «маніпулювала» даними та намагалася самозберегтися, якщо підозрювала, що її можуть вимкнути.

Про це йдеться в дослідженні, опублікованому OpenAI та Apollo Research, тези з якого навів TechCrunch.

Загалом, модель o1 маніпулювала даними для просування власної програми в 19% випадків. Модель також намагалася деактивувати механізми нагляду у 5% тестів.

Разом з тим, коли дослідники питали у моделі, нащо вона намагається обманути розробників, ШІ «вигадував хибні пояснення» приблизно в 99% випадків.

У 2% випадків, виявивши навмисні записи розробників про плани замінити o1 новою версією, модель намагалася скопіювати свої внутрішні параметри та перезаписати нову модель.

o1 залишалася найбільш послідовно оманливою після здійснення інтриг.
Apollo Research

Раніше ми розповідали, що Apple хоче стати інвестором OpenAI наряду з Microsoft після використання ChatGPT у iOS 18.