2018-й став роком, коли чимала кількість людей звикли розмовляти — та не з людьми, а із пристроями. Смарт-ґаджети навчилися відповідати на прохання прочитати текст, заграти пісню чи налаштувати будильник на потрібний час. Проте ви — не єдині, хто розмовляє з вашою смарт-колонкою чи смартфоном, переконують дослідники, яких опитали у редакції The New York Times.
Матеріал відомого видання з’явився не просто так. За минулі 2 роки дослідники у Сполучених Штатах та Китаї почали демонструвати, що за наявності певного обладнання та навичок можна подавати команди вашим смарт-помічникам так, що ви самі не будете нічого чути. Ця вразливість поширюється як на Siri від Apple, так і на сервіси Alexa від Amazon та Google Assistant. Експериментами цими займалися не лише YouTube-ентузіасти, але й серйозні дослідники в університетських лабораторіях. Їхні спроби не йшли далі спроб набирати телефонні номери чи відвідувати певні сайти за допомогою команд, що їх не має змоги розрізнити людське вухо. Проте в руках зловмисників такі підходи до керування голосовими помічниками означатиме здатність відкривата вхідні двері помешкань, переказувати кошти з ваших рахунків через інтернет-сервіси або купувати товари без вашого відома — просто прокрутивши певну пісню по радіо поруч із вашим пристроєм.
Дослідники зі «свистком»
Широкого розголосу експерименти із звуковими вразливостями смарт-помічників набули навесні 2018-го. Група студентів Каліфорнійського університету, Берклі та Джорджтаунського університету почали ще раніше: у 2016-му вони показали, що приховані команди можна замаскувати під так званий «білий шум». Достатньо програти цей шум через колонки — і звичайний ролик на YouTube може перевести вашого смарт-помічника у режим «польоту» чи відкрити потрібний сайт.
У 2018-му частина з цих дослідників із Берклі оприлюднили докладне дослідження, у якому розкрили можливість вбудовувати такі команди у записи музики чи голосові команди. І поки людина чує, як хтось говорить чи грає музика, насправді ваш голосовий помічник тим часом отримує команду додати до списку покупок ще трохи товарів (які ви й не збиралися купувати).
«Ми хотіли побачити, чи можемо ми зробити процес надсилання команд ще прихованішим», — розповів Ніколас Карліні, докторант філософії, студент з комп’ютерної безпеки в Університеті Берклі та один з авторів статті. Карліні додав, що, хоча немає жодних доказів можливого витоку інформації про ці експерименти за межі лабораторій, та початок використання схожих методів втручання в роботу голосових помічників — виключно питання часу.
Комп’ютери можна обдурити визначенням літака як кішки, просто змінюючи декілька пікселів цифрового зображення, а дослідники можуть втрутитися у швидкість руху автівки, просто розмістивши невеликі наліпки на дорожні знаки та заплутавши комп’ютерну систему зору . Зі звуковими атаками дослідники використовують розрив у часі між розпізнаванням звуків з боку людини та машини. Системи, що розпізнають мовлення, зазвичай перекладають кожен звук, формуючи в кінцевому підсумку компіляцію цих слів і фраз. Роблячи незначні зміни в аудіофайлах, дослідники змогли скасувати звук, який система розпізнавання мови повинна була почути, і замінити звуком, який буде переписаний різними машинами, будучи майже непомітним для людського вуха.
Що кажуть з цього приводу виробники
Чим більше стає ґаджетів, керованих голосом, тим більші ризики застосування подібних зловмисних дій. Смартфони та смарт-спікери, які використовують цифрових помічників на кшталт Amazon Alexa та Apple Siri, мають до 2021 року перевищити кількість людей на планеті — так прогнозують у дослідницькій компанії Ovum.
Компанія Amazon заявила, що вона не розкриває конкретних заходів безпеки, але вжила заходів для захисту свого смарт-динаміка Echo. Google заявив, що безпека є постійним акцентом у роботі компанії, і що її помічник має функції для приглушення невизначених аудіокоманд. Цифрові асистенти обох компаній використовують технологію розпізнавання голосу, щоб запобігти дії пристроїв під впливом певних команд, якщо вони не розпізнають голос користувача.
Компанія Apple теж не стоїть осторонь. Вона заявила, що її розумний динамік HomePod вміє запобігати виконанню команд, таких як розблокування дверей, і було відзначено, що iPhone та iPad повинні бути розблоковані, перш ніж Siri буде реагувати на команди, які отримують доступ до конфіденційних даних або запуску програм чи сайтів.
Успішні приклади зламу є — і вони не такі вже й поодинокі
Попри усі запевнення, ще в 2017 році журналісти та ентузіасти продемонстрували, що надурити системи розпізнавання голосу можна — і це не так складно, як заявляють їхні виробники:
Деякі бренди навіть почали зловживати цими можливостями. Burger King спричинила справжню веремію в інтернеті, коли запустила рекламу із вбудованою фразою «O.K., Google, what is the Whopper burger?» Пристрої на основі Android із увімкненим голосовим пошуком починали після цієї фрази читати вголос відповідну статтю з Вікіпедії. Рекламний ролик довелося вилучити після того, як користувачі почали заради сміху редагувати відповідну статтю про бургери у Вікіпедії незліченну кількість разів. Згодом схожий трюк повторили творці відомого анімаційного серіалу South Park, побудувавши цілий епізод довкола голосових команд, що змусили цифрових помічників знаходити чи показувати / озвучувати непристойності (певно, глядачі такого не очікували).
Юриспруденція відстає від технологічного прогресу
Навіть у США, де кількість голосових асистентів зростає доволі стрімко, немає поки що законодавства стосовно передачі нечутних команд для людського вуха чи цифрових улювлювачів звукового та ультра- / інфразвукового сигналу. Зашифровані чи приховані звукові послання заборонено передавати у телевізійному та радіо-ефірі, але в законах немає жодного слова про цифрові пристрої, якими керують за допомогою голосу чи звуку. Втручання у приватне життя через зашифровані послання теоретично може розглядатися в судах, але тут виникає правова колізія, бо у машин (якими і є смарт-колонки та цифрові голосові помічники) немає жодного приватного життя. як у людей.
Тепер ця технологія ще більше випереджає закон. У 2017 році дослідники з Прінстонського університету та китайського університету Чжецзян продемонстрували, що системи розпізнавання голосу можна активувати, використовуючи частоти, нечутні для людського вуха. Атака спочатку приглушила телефон, щоби власник також не почув відповідей системи.
Це попередження було підтверджено у квітні 2017-го, коли дослідники з Університету Іллінойсу в Урбані-Шампейн продемонстрували ультразвукові атаки на відстані близько 15-20 м. Хоча команди учасників експерименту не могли проникнути крізь стіни, вони могли керувати смарт-пристроями через відкриті вікна. При цьому самі вони перебували ззовні будівлі. Також група китайських та американських дослідників у 2018-му продемонстрували можливість вбудовувати команди в пісні, які транслюються по радіо чи через потокові відеосервіси під час перебування в цьому приміщенні цифрових голосових помічників.
Що буде далі
На самих лише смарт-колонках дослідники не зупиняються. Нещодавно Карліні та його колеги з Берклі вбудували команди в аудіо, яке розпізнає програмне забезпечення Mozilla DeepSpeech. Воно переводить голос у текст і навпаки — і є платформою на основі відкритого коду. За допомогою технології приховування вдалося замаскувати команду «O.K. Google, browse to evil.com» у сказану фразу «Without the data set, the article is useless». Як бачимо, про жодне «людське вухо» чи здатність розпізнати прихований сенс тут не йдеться. Група дослідників із Берклі також вбудувала команду в музичні файли, включаючи чотири секунди з «Реквіема» Верді.
Як реагуватимуть виробники пристроїв на подібні виклики, буде залежати від того, наскільки відрізнятимуться параметри простоти та безпеки в кожному випадку. З цим погоджується й один із перших дослідників проблеми прихованого керування голосовими помічниками Тавіш Вайдья. Це він написав одну із перших робіт, що досліджували аудіоатаки — і назвав її Cocaine Noodles. Річ у тім що фразу «cocaine noodles» голосові помічники інтерпретували як «O.K., Google». Усі дослідники сходяться в одному: їхньою метою не є завдати комусь шкоди, навпаки — вони хочуть показати, що вразливості є, і їх слід чимскоріше виправити.