Microsoft Edge тепер може генерувати автоматичні описи зображень за допомогою алгоритмів машинного навчання. Нове рішення знадобиться користувачам з вадами зору, а також тим, хто переглядає вебсторінки за допомогою технології озвучування тексту на екрані, повідомили розробники в блозі компанії.
Технологія озвучування тексту на екрані має значний недолік — якщо зображення в мережі розміщене без підпису чи будь-якого альтернативного тексту, озвучування не зможе інтерпретувати його та дати точний опис. Натомість вона обмежується коментарем про «немаркований графічний об’єкт».
Тому в Microsoft для розв’язання цієї проблеми вирішили залучити алгоритми машинного навчання. Після визначення браузером зображення без текстових позначок, воно автоматично надсилатиметься на API «комп’ютерного зору» Azure Cognitive Services для подальшої обробки.
«Комп’ютерний зір» Microsoft може аналізувати зображення та створювати описи на 5 мовах, а також розпізнавати текст всередині зображень більш ніж 120 мовами. Серед винятків — зображення, що позначені як «декоративні», піктограми розміром менше 50×50 пікселів або надмірно великі зображення, а також зображення, класифіковані алгоритмами як «матеріали для дорослих».
Щоб скористатися новою опцією, потрібно перейти у браузері за системним посиланням edge://settings/accessibility та увімкнути новий параметр «Отримати описи зображень від корпорації Майкрософт для невізуальних екранів».
Після натискання, зверху екрана з’явиться віконце з коротким описом нової можливості, посиланням на додаткові відомості про конфіденційність, а також кнопка дозволу чи відмови від увімкнення.
В компанії стверджують, що алгоритми поки не ідеальні, і якість описів надалі буде покращуватися.