🎤 Amazon представила сервіс синтезу персональної мови: послухайте засновника KFC

Щоб продемонструвати можливість Brand Voice, Amazon розробила для KFC алгоритм синтезу мови Полковника Сандерса, який є символом компанії.

Čytaty latynkoju

Головна
Техно
🎤 Amazon представила сервіс синтезу персональної мови: послухайте засновника KFC

Сподобався пост? Став вподобайку!
0

Amazon розробила сервіс Brand Voice, що створює синтезовану мову з голосом конкретної людини.

Про це повідомляє voicebot.ai.

Для кого

Нова функція розрахована насамперед на компанії, які хочуть використовувати у своїх сервісах голос відомого представника бренду. Щоб продемонструвати можливість Brand Voice, Amazon розробив для KFC алгоритм синтезу мови Полковника Сандерса, який є символом компанії. Послухати можна за посиланням.

Як працює функція

Компанія не розкриває, як саме працює сервіс. Скоріш за все, Brand Voice використовує алгоритм, що був описаний у статті Amazon минулого року та працює за наступним принципом. Він використовує дані конкретної людини, які згодом додає до нейромережевої моделі, що попередньо була навчена на інших даних. У підсумку компанія витрачає менше зразків мови для навчання моделі, зберігаючи водночас якість синтезу.

Загалом, Amazon Polly користується технологією NTTS, що дозволяє підбирати стилі мовлення людини, які має відображати голос. Цю технологію Amazon використовував для створення голосу Семюеля Л. Джексона для Alexa, який був випущений раніше.

Як користуватися

Нова функція працює в рамках сервісу Polly, що призначений для синтезу мови різними голосами та різними мовами. Brand Voice можна використовувати двома шляхами, як:

голос для навичок Alexa — голосового помічника.
окреме API, що отримує текст та віддає файл з аудіозаписом, який можна використовувати на власний розсуд.

Історія схожих сервісів

За останні роки з’явилося багато голосових помічників та систем синтезу мови, які розробники можуть використовувати у своїх додатках. Їх всіх об’єднує здатність говорити одним або можливо кількома голосами, які зазвичай не належать конкретним людям. Одним з винятків є голос Джона Леджена (американський співак, володар десяти премій «Греммі») в Google Assistant, але функція обмежена та періодично змінюється на стандартну.

Найбільш популярною системою синтезу мови є Google Duplex, яка працює у США та Нової Зеландії. Функція дозволяє забронювати столик у ресторані за допомогою Google Assistant. Алгоритм власноруч знаходить необхідну інформацію: телефон закладу, за яким телефонує, а згодом повідомляє користувача про результат. Система вийшла настільки реалістичною, що Google довелося навчити Duplex зазначати на початку дзвінка, що спілкується алгоритм.

Читайте також про те, що квартальна виручка Twitter вперше? Квартальна виручка Twitter вперше сягнула $1 млрд сягнула $1 млрд.

? Читайте Na chasi у Facebook і Twitter, підписуйтесь на канал у Telegram.