GEC-корпус української від Grammarly
GEC-корпус — це сукупність текстів, авторами яких є звичайні люди. Однак через людський фактор такі тексти можуть мати одруки та помилки — сервіс GEC (Grammatical Error Correction) має на меті виправити такі помилки.
Лінгвісти Grammarly перевірили тексти на наявність граматичних, стилістичних чи орфографічних помилок. Ці дані виклали у відкритий доступ і їх можна використати для тренування та оцінки програм виправлення граматичних помилок. Призначення корпусу — наукове та практичне вивчення мови.
GEC-корпус української мови✍? Grammarly запустили проєкт, що допоможе створювати та покращувати онлайн-сервіси для української мови налічує понад тисячу різножанрових текстів (а це більш ніж 20 000 речень), які написали майже 500 волонтерів з усієї України та з-за кордону.
Головними перевагами сервісу є:
- Цей проєкт сприятиме розвитку онлайн-систем виправлення граматики в українськомовних текстах. Українська мова входить до 50 найпоширеніших мов світу; водночас якісних текстових ресурсів для дослідження української зараз існує небагато. GEC-корпус надає українській дослідницькій спільноті ще один інструмент для опрацювання природної мови та може прискорити розвиток українських комунікаційних асистентів.
- Популяризація якісної української мови в онлайні. Цей корпус буде корисним для наукової спільноти, адже надасть більше інструментів для досліджень та в результаті буде корисним для тих, хто спілкується українською онлайн.
Окрім того, проєкт зі збору та наповнення GEC-корпусу української мови стає постійним у Grammarly і буде частиною внеску компанії у розвиток українського NLP (natural language processing — опрацювання природної мови). Команда продовжить наповнювати корпус текстами за допомогою вебсайту проєкту, а також працюватиме над удосконаленням його технічної цінності, щоб збільшити його значення для наукової спільноти.
Ми вбачаємо в цьому проєкті особливу цінність для розвитку української комп'ютерної лінгвістики та української мови онлайн і саме тому ухвалили рішення зробити цей проєкт постійним для нашої компанії. Якщо підсумувати простими словами значення цієї ініціативи, то це один із маленьких кроків, які наближають нас до чудової мети — навчити комп'ютер ще краще розуміти українську мову. Саме це надихає всю нашу команду!
Настасія Осідач, Менеджерка команди комп'ютерних лінгвістів Grammarly та керівниця проєкту зі збору корпусу
Ці дані будуть корисні тим, хто цікавиться лінгвістикою, — від студента-науковця до приватної компанії — і для дослідницької роботи, і для створення або поліпшення власного онлайн-застосунка, продукту тощо.
Ми зробили GEC-корпус загальнодоступним, тож беріть його, досліджуйте та розвивайте комп'ютерне опрацювання української мови! Окрім доповнення самого корпусу текстами, команда активно вдосконалюватиме його технічну цінність. Наші лінгвісти підготують додатковий варіант анотації, що дасть змогу використовувати корпус у двох різних завданнях: виправленні тільки граматики та виправленні граматики й стилю, що суттєво збільшує можливості його використання та значення
Олексій Сивоконь, Інженер-дослідник Grammarly
Завантажити корпус можна за посиланням.