fbpx
Aa Aa Aa
Aa Aa Aa
Pročytaty vgolos
Zupynyty čytannja

✍🏻 Grammarly rozrobyly GEC-korpus ukraїnśkoї — ščo ce take ta ščo daje

✍🏻 Grammarly розробили GEC-корпус української — що це таке та що дає
Shoži korpusy isnujuť dlja bagaťoh mov, ale do śogodni ne bulo takogo anotovanogo korpusu dlja vyvčennja ukraїnśkoї movy.
Схожі корпуси існують для багатьох мов, але до сьогодні не було такого анотованого корпусу для вивчення української мови.
Читати кирилицею

Speciaľni možlyvosti

Pročytaty vgolos
Zupynyty čytannja
Kontrastna versija
  GEC-корпус української від Grammarly. GEC-корпус — це сукупність текстів, авторами яких є звичайні люди. Однак через людський фактор такі тексти можуть мати одруки та помилки — сервіс GEC (Grammatical Error Correction) має на меті виправити такі помилки. Лінгвісти Grammarly перевірили тексти на наявність граматичних, стилістичних чи орфографічних помилок. Ці дані виклали у відкритий доступ і їх можна використати для тренування та оцінки програм виправлення граматичних помилок. Призначення корпусу — наукове та практичне вивчення мови. GEC-корпус української мови налічує понад тисячу різножанрових текстів (а це більш ніж 20 000 речень), які написали майже 500 волонтерів з усієї України та з-за кордону. Читатйте також: 😤 Мовний омбудсмен пропонує створити застосунок для скарг на порушення закону про мову. Головними перевагами сервісу є: Цей проєкт сприятиме розвитку онлайн-систем виправлення граматики в українськомовних текстах. Українська мова входить до 50 найпоширеніших мов світу; водночас якісних текстових ресурсів для дослідження української зараз існує небагато. GEC-корпус надає українській дослідницькій спільноті ще один інструмент для опрацювання природної мови та може прискорити розвиток українських комунікаційних асистентів. Популяризація якісної української мови в онлайні. Цей корпус буде корисним для наукової спільноти, адже надасть більше інструментів для досліджень та в результаті буде корисним для тих, хто спілкується українською онлайн. Окрім того, проєкт зі збору та наповнення GEC-корпусу української мови стає постійним у Grammarly і буде частиною внеску компанії у розвиток українського NLP (natural language processing — опрацювання природної мови). Команда продовжить наповнювати корпус текстами за допомогою вебсайту проєкту, а також працюватиме над удосконаленням його технічної цінності, щоб збільшити його значення для наукової спільноти. Ми вбачаємо в цьому проєкті особливу цінність для розвитку української компютерної лінгвістики та української мови онлайн і саме тому ухвалили рішення зробити цей проєкт постійним для нашої компанії. Якщо підсумувати простими словами значення цієї ініціативи, то це один із маленьких кроків, які наближають нас до чудової мети — навчити компютер ще краще розуміти українську мову. Саме це надихає всю нашу команду!. Настасія Осідач. Менеджерка команди компютерних лінгвістів Grammarly та керівниця проєкту зі збору корпусу. Ці дані будуть корисні тим, хто цікавиться лінгвістикою, — від студента-науковця до приватної компанії — і для дослідницької роботи, і для створення або поліпшення власного онлайн-застосунка, продукту тощо. Ми зробили GEC-корпус загальнодоступним, тож беріть його, досліджуйте та розвивайте компютерне опрацювання української мови! Окрім доповнення самого корпусу текстами, команда активно вдосконалюватиме його технічну цінність. Наші лінгвісти підготують додатковий варіант анотації, що дасть змогу використовувати корпус у двох різних завданнях: виправленні тільки граматики та виправленні граматики й стилю, що суттєво збільшує можливості його використання та значення. Олексій Сивоконь. Інженер-дослідник Grammarly. Завантажити корпус можна за посиланням.
Реклама 👇 Замовити

GEC-korpus ukraїnśkoї vid Grammarly

GEC-korpus — ce sukupnisť tekstiv, avtoramy jakyh je zvyčajni ljudy. Odnak čerez ljudśkyj faktor taki teksty možuť maty odruky ta pomylky — servis GEC (Grammatical Error Correction) maje na meti vypravyty taki pomylky.

Lingvisty Grammarly pereviryly teksty na najavnisť gramatyčnyh, stylistyčnyh čy orfografičnyh pomylok. Ci dani vyklaly u vidkrytyj dostup i їh možna vykorystaty dlja trenuvannja ta ocinky program vypravlennja gramatyčnyh pomylok. Pryznačennja korpusu — naukove ta praktyčne vyvčennja movy.

GEC-korpus ukraїnśkoї movy✍🏻 Grammarly rozrobyly GEC-korpus ukraїnśkoї — ščo ce take ta ščo daje 1✍🏻 Grammarly zapustyly projekt, ščo dopomože stvorjuvaty ta pokraščuvaty onlajn-servisy dlja ukraїnśkoї movy naličuje ponad tysjaču riznožanrovyh tekstiv (a ce biľš niž 20 000 rečeń), jaki napysaly majže 500 volonteriv z usijeї Ukraїny ta z-za kordonu.

Čytajte takož: 😤 Movnyj ombudsmen proponuje stvoryty zastosunok dlja skarg na porušennja zakonu pro movu

Golovnymy perevagamy servisu je:

  • Cej projekt spryjatyme rozvytku onlajn-system vypravlennja gramatyky v ukraїnśkomovnyh tekstah. Ukraїnśka mova vhodyť do 50 najpošyrenišyh mov svitu; vodnočas jakisnyh tekstovyh resursiv dlja doslidžennja ukraїnśkoї zaraz isnuje nebagato. GEC-korpus nadaje ukraїnśkij doslidnyćkij spiľnoti šče odyn instrument dlja opracjuvannja pryrodnoї movy ta može pryskoryty rozvytok ukraїnśkyh komunikacijnyh asystentiv.
  • Populjaryzacija jakisnoї ukraїnśkoї movy v onlajni. Cej korpus bude korysnym dlja naukovoї spiľnoty, adže nadasť biľše instrumentiv dlja doslidžeń ta v rezuľtati bude korysnym dlja tyh, hto spilkujeťsja ukraїnśkoju onlajn.

Okrim togo, projekt zi zboru ta napovnennja GEC-korpusu ukraїnśkoї movy staje postijnym u Grammarly i bude častynoju vnesku kompaniї u rozvytok ukraїnśkogo NLP (natural language processing — opracjuvannja pryrodnoї movy). Komanda prodovžyť napovnjuvaty korpus tekstamy za dopomogoju vebsajtu projektu, a takož pracjuvatyme nad udoskonalennjam jogo tehničnoї cinnosti, ščob zbiľšyty jogo značennja dlja naukovoї spiľnoty.

My vbačajemo v ćomu projekti osoblyvu cinnisť dlja rozvytku ukraїnśkoї komp'juternoї lingvistyky ta ukraїnśkoї movy onlajn i same tomu uhvalyly rišennja zrobyty cej projekt postijnym dlja našoї kompaniї. Jakščo pidsumuvaty prostymy slovamy značennja cijeї iniciatyvy, to ce odyn iz maleńkyh krokiv, jaki nablyžajuť nas do čudovoї mety — navčyty komp'juter šče krašče rozumity ukraїnśku movu. Same ce nadyhaje vsju našu komandu!

Nastasija Osidač, Menedžerka komandy komp'juternyh lingvistiv Grammarly ta kerivnycja projektu zi zboru korpusu

Ci dani buduť korysni tym, hto cikavyťsja lingvistykoju, — vid studenta-naukovcja do pryvatnoї kompaniї — i dlja doslidnyćkoї roboty, i dlja stvorennja abo polipšennja vlasnogo onlajn-zastosunka, produktu toščo.

My zrobyly GEC-korpus zagaľnodostupnym, tož beriť jogo, doslidžujte ta rozvyvajte komp'juterne opracjuvannja ukraїnśkoї movy! Okrim dopovnennja samogo korpusu tekstamy, komanda aktyvno vdoskonaljuvatyme jogo tehničnu cinnisť. Naši lingvisty pidgotujuť dodatkovyj variant anotaciї, ščo dasť zmogu vykorystovuvaty korpus u dvoh riznyh zavdannjah: vypravlenni tiľky gramatyky ta vypravlenni gramatyky j stylju, ščo suttjevo zbiľšuje možlyvosti jogo vykorystannja ta značennja

Oleksij Syvokoń, Inžener-doslidnyk Grammarly

Zavantažyty korpus možna za posylannjam.

📱 Čytajte Na chasi u Facebook i Twitter, pidpysujteś na kanal u Telegram.

Jakščo vy znajšly pomylku, buď laska, vydiliť fragment tekstu ta natysniť Ctrl Enter.

Dodaty komentar

Takyj e-mail vže zarejestrovano. Skorystujtesja Formoju vhodu abo vvediť inšyj.

Vy vkazaly nekorektni login abo paroľ

Vybačte, dlja komentuvannja neobhidno uvijty.
Šče
Vy čytajete sajt ukraїnśkoju latynkoju. Podrobyci v Manifesti
Hello. Add your message here.

Povidomyty pro pomylku

Tekst, jakyj bude nadislano našym redaktoram: