Grammarly збирає тексти українською. Це потрібно для розвитку українського NLP (обробки природної мови)

19.08.2020

Українська компанія Grammarly, яка розвиває інструменти роботи з текстами в інтернеті, хоче створити перший анотований GEC-корпус українською мовою. Це масив текстів, який необхідний для розвитку систем розпізнавання мови, голосових асистентів та інструментів виправлення граматики.

Що потрібно для створення GEC-корпусу

Щоб алгоритми могли «заговорити» українською, Grammarly збирає тексти користувачів – це можуть бути записи з соцмереж, блоги, статті, твори, вірші та листи. Тексти перевірять лінгвісти, щоб виправити стилістичні та орфографічні помилки.

«Українська мова – це мова з розвиненою морфологією. На відміну від англійської, кожне слово тут має багато словоформ («книга», «книгою», «книгами»). Методи NLP, розроблені для англійської, не завжди будуть оптимальними для української. Пошук кращих методів роботи з такими мовами – це окреме завдання, і наш корпус тут стане в нагоді», – пояснюють в компанії.

Що дасть цей проєкт

прискорить розвиток голосових асистентів і онлайн-систем для виправлення граматики українською мовою,
посприяє використанню якісної української мови в інтернеті,
збільшить кількість відкритих інструментів для NLP-вивчення української мови (natural language processing або обробка природної мови).

Як допомогти

GEC-корпус української мови буде опублікований у вільному доступі. Матеріальна винагорода за участь в його створенні не передбачена, проте таким чином будь-який користувач може зробити свій внесок у розвиток української мови в онлайні.

Збір триватиме до 13 вересня. Надати готовий текст або написати текст з нуля можна тут.

Джерело: ain.ua