Grammarly збирає тексти українською. Це потрібно для розвитку українського NLP (обробки природної мови)
Українська компанія Grammarly, яка розвиває інструменти роботи з текстами в інтернеті, хоче створити перший анотований GEC-корпус українською мовою. Це масив текстів, який необхідний для розвитку систем розпізнавання мови, голосових асистентів та інструментів виправлення граматики.
Що потрібно для створення GEC-корпусу
Щоб алгоритми могли «заговорити» українською, Grammarly збирає тексти користувачів – це можуть бути записи з соцмереж, блоги, статті, твори, вірші та листи. Тексти перевірять лінгвісти, щоб виправити стилістичні та орфографічні помилки.
«Українська мова – це мова з розвиненою морфологією. На відміну від англійської, кожне слово тут має багато словоформ («книга», «книгою», «книгами»). Методи NLP, розроблені для англійської, не завжди будуть оптимальними для української. Пошук кращих методів роботи з такими мовами – це окреме завдання, і наш корпус тут стане в нагоді», – пояснюють в компанії.
Що дасть цей проєкт
- прискорить розвиток голосових асистентів і онлайн-систем для виправлення граматики українською мовою,
- посприяє використанню якісної української мови в інтернеті,
- збільшить кількість відкритих інструментів для NLP-вивчення української мови (natural language processing або обробка природної мови).
Як допомогти
GEC-корпус української мови буде опублікований у вільному доступі. Матеріальна винагорода за участь в його створенні не передбачена, проте таким чином будь-який користувач може зробити свій внесок у розвиток української мови в онлайні.
Збір триватиме до 13 вересня. Надати готовий текст або написати текст з нуля можна тут.
Джерело: ain.ua