В Україні з’явиться власна велика мовна модель, здатна працювати як ChatGPT або Gemini. Бета-версію першої української LLM планують запустити навесні 2026 року.
Проєкт реалізують на українських даних. У Міністерстві цифрової трансформації наголошують, що на базі цієї технології з’являться ШІ-чати та цифрові асистенти для державних сервісів і бізнесу.
Хто створює модель і на чому вона працюватиме
Технічним партнером проєкту стала компанія «Київстар». Саме вона фінансує розробку та відповідає за технічну частину, після чого готову мовну модель передадуть державі.
За основу взяли відкриті моделі Gemma від Google. Їх адаптують під українську мову, локальний контекст і специфіку державних та суспільних даних. У Мінцифрі підкреслюють, що майбутня модель працюватиме за принципом сучасних глобальних ШІ-сервісів, але буде навчена саме на українському корпусі текстів.
На якому етапі створення моделі
Наразі команда зосереджена на підготовці даних для навчання мовної моделі. Тексти збирають у державних установах, медіа, університетах і наукових організаціях. Частина матеріалів існує лише в паперовому вигляді, тому їх додатково оцифровують.
Паралельно створено експертний комітет, який працює одразу в чотирьох напрямах:
- технічному
- правовому
- культурно-історичному
- мовному
Фахівці розробляють систему тестування якості моделі та готують юридичні правила роботи з даними. У Мінцифрі зазначають, що навчання ШІ має відповідати вимогам безпеки та авторського права.
Що зроблять уже у січні
Перші практичні результати очікують уже найближчим часом. У січні команда планує завершити кілька ключових етапів:
- підготувати першу базу текстів для навчання мовної моделі
- створити покращений токенізатор, який швидше й точніше оброблятиме українську мову
- запустити власну систему оцінки якості та безпеки моделі
Крім того, у застосунку «Дія» стартує голосування. Українцям запропонують обрати назву для майбутньої мовної моделі.
У Мінцифрі очікують, що власна LLM стане фундаментом для розвитку українських ШІ-рішень і зменшить залежність від іноземних мовних моделей у державному секторі.
