Рубрики
Технологии

Как мы научили большую языковую модель говорить на карачаево-балкарском

Давно ничего не писал где-либо: разработка занимает много времени. Надеюсь, наш путь будет кому-либо полезен, особенно тем, кто обучает модельки на малоресурсных языках.

Большая в данном контексте — это условно. По сути, взяли Qwen3-4B-Instruct-2507 и обучили на карачаево-балкарском языке (тюркский, половецко-кыпчакская группа). По дороге пришлось написать собственный морфологический процессор для аугментации диалектов, обучить токенизатор с нуля, и найти баланс в обучении модели на сырых данных, чтобы она не забывала инструкций (а хотелось, чтобы могла отвечать).

Модель лежит на HuggingFace: TSjB/QM-4B. Работу представляли на конференции TurkLang 2026

Читать далее