Компания Mozilla представила новую версию датасета Common Voice, в который вошли записи речи более 200 тысяч людей. Датасет доступен по лицензии CC0 (общественное достояние), его можно использовать для разработки моделей распознавания и генерации речи.
Объём собранного речевого материала в новой версии увеличился с 32,6 до 33,1 тыс. часов, количество поддерживаемых языков выросло с 129 до 133 (добавились записи на арагонском языке, а также языках исиндебеле, южный сото и тупури). Датасет содержит 3,6 тыс. часов речи на английском, 3,3 тыс. часов речи на русском, 1,8 тыс. на белорусском, 114 часов на украинском, 265 на узбекском.