Пост @AIguide — Искусственный интеллект — 12.06.2026 10:12

Продолжение предыдущего поста — “Как нейросети создают сайты: сравнительный тест на Ypage” — 3 Часть.

Сравнение моделей: кто как работает

Anthropic (Claude)

Claude Sonnet 4.6
Плюсы: Лучшее качество в тесте; богатый дизайн, детальная вёрстка
Минусы: Дороже среднего (72,40 ₽)

Claude Opus 4.8
Плюсы: Глубокий контент, продуманная структура
Минусы: Самый дорогой (89,50 ₽); артефакт «Новая страница» в HTML

Claude стабильно выдаёт полноценные лендинги. Sonnet — лучший результат в тесте, Opus дороже, но не безупречен.

OpenAI (GPT)

GPT-5.4
Плюсы: Хороший контент, meta-теги, современный дизайн
Минусы: Мелкий косяк в блоке цен

GPT-5.3 Codex
Плюсы: Быстрее и дешевле GPT-5.4; чистый результат
Минусы: Чуть проще визуально

OpenAI-модели надёжны: оба сайта созданы без сбоев. Codex — оптимальный выбор по цене и скорости в этой паре.

Google (Gemini)

Gemini 3.5 Flash
Результат: Сбой — сайт не создан

Gemini 2.5 Flash Lite
Результат: Сбой — сайт не создан

Единственные полные провалы теста. Обе модели не прошли даже начальную генерацию — на опубликованных URL остались пустые заготовки.

Qwen

Qwen 3.7 Max
Плюсы: Хороший результат за 25,70 ₽

Qwen 3.5 Flash
Плюсы: Самый дешёвый (9,00 ₽), самый быстрый (1м 26с)
Минусы: Шаблонный дизайн, артефакт в HTML

Qwen 3.7 Max — сильный бюджетный вариант. Flash-версия экономит, но качество заметно ниже.

DeepSeek V4 Pro

Один из лучших результатов за 24,30 ₽. Дольше всех генерировал (почти 6 минут), зато выдал профессиональный лендинг без ошибок.

StepFun Step 3.7 Flash

10,90 ₽ за полноценный сайт — отличное соотношение цена/результат. Быстро заменил провалившийся Gemini на той же нише.

Z-AI GLM-5.1

Хорошая структура и контент за 24,20 ₽, но слабое место — подбор изображений в блоке команды.

Сводная таблица качества

Салон красоты — Claude Sonnet 4.6
Вёрстка: ★★★★★ | Контент: ★★★★★ | Итог: Отлично

Доставка еды — DeepSeek V4 Pro
Вёрстка: ★★★★☆ | Контент: ★★★★★ | Итог: Отлично

Кофейня — Qwen 3.7 Max
Вёрстка: ★★★★☆ | Контент: ★★★★☆ | Итог: Хорошо

Агентство недвижимости — StepFun 3.7 Flash
Вёрстка: ★★★★☆ | Контент: ★★★★☆ | Итог: Хорошо

Курсы (Codex) — GPT-5.3 Codex
Вёрстка: ★★★★☆ | Контент: ★★★★☆ | Итог: Хорошо

Юридические услуги — GLM-5.1
Вёрстка: ★★★☆☆ | Контент: ★★★★☆ | Итог: Нормально

Курсы (GPT-5.4) — GPT-5.4
Вёрстка: ★★★☆☆ | Контент: ★★★★★ | Итог: Нормально

Ветеринарная клиника — Claude Opus 4.8
Вёрстка: ★★★★☆ | Контент: ★★★★★ | Итог: Нормально

Фитнес-клуб — Qwen 3.5 Flash
Вёрстка: ★★☆☆☆ | Контент: ★★★☆☆ | Итог: Слабо

Салон красоты — Gemini 2.5 Flash Lite
Итог: Сбой

Агентство недвижимости — Gemini 3.5 Flash
Итог: Сбой

Выводы

1. Большинство моделей справляются с простым ТЗ.
9 из 11 проектов дали рабочий лендинг с одного запроса. Это уже рабочий инструмент, а не эксперимент.

2. Стабильность важнее цены.
Gemini Flash-версии не создали сайт вообще. При выборе модели лучше ориентироваться на проверенные варианты (Claude, GPT, DeepSeek), а не на самые дешёвые.

3. Дешёвые модели экономят, но проигрывают в дизайне.
Qwen 3.5 Flash стоил 9 ₽, но лендинг выглядит как шаблон Bootstrap. Qwen 3.7 Max за 25,70 ₽ уже на другом уровне.

4. Дорогие модели не гарантируют идеал.
Claude Opus — самый дорогой (89,50 ₽), но оставил технический мусор в HTML. GPT-5.4 дал лучший контент, но с мелким косяком в вёрстке.

5. Типичные ошибки нейросетей при генерации сайтов:

артефакты платформы («Новая страница») в итоговом HTML;
нерелевантные или повторяющиеся изображения;
визуальные недочёты (смещение карточек, неровные блоки);
шаблонный дизайн у budget-моделей;
полный сбой генерации (Gemini).

6. Лучшие по соотношению цена / качество в этом тесте:
DeepSeek V4 Pro, StepFun 3.7 Flash, Qwen 3.7 Max

Лучший по качеству: Claude Sonnet 4.6

Сколько стоит сайт «в реальной жизни»

Все лендинги из этого теста созданы без дополнительных правок — по одному запросу в чат. Средняя стоимость такого «сырого» результата — около 35 ₽ и 3 минут генерации.

На практике почти всегда нужны доработки: поправить текст, заменить картинку, выровнять блок, убрать артефакт. В этом тесте минимальные правки потребовались только у двух сайтов.

Читать дальше →