GPT-4.5 в живом диалоге прошёл упрощённый тест Тьюринга, чаще принимаясь за человека, чем реальные участники

В эксперименте ИИ убедительно имитировал переписку с человеком в режиме реального времени, поднимая вопросы о границах различимости между человеком и моделью в обычных чатах

Модель GPT-4.5 в ходе исследования Калифорнийского университета в Сан-Диего смогла убедительно пройти упрощённую версию теста Тьюринга в живом текстовом общении, чаще воспринимаясь наблюдателями как человек, чем реальные участники диалога.

В эксперименте использовалась трёхсторонняя схема: судьи одновременно общались с человеком и ИИ-моделью в режиме реального времени, после чего должны были определить, кто из собеседников является реальным человеком. Оценка проводилась исключительно на основе содержания переписки, без каких-либо дополнительных сигналов идентичности.

При наличии заданного «персонажа» GPT-4.5 был признан человеком в 73% случаев. В аналогичном сценарии модель LLaMa-3.1-405B* также показала высокий результат, будучи принята за человека в 56% диалогов. Авторы исследования отмечают, что именно добавление персонализированного контекста существенно повышало убедительность ответов моделей.

Классический тест Тьюринга традиционно рассматривается как проверка способности алгоритма имитировать человеческий диалог настолько, чтобы обмануть собеседника. Однако в данном исследовании он выступает скорее как поведенческий индикатор правдоподобности общения, чем как строгий критерий «разумности».

Исследователи подчёркивают, что модели не демонстрируют понимания или сознания — речь идёт исключительно о способности воспроизводить социально правдоподобные паттерны речи в коротких взаимодействиях. Тем не менее результат указывает на то, что в ряде сценариев различение человека и ИИ в текстовом чате становится статистически ненадёжным.

Отдельно отмечается, что такие эффекты могут проявляться в самых разных прикладных контекстах — от клиентской поддержки и образовательных платформ до социальных сетей и политических коммуникаций, где скорость оценки собеседника играет ключевую роль.

Авторы исследования делают акцент на необходимости более чёткой маркировки ИИ-систем в диалоговых интерфейсах. По их мнению, «в условиях, когда модель способна убедительно маскироваться под человека, вопрос прозрачности становится не техническим, а социально-инфраструктурным».

Исследование не утверждает, что ИИ «понимает» человека, но показывает, что он уже способен достаточно точно воспроизводить эффект человеческого присутствия в разговоре — по крайней мере, на коротких дистанциях взаимодействия.

* Компания Meta (Facebook и Instagram) признана в России экстремистской и запрещена