«Тест Тьюринга — игра во вранье, и ИИ в ней очень хорош»: GPT-4.5 прошла расширенный «тест на человека»

Журнал Proceedings of the National Academy of Sciences опубликовал прошедшую рецензирование версию исследования Кэмерона Джонса и Бена Бергена из Калифорнийского университета в Сан-Диего — той самой работы, которая год назад в виде препринта на arXiv впервые эмпирически показала, что языковые модели проходят классический трехсторонний тест Тьюринга. Главное отличие от препринта — добавленный третий эксперимент с 15-минутными разговорами вместо пятиминутных. На длинных диалогах GPT-4.5 принимали за человека в 59% случаев, LLaMa-3.1-405B — в 56%. Это статистически неотличимо от настоящих людей, с которыми их сравнивали.