Расследование: нейросети обучались на тысячах фильмов и сериалов без согласия их создателей

Издание The Atlantic обнаружило, что технологические компании используют субтитры из фильмов и сериалов, включая “Крестный отец” и “Вы все тяжкие”, для обучения своих языковых моделей на базе генеративного ИИ. Сообщается, что работа над совершенствованием ChatGPT и других нейросетей происходила без согласия сценаристов и правообладателей.

Журналисты The Atlantic выяснили, что для этих целей была использована библиотека данных портала OpenSubtitles, в которой собрана коллекция из более 53 тыс. фильмов и 85 тыс. эпизодов сериалов на 62 языках. Она неоднократно упоминается в исследованиях, посвящённым искусственному интеллекту. В базу данных вошли такие популярные шоу, как “Симпсоны”, “Клан Сопрано” и “Твин Пикс”, а также фильмы, номинированные на премию “Оскар” с 1950 по 2016 гг.

Для подтверждения своих выводов The Atlantic загрузили этот набор данных, содержащий 14 ГБ текста, разделённых на более чем 446 000 файлов, каждый из которых соответствует конкретному фильму или эпизоду. Журналисты сопоставили ID-файлы с базой IMDb, что позволило идентифицировать актёров, режиссёров и другие метаданные. Вся информация из субтитров представлена в обезличенном формате, но благодаря ей нейросеть способна заговорить в манере “гангстера” или другого характерного персонажа.

Однако издание подчёркивает, что изначально библиотека OpenSubtitles создавалась без намерения использовать её в коммерческих технологиях. Основной целью применения базы данных на протяжении многих лет оставалось совершенствование переводчиков вроде Google Translate через статистический подход и масштабирование вычислений.

Тем не менее компании избегают публичного признания использования этих данных. Например, Anthropic, разработчик конкурента ChatGPT, заявляет, что их модели тренируются на публичных наборах данных, а Salesforce подчеркивает, что их ИИ-продукты не были напрямую связаны с OpenSubtitles.

Читать по теме

20:13, 15.11.24

Advil помогают геймерам справляться с головной болью

Сообщение Расследование: нейросети обучались на тысячах фильмов и сериалов без согласия их создателей появились сначала на Esports.ru.