Доброго всем!
Я не музыкант, не композитор и не продюсер. Просто люблю музыку 🙂
С развитием генеративных моделей появилась бездна синтетических треков. На первый взгляд и слух многие из них неотличимы от человеческих, а местами даже лучше одноразовых коммерческих поделок. Но лично у меня от массового нейросетевого звука уже выработалось устойчивое слуховое утомление — слишком стерильно и предсказуемо.
Чтобы отсеять синтетический шум, появилось множество сервисов по распознаванию ИИ-музыки. Насколько я понимаю (возможно, в корне неверно), вся эта детекция основана на поиске в спектрограмме устойчивых паттернов: отпечатков периодических структур, артефактов нейросетевых вокодеров (типа EnCodec) и следов агрессивного сжатия.
Ради прикола я прогнал через довольно строгий детектор (aimusicdetector.online) несколько заведомо «живых» коммерческих треков. Ожидал увидеть чистый результат, но ИИ-артефакты детектировались везде — 15%, 18%, 20%. Ладно, списал на мастеринг.
Но вот попались две жемчужины, которые полностью сломали мне картину мира:
Трек 1: THER_DARK_MOTIVATION — Confessions_in_the_Smoke
Weak / inconclusive evidence Confidence: Medium · Linear model probability: 45%
Трек 2: THER_DARK_MOTIVATION — The_Man_Who_Walked_With_Shadows
Strong codec evidence Confidence: High · Linear model probability: 86% Strong codec evidence detected in the residual spectrum. The fingerprint aligns with the current linear model for AI-music artifacts.
То есть детектор с высокой уверенностью называет живую стоковую музыку нейросетевой генерацией, ссылаясь на «совпадение с линейной моделью артефактов ИИ».
Уважаемое сообщество, хочу спросить:
-
Как это можно объяснить с точки зрения DSP и аудио-форензики? Это баг конкретной модели, или современные детекторы действительно путают артефакты brickwall-лимитеров / MP3-кодирования с нейросетевыми вокодерами?
-
Можно ли хоть в какой-то степени верить таким сервисам в 2026 году, или они уже сейчас дают слишком много ложноположительных срабатываний на профессионально сведённой музыке?
-
Есть ли среди читателей те, кто сталкивался с подобным в работе (A&R, саунд-дизайн, модерация контента)? Как вы верифицируете происхождение треков, когда автоматика врёт?
Буду благодарен за любые мысли, ссылки на исследования или личный опыт. Заранее спасибо! 🙏