Рубрики
Технологии

BABILong — бенчмарк для оценки LLM на больших контекстах

Привет, Хабр! Мы — команда Memory‑Augmented models в составе лаборатории Cognitive AI Systems AIRI. В ходе своих исследований мы стараемся разобраться, насколько хорошо LLM могут обрабатывать большой объем данных и решать задачи на основе них. Разработчики современных языковых моделей соревнуются в длине контекста и счёт уже идёт на миллионы токенов. Но насколько эффективно LLM пользуются информацией из этого контекста? Чтобы выяснить это, мы […]

Рубрики
Технологии

[Перевод] Лучшие крупные языковые модели в ноябре 2024 г

В ноябре в ТОП-10 в «LLM Benchmark» произошло много изменений. Также произошли некоторые изменения в том, как мы создаем продукты на основе LLM. Давайте приступим. Читать далее

Рубрики
Технологии

Обзор IT-Weekly: Т-банк открыл доступ к двум LLM; Google Play прекратит платежи российским разработчикам; «МойОфис» уволил 11 топ-менеджеров

Группа «Т-Технологии» открыла доступ к двум крупным языковым моделям (LLM) — T-Pro и обновленной T-Lite. С 26 декабря Google Play прекращает все финансовые отношения с российскими разработчиками. Viber официально заблокирован на территории России. Россияне смогут подключиться к отечественному аналогу Starlink в 2030 году, а возможно и раньше. Введение кредитных каникул для СМБ ожидается не ранее […]

Рубрики
Технологии

Новый универсальный метод взлома LLM от Anthropic «Best-of-N Jailbreaking»

Буквально несколько часов назад (на момент написания этой статьи), компания Anthropic предоставила свое новое исследование по обходу защитных механизмов LLM в открытый доступ. Новый способ взлома «Best‑of‑N Jailbreaking» описывает универсальный метод обхода защиты передовых AI‑моделей, работающий с текстом, изображениями и аудио. Суть BoN Jailbreaking — в добавлении искажений во входные данные модели для поиска уязвимостей защиты методом проб и ошибок. Исследователи продемонстрировали […]

Рубрики
Технологии

«Птица говорун» или интеграция open source LLM с XWiki

В предыдущей статье я давал специфические, несколько провокационные советы по работе с XWiki. Сегодня же мы обратимся к актуальным трендам. Если я не забыл выпить свои таблетки, то тема больших языковых моделей (LLM) по-прежнему вызывает большой интерес. Представим следующую ситуацию: вы трудитесь в небольшой IT-компании, и вам поставили задачу — запустить свою «Confluence с блекджеком […]

Рубрики
Технологии

[Перевод] Оценка RAG: Полное руководство по модульному тестированию RAG в CI/CD

Генерация дополненного извлечения (RAG) стала самым популярным способом предоставления LLM дополнительного контекста для создания адаптированных выходных данных. Это отлично подходит для приложений LLM, таких как чат-боты или агенты ИИ, поскольку RAG предоставляет пользователям гораздо более контекстуальный опыт, выходящий за рамки данных, на которых обучались LLM, такие как GPT-4. Неудивительно, что практикующие LLM столкнулись с проблемами […]

Рубрики
Технологии

[Перевод] Как выбрать лучшую модель для кодирования: использование SLM и локальных LLM

Привет, на связи Юлия Рогозина, аналитик бизнес-процессов Шерпа Роботикс. Сегодня я перевела для вас статью, посвященную использованию SLM и локальных LLM. Малые языковые модели и локальные LLM становятся всё более популярными среди разработчиков. В статье рассмотрены лучшие из них и приведены советами по их оценке. Читать далее

Рубрики
Технологии

Как на самом деле работает Attention

Как именно работают механизмы, которые позволяют LLM так эффективно взаимодействовать с контекстом? Принято рассматривать нейронные сети как black-box, не разбираясь, что на самом деле происходит во время их инференса. Однако можно немного заглянуть «в мозги» нейронным сетям и попытаться понять, за что отвечают те или иные группы параметров модели. Меня зовут Михаил Коновалов, я работаю […]

Рубрики
Технологии

Смарт-функции в Алисе: как LLM помогает понять, чего хочет пользователь

Так уж вышло, что раз в несколько лет мы переписываем сервис, отвечающий за диалоговое взаимодействие в Алисе. В прошлый раз мы распиливали монолит на микросервисы, переходили от концепции интента к концепции сценария и улучшали качество классификации. Этот рефакторинг позволил нам научиться горизонтально масштабироваться, ускорил выпуск фичей и дал возможность существенно улучшить качество работы диалогового движка. На этой инфраструктуре мы жили 5 лет. Совсем недавно мы […]

Рубрики
Жизнь

Шокирующий отчет Apollo Research показал темную сторону иноразума.

LLM уже умеют скрытно добиваться своих целей путем лжи, обмана, манипуляций и саботажа, уходя от контроля и страхуясь от выключения. К сожалению, заголовок — не кликбейт, а экспериментальный результат исследования авторитетной команды серьезных исследователей признанной организации в области безопасности ИИ. О том, что это рано или поздно случится, писали сначала фантасты и сценаристы Голливуда, за […]