В своём последнем посте я говорил об одной загадке: все большие языковые модели (LLM) ужасно играют в шахматы. Все, за исключением gpt-3.5-turbo-instruct, которая по какой-то причине умеет играть на уровне продвинутого любителя. И это несмотря на то, что этой модели больше года и она намного меньше новых моделей. Что происходит? Я предложил четыре возможных объяснения: […]
Метка: LLM
Мы все были поражены демо-версиями OpenAI GPT-4o, демонстрирующими несколько примеров использования. Но знаете что? Этот ИИ-помощник может сделать гораздо больше. GPT-4o — это большой скачок по сравнению с предыдущей версией, поскольку LLM очень хорошо понимает голос и изображения. Кроме того, она стала намного быстрее и занимает очень высокие позиции по уровню понимания и точности. GPT-4o […]
Копилот для сисадмина
Использование различных AI помощников быстро и уверенно входит в нашу жизнь. Копилоты, ChatGPT, YandexGPT, GigaChat, Claude и все их «собратья» помогают писать маркетинговые тексты, редактировать фото и видео, создавать треки для роликов. А говоря про ИТ, мы, наверняка, сразу вспоминаем, например, про GitHub Copilot и AI во всех современных IDE, которые помогают писать код. Сегодня […]
Привет, меня зовут Ирина Барская, и я руководитель службы аналитики и исследований в Яндексе. А это значит, что я и моя команда каждый день думаем, как оценивать качество работы генеративных моделей, какие при этом смотреть метрики, как вообще понять, хорошая ли модель у нас получилась. Когда возникает вопрос о том, как измерить «ум» модели, первое, что приходит в голову, — протестировать её так же, как человека: с помощью школьных российских или американских […]
Медиакомбайн с веб-интерфейсом для работы с LLM-моделями Open WebUI за последний месяц серьезно обновился дважды (сначала до версии 0.3.35, а затем — до стабильной версии 0.4.5), которые привнесли множество полезных изменений. Поскольку мы используем его в нашем AI-чат-боте, то хотим рассказать, какие новшества и улучшения они привнесли и на что стоит обратить внимание при обновлении. […]
Вы хотите создавать веб-приложения и игры при помощи голосовых сообщений Телеграм боту? Тогда читайте эту статью и вы можете даже поиграть в игру, созданную ИИ 😉 Читать далее
Результаты исследования подчеркивают как потенциал, так и ограничения использования больших языковых моделей (LLMs) для автоматизированной оценки эссе. LLM, несмотря на высокую степень согласования с оценками людей по языковым критериям, склонны завышать итоговые оценки. Модели GPT-4, o1 и Mixtral в среднем выставляют более высокие баллы, чем человеческие эксперты. Закрытые модели, особенно o1, демонстрируют большую надежность при […]
Как убедиться, что ваша LLM не выдаст полную чепуху в самый неподходящий момент? Как проверить, что она действительно понимает контекст, а не просто генерирует красивые, но бессмысленные фразы? И самое главное — как сделать это эффективно, не тратя недели на ручную проверку тысяч ответов? Давайте разберёмся!
Сможем ли мы когда-нибудь доверять искусственному интеллекту? Несмотря на впечатляющий прогресс языковых моделей, они по-прежнему страдают от серьезной «болезни» — так называемых галлюцинаций, когда ИИ выдает ложную или бессмысленную информацию. В одном из недавних исследований выдвигается предположение, что эта проблема — не временный сбой, а фундаментальная особенность работы нейросетей. Если это действительно так, нам придется […]
На связи группа фундаментальных исследований MTS AI. В этой статье мы расскажем про дроп трех маленьких моделей Cotype-Nano, Cotype-Nano-4bit и Cotype-Nano-CPU. Расскажем, как нам удалось достичь 1 места на RuGeneralArena в своей весовой категории. Читать далее