Dealer.AI
8.2K subscribers
488 photos
27 videos
8 files
495 links
Жоский ИИ дядя.
Твой личный поставщик AI 💊💉🤖

Канал о мире интересного AI: ML, DL, NLP/NLU, RL, Retrieval, RecSys.

Для связи @dealer_ai
(реклама и консультации)

Habr @Andriljo
Kaggle: Andrilko
Download Telegram
Forwarded from RnD CV Team (Alexander Kapitanov)
🚀 Наша команда представляет большой пул докладов на конференции Highload++ 2023.

🧏 Переводчик с языка, на котором нельзя говорить и писать. Александр Капитанов и Александр Нагаев представят доклад на тему распознавания русского жестового языка и продемонстрируют работу сервиса в режиме реального времени.

🎯 Рецепт идеальной разметки в Computer Vision. Карина Кванчиани и Александр Капитанов расскажут все тонкости разметки больших датасетов в области компьютерного зрения.

📝 Краткая история NLP: от T9 до ChatGPT. Дани Эль-Айясс, автор канала @cats_shredinger и Александр Абрамов, автор канала @dealerAIрасскажут про путь языковых моделей от примитивных алгоритмов до современных генеративных моделей искуственного интеллекта.

🤖 Внедрение GigaChat LLM в виртуального ассистента: техническая реализация. Денис Антюхов и Прохор Гладких расскажут о том, как подружить сервисы виртуальных ассистентов и генеративную модель GigaChat.

🐘 Data Sketches — как съесть слона целиком (даже если он бесконечный). Сергей Жемжицкий представит доклад про извлечение полезной информации из больших объемов данных.

#news
Рецепт успешного успеха в embedder от OpenAI.

Крч слухай сюда, шкет, берём GPT-like архитектуру, на 99.5% инитим ей модельку. Учим еë в контрастив моде, на текстах вида: [SOS] text [EOS]. EOS токен ОФК берём как эмбед фразы, с ним сношаемся. Далее чел, это всё на самом деле переливается в Transformer энкодер из GPT-like выше.

А теперь, шкет, думай сам че это энкодер или декодер, главное эмбеды гавно. У меня всё. Занавес.

Вот статья https://arxiv.org/abs/2201.10005

Я ушел спать.
Forwarded from Жёлтый AI
Многие из вас слышали про алаймент языковых моделей – за последнее время появилось много новых методов, помимо классического PPO, которые позволяют намного проще добиться лучших результатов.

Чтобы вы могли разобраться в них, @borisshapa записал кайфовую и подробную лекцию о том, как они работают. После этого разбора вы сможете очень хорошо ориентироваться среди новых модных методов, и даже начать придумывать свои собственные!
Forwarded from Градиент обреченный (Sergei Averkiev)
🔺 GigaChat 29B

Следующий большой анонс связан с нашей новой моделью размером 29 миллиардов параметров.

🔥 Из крутого то, что на SBS она показала паритет с ChatGPT 3.5-turbo, чего мы очень долго добивались. Двигались мы от результата 33:67 у первой модели к 43:57 у сегодняшнего прода и вот постепенно дошли до равенства.

Вчера на AIJ раскрыли и некоторые технические подробности. Как готовим данные и обрабатываем сырой Common Crawl, как ускорили обучение в несколько раз, как долго учим модели и т.д.

🔸 На MMLU модель выбила 63,2% процента правильных ответов.

Коллеги сейчас готовят модель к инференсу, так что скоро можно будет пробовать. API для разработчиков у нас тоже есть и пока что действует план на миллион бесплатных токенов.

👉 Видео | API
Как человек, который некоторое время уже активно пытается заботать алгосы на собесы, очень рекомендую репу/курс

Понравилось, что есть краткая выжимка теории в тексте и сложность, чтобы не сидеть вечерами за просмотром получасовых видева

P.S. Главное помнить, что наименьшая сложность алгоритма при подходе «из центра-наружу»
Путешествие по RL: PPO, DPO, q-learning или туда и обратно сказание о Хоббите Сэме.

Крч, шкет, слушай сюда. Тут все вокруг немного оQели, а я помню времена когда все кругом сА*рились (сАстарились для зумеров). Но ничего шкет и тебя это ждёт.

А мы че? Мы крайние? Нет. Тоже тренды любим. Взяли такие td3+bc из RecSyS и натянули на dialogue таску для retrieval энкодера. А дальше? Дальше код есть, но мы его не дадим, датка есть, но проприетарная. Ждите результаты. Мы же максимально OpenAI открыты сообществу.

А вот прошлый эксп докатили-таки до прода под ëлочку. Там всё сладко: метрики разнообразия ответов на топ1к выросли на 5%, метрики ранжирования +7%.

Крч, пока все носятся с Q*, DPO/PPO go deeper to td3+bc. Вроде deepQ остаётся шкет ещё не занято, поэтому stay tuned!
Dealer.AI
В тему поста
Слова уходящей недели:

-спеQляция
-оQеть
Освободите Вилли2 или прокачай своего Orca.

А пока мы все тут не оQели в конец. Хорошо бы подумать о старой доброй теме LLM и косатке. Да-да той самой, что про дистилляцию рассуждений из LLM в small LM.

На днях вышла уже версия Orca2.
На обнимашках тык.

Что добавили? Рассматривают разные стратегии дистилляции рассуждений, при этом учат адаптивно выбирать наилучшую. Для замеров качества обучения предлагают 15 тестов.

+ уже выкатили модельку 13b

Интересно? Го-го читать/пробовать!
Forwarded from Knowledge Accumulator
Generator and Critic: A Deep Reinforcement Learning Approachfor Slate Re-ranking in E-commerce - аналог RLHF в рекомендательных системах

Стандартная логика в рекомендациях на этапе ранжирования выглядит так - берём кандидатов, оцениваем каждого из них по отдельности и выдаём пользователю top-K. Работает это достаточно неплохо, но при генерации выдачи никак не учитывается взаимное наличие и порядок этих айтемов.

Один из способов это решить - авторегрессионная генерация последовательности, прямо как в языковых моделях. Для этого нам нужны 2 составляющие:

Critic, она же reward model.
Для её обучения мы собираем датасет пар (последовательность, таргет). Можно обучить модель любой сложности, поскольку она не будет применяться в проде. Это может быть трансформер, применяющийся поверх последовательности документов, и выдающий агрегированный результат по всей выдаче. Таргет нужно выбрать согласно логике бизнеса.

Generator
Пока человечество не придумало более удачного способа генерации последовательности, чем добавление их по одному в конец. Каждый кандидат на текущую позицию является действием агента, аналогично выбору следующего токена в тексте. Модель берёт на вход уже сгенерированный префикс и выдаёт распределение для следующего действия.

Логика обучения такая - "эпизодом" в терминах RL является генерация всей последовательности, награда выдаётся только в конце по результатам оценки от Critic. Обучаться можно любым RL-алгоритмом, например, в данной статье используют PPO.

На самом деле, в реальных рекомендательных системах такой подход почти не используется по простой причине - это не стоит затраченных усилий. В отличие от языка, где выдать top-K токенов в порядке крутости по убыванию было бы весьма неудачным решением, в рекомендациях это нормально. Влияние документов в выдаче друг на друга здесь гораздо меньше, при этом нельзя оценить заранее, что принесёт разработка и внедрение этой штуки.

@knowledge_accumulator
Использование RAG и LLM для анализа кибератак по системным логам.

Наткнулся на простой, но интересный по результатам эксперимент. Задача состоит в поиске аномалий поведения системы по логам системных журналов.Для этого авторы используют RAG подход.

Метод простой. В базу retrieval складывают логи нормальных и аномальных исторических событий (которые были четко детектированы) в качестве ground truth примеров. Далее при анализе поведения системы ретривер запрашивает по системному сообщения логи из журналов в векторной БД. После, с помощью промта, просят LLM сравнить запрос с выдачей для определения принадлежности к классу нормально/нет.

Подход тестировался на типичных для задачи датасетах BGL и Thunderbird, система была спроектирована при помощи LangChain, эмбеддер был от OpenAI, как и сама LLM gpt3.5-like.

Ниже приложу результаты тестов. По F1-score RAG результаты, конечно, впечатляют. На самом, деле мы пришли к тому, что по сути имеем KNn + LLM логику. Как если бы мы судили о нормальности объекта по его описательной статистике/фичах, но уже на уровне перехода embeddings->тексты. Самое интересное, как LLM может распознать такой специфический домен, как анализ логов в cyber security во few-shot режиме? Видела ли подобное на pretrain? Или это уже проявляется та же эмерджентность?

Кстати от себя добавлю ещё ссылку на гит, в котором собраны ещё примеры сетов для анализа логов.

UPD. Вопрос зачем нам тогда LLM , если можно иметь embs+KNN? Ответ у авторов:в тч для OOV примеров. Тк системы быстро изменяются и тп. Более того, а почему бы не применять такой же подход для детекции атак на LLM? Просто собрав все примеры промт атак, что сейчас известны 🤔
Схема простой RAG-Log detection системы.
Forwarded from Knowledge Accumulator
LlamaRec: Two-Stage Recommendation using Large Language Models for Ranking [2023] - о том, как рекомендации превратили в ЕГЭ

Итак, какой пайплайн применения LLM для ранжирования придумали товарищи из NVIDIA:

1) Кандидатогенерация без LLM - сначала рекуррентная модель под названием LRURec кушает историю пользователя и в конце выдаёт распределение на следующий документ, из которого берётся топ-20. Обучается такая модель просто с помощью next item prediction.

2) На последней стадии работает уже языковая модель в формате теста.
В качестве промпта в модель подают список названий документов, с которыми взаимодействовал пользователь. Далее модель просят предсказать наилучший следующий документ.

Мы бы хотели получать от модели распределение на следующий документ, чтобы по нему можно было отсортировать выдачу, а также иметь возможность файнтюнить LLM, максимизируя вероятность верного айтема. Чтобы этого добиться, авторы кодируют каждый возможный айтем одной буквой. Таким образом, от модели требуется написать только 1 токен в качестве ответа, на вероятности которого мы и будем смотреть.

Имеет ли смысл применять такой подход в реальной рекомендательной системе? Давайте посмотрим, чем отличается данная нейросеть от того, что мы используем у нас. Если в нашем рекомендательном трансформере вместо мешка токенов будем брать их последовательность, и склеим все эти последовательности из истории в одну, мы получим такой же формат входа, как у LlamaRec. При этом сам трансформер от LLM на порядок больше, чем тот, что мы используем у нас.

Таким образом, подобная модель стала бы неподъёмной для использования на том же размере пользовательской истории, и её пришлось бы применять на очень короткой истории. Дало ли бы это значимый ортогональный сигнал засчёт претрейна на данных из интернета? Не знаю, на мой взгляд проект выглядит слишком дорого и есть много более низковисящих фруктов.

@knowledge_accumulator
CoolGraph - для тех кто хочет лайтово отработать гипотезы по GraphNN.

Далее от разработчиков:

"Друзья, мы решили тоже попробовать в опенсорс по графам.
Библиотек сейчас много, обычно они поверх PyG или Torch Spatiotemporal.
Часто они заточены под конкретные задачи и требуют хорошей теоретической базы.
Мы же заметили что DS обычно (вряд ли в правда именно в этой группе) неохотно пробуют графовые сетки, не зная с чего начать.
Поэтому, чтобы снизить порог входа и, например, быстро проверить — дадут ли графовые данные прибавку именно в вашей задаче (например, если нужно принять решение о закупке) мы собрали из наших наработок небольшую библиотеку.

Что там есть?

Пара слоев с парой типов графовых сверток (с фичами ребер и без), optuna для подбора архитектуры, функций активации и параметров, mlflow опционально для трекинга экспериментов + небольшие плюшки типа автоподбор размера батча.

Реально не замахиваемся на великое и вечное, просто инструмент для быстрого старта. Если найдете время попробовать — будем очень признательны за фидбек и обязательно отработаем. Если поправите ошибок — будем долго вспоминать добрыми словами, поставите звезду — выпьем за ваше здоровье.

Если просто возникнет желание потроллить / набросить — тоже велкам в лс."

from @NikitaZelinskiy

Ссылка:

https://github.com/MobileTeleSystems/CoolGraph
Forwarded from Гусь
Твитерский попросил нейросеть сгенерировать айтишника.

На каждом этапе он просил ее сделать айтишника ЕЩЕ БОГАЧЕ.