Dealer.AI – Telegram

Dealer.AI

8.2K subscribers

488 photos

27 videos

8 files

495 links

Жоский ИИ дядя.
Твой личный поставщик AI 💊💉🤖

Канал о мире интересного AI: ML, DL, NLP/NLU, RL, Retrieval, RecSys.

Для связи @dealer_ai
(реклама и консультации)

Habr @Andriljo
Kaggle: Andrilko

Download Telegram

About

Blog

Apps

Platform

8.2K subscribers

Forwarded from Kantor.AI

Подкаст про технологии ИИ

Многие из вас в курсе, что я в этом году публикую второй сезон подкаста ТехТок, и этот сезон посвящен технологиям искусственного интеллекта. Цель - рассказать про важные для современного мира технологии на более широкую аудиторию, чем те, кто уже работает в AI. До сих пор подкаст был доступен только на YouTube, а теперь появился канал и на VK Видео, чтобы вы могли скинуть подкаст вашим родственникам и друзьям не из IT :)

VKвидео: https://vkvideo.ru/@kantortechtalk

YouTube: www.youtube.com/@KantorTechTalk

‼️Обязательно подписывайтесь и следите за новыми выпусками! В этом сезоне их будет еще шесть.

🎬Также вышел тизер подкаста с нашим следующим гостем, которого я уже несколько раз упоминал в канале за последнее время - с Александром Абрамовым :) Тема выпуска: большие языковые модели

Please open Telegram to view this post

VIEW IN TELEGRAM

3.0K views09:03

Хорошо поговорили с Виктором Кантором и командой ТехТок про Deep learning, NLP, и конечно GenAI. 🦾🤖🕺 Спасибо за приглашение 👇 Следите за новостями;)

А вот и оно.

https://youtu.be/3ra-zgi-dIM

NLP И БОЛЬШИЕ ЯЗЫКОВЫЕ МОДЕЛИ | Александр Абрамов в гостях у ТехТок

В этом выпуске AI эксперт из Сбера Александр Абрамов, автор телеграмм-канала dealerAI, рассказывает нам о том, как обработка текстов на естественном языке (NLP) дошла до построения больших языковых моделей и в чем же их особенности

Таймлайн:
00:00:00 - Начало:…

2.9K views17:28

Distillation is all you need? Или опыт репликации знаний из O1. Вышла статья про то,как использование знания (внезапно не новое) из синты созданной через рассуждения модели учителя бустит ученика. Тут мы передаем привет снова Orca, Alpaca и прочим животным…

Возвращаясь снова к вопросу демократизации и инволюции архитектур моделей.

https://t.iss.one/zheltyi_ai/408

Что же за таинственные 7б и 32б, не qwen ли like?🤔

Ах да. Там ж так и написано.

Жёлтый AI

Запустили open-source модели на 7 и 32 миллиарда параметров

Сегодня мы выложили в открытый доступ две большие языковые модели на русском языке: T-Pro на 32 млрд параметров и обновленную T-Lite на 7 млрд параметров. Они построены на базе моделей Qwen 2.5…

3.3K viewsedited 07:05

День полон новостей. На RuMTEB новый лидер от коллег из КНР.

KALM моделька, пока без репорта, но всего 500M параметров и бьет е5-mistral. Ждем репорт,чтобы актуализировать обзор.

Единственное,что стало меня как одного из оуенров напрягать на MTEB,что раздел классификация имеет бОльший вес и этим пользуются оуенеры моделек. Досыпают тренирвочные сеты ruMTEB по классификации в обучении и имеют сильный ап по лб за этот счет. Первыми это хакнули ребята из nvidia с их nv-embed.
KaLM видимо не стал исключением 😁, своих конкурентов он обогнал именно так +4 пункта в классификации. 📈
В остальных задачах почти нет победы, только в кластеризации +0.5 пункта и STS +1 пункт.

Please open Telegram to view this post

VIEW IN TELEGRAM

4.1K viewsedited 08:29

День полон новостей. На RuMTEB новый лидер от коллег из КНР. KALM моделька, пока без репорта, но всего 500M параметров и бьет е5-mistral. Ждем репорт,чтобы актуализировать обзор. Единственное,что стало меня как одного из оуенров напрягать на MTEB,что раздел…

3.2K views08:30

МТС ИИ катанул тоже топ. ПОШЛА ЖАРА.
Видимо, к AIJ Сбера, МТС и ТБанк хотят драйвануть конкурентов.

4.3K viewsedited 09:08

Уже баян, но как же смешно...

Upd. Особенно, когда по 200 баксов.

4.2K viewsedited 10:33

Dealer.AI pinned «День полон новостей. На RuMTEB новый лидер от коллег из КНР. KALM моделька, пока без репорта, но всего 500M параметров и бьет е5-mistral. Ждем репорт,чтобы актуализировать обзор. Единственное,что стало меня как одного из оуенров напрягать на MTEB,что раздел…»

09:06

Фи какая... Вышла новая малая моделька phi-4 (14B) от Microsoft

😜

Много споров вокруг small-lm от майкрософт семейства phi. Одни считают,что они fit on the test. Другие, уповают на качественный тюн и дистилляцию. В любом случае, метрики интересные.
По замерам самих майкров моделька не уступает бОльшим собратьям.🤙 И даже семейства gpt4-O. Замеры представлены выше на примере math-problem.📈

Please open Telegram to view this post

VIEW IN TELEGRAM

4.0K viewsedited 11:48

Фи какая... Вышла новая малая моделька phi-4 (14B) от Microsoft 😜 Много споров вокруг small-lm от майкрософт семейства phi. Одни считают,что они fit on the test. Другие, уповают на качественный тюн и дистилляцию. В любом случае, метрики интересные. По замерам…

Кому интересно, как такое может быть, за исключением "fit on the test".

Читаем тут про дистилляцию знаний и рассуждений. И тут про Orca , и тоже, как модели ученики учатся на рассуждениях учителя.

3.9K viewsedited 12:11

Рад, что удалось приложить руку к проекту GigaEmbs. Замеры на ruMTEB ребята обещали докатить,по их замерам скор 67.45👇

UPD. Если есть вопросы по архитектуре, датке и тп пишите в комментариях.

3.6K viewsedited 19:53

Forwarded from Pavel Zloi

Второй важный нюанс, который не был затронут в публикации и о котором не упомянул ни один блогер на которого я подписан, это модель Giga Embeddings, которая вышла синхронно с LLM'ками.

Если кратко то это эмбеддинговая модель которая позволяет из инструкций извлекать эмбеддинги. Использует класс GigarEmbedModel, там как я понял взят только энкодер из GigaChat (мне в чатике подсказали, что это не совсем так), то есть на вход принимается последовательность токенов созданная токенизатором, а на выходе эмбеддинг, но похоже из-за того что это кастомный эмбеддер сделать из неё GGUF тоже скорее всего не получится (тут тоже казалось, что эта модель очень похожа на nv embed, которая в llama.cpp поддерживается).

Как я понял из карточки модели, надо использовать именно инструкции, так эмбеддинг будет точнее. Полагаю это можно будет задействовать в моём проекте роутера, попробую в общем её тоже.

4.2K views19:53

Рад, что удалось приложить руку к проекту GigaEmbs. Замеры на ruMTEB ребята обещали докатить,по их замерам скор 67.45👇 UPD. Если есть вопросы по архитектуре, датке и тп пишите в комментариях.

https://postnauka.org/video/51371 если уж про эмбеддеры говорить, то куда уж без экскурса в историю.

Многомерные пространства — все самое интересное на ПостНауке

Математик Илья Щуров о геометрии четырехмерного пространства-времени, линейной алгебре и многомерной статистике

3.8K views08:32

Картина пятничная - философская. А задумывались ли вы, когда придёт предел данных для обучения LLM? На минуточку, по состоянию на май 2023 модели потребляют для предобучения от 0.5 до 1.4 трлн токенов. Насколько это много?) Средне статистическая книга…

Данные, эволюция и роботы.

Недавно Илья Суцкевер выступил со своим видением настоящего и будущего обучения моделей AI.

1. Приятно,что вспомнили про то,что ~~Москва~~ датка не резиновая(а Дядя писал об этом аж в мае 2023). Даже интернет конечен, а синтой сыт не будешь. Это дает новые вызовы L0 этапам предобучения и возможно более не будет новых претрейнов. Да можно иметь вариации архитектуры, токенизации и пр.
В остальном мы будем различны только в своих данных, полученных или синтетически или проприетарных. Однако даже синта будет получена с помощью моделек имеющих общие претрейн сеты.

2. Агенты, агенты, агенты. Илья утверждает,что в скором будущем они будут везде. А также, в отличии от текущего "шаблонного" мышления моделей ИИ, они действительно будут хорошо рассуждать. Пока, по словам Суцкевера, модели в бОльшей степени опираются на шаблоны задач решение которых они видели в предобучении или тюне. Вместе с тем,чем лучше модели смогут рассуждать самостоятельно,тем менее предсказуемы они станут для нас. В пример приводятся стратегии которые находит ИИ играя в шахматы или Го против чемпионов-людей. Да, это все еще, может быть, местами метод грубой силы, а не четких рассуждений (быстрый поиск стратегий в глубину и ширину), но это уже будоражит. При этом, четких рецептов, как это произойдет, Илья не дал.

3. Эволюция и эволюционное развитие. Также, были затронуты темы эволюции интеллекта у животных в тч в сравнении с предками человека. Была представлена взаимосвязь массы тела и мозга для особей разных биологических видов. Утверждается,что именно в этом может лежать секрет масштабирования систем ИИ. Подобно тому,как у гоминидов (предки людей) зависимость массы тела и мозга отличны от других млекопитающих в логарифмической шкале.

Но Дядя бы еще затронул один момент с эволюционным развитием. А именно, применение и к агентным системам и к улучшению архитектур методов из природы. Вспомним генетический алгоритм. Он уже стал давно рабочей лошадкой в задачах дискретной оптимизации. Также, его сейчас стали применять для создания улучшенных архитектур моделей. Например, делаю над весами моделей и их структурой мутацию и скрещивание - порождают новые модели, потенциально улучшенные к функции цели. Выше я привел кейс команды sakana.ai, по генетическому/эволюционному мерджингу моделей. Но подобным образом мы можем менять не только архитектуру и веса модели,но и переписывать код. Представьте себе ИИ, который сам "рассуждает", как говорил Илья, и эволюционно может мутировать свои веса и программное обеспечение в месте с кодовой базой для улучшения своих способностей к обучению и инференсу.
А причем тут агенты? Сами методы инспирированные природой являются роевыми, т.е. в т.ч. легко ложатся на систему агентов. Алгоритмы колоний пчел,муравьев,рыб и т.п. уже давно используются для навигации и управления группой роботов. Но ранее эти алгоритмы прописывались вручную, с умением ИИ моделей рассуждать, они сами могут придумывать алгоритмы коллективного рассуждения и поведения,чтобы действовать эффективно сообща.
Вот где Саре Коннор становится страшно.

На этом воскресные мысли Дяди всё. В интересное время живем.

Ilya Sutskever NeurIPS 2024 full talk

4.4K viewsedited 09:50

ModernBERT. Новый, модный,классный, твой.

💃

😊

Тут челики дали новую жизнь архитектуре BERT. Модель обогнала всех своих собратьев из энкодер семейства: DeBERTa,AlBERT и RoBERTa, и да GTE не в счет тк спецом обучена контрастивно.

Сделали все это за счёт много чего:

1. Оптимизации внимания,делают каждые 3 слоя глобал внимание, остальное sliding window attention (swa это как в лонгформерах).
2. Такое внимание помножено на RoPE позиционные эмбы.
3. Присыпано такое все 8к контекстом, а не 512 токенов.
4. Убрали смещения из нормализации и линейных слоев. Сдедали пренормализацию.
5. Добавили GeGLU активации.
6. Токенизация из OLMo модели, ~~а не~~ модифицированный BPE. Но cls/sep токены оставили.
7. Сделали больше глубины: 22 и 28 слоев, для base и large версий соответственно.

Обучение на 2Т токенов: 1.7Т с контекстом 1024 далее 300B с 8к. Убрали NSP задачу ("предсказание" следующего предложения), оставив MLM как в RoBERTa. Для оптимизации инфера и обучения добавили torch.compile улучшений и flash attention3, убрали паддинги, сделав раздельную обработку внимания на сиквенс без pad.

Крч накрутили всего современного и круто работающего. Если бы у них не получилось, я бы даже удивился.

Глядеть модельки тут.

Please open Telegram to view this post

VIEW IN TELEGRAM

Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder...

Encoder-only transformer models such as BERT offer a great performance-size tradeoff for retrieval and classification tasks with respect to larger decoder-only models. Despite being the workhorse...

5.6K viewsedited 23:43

Внимание.

3.7K views23:44

Стратегия работы без pad tokens

4.0K views23:44

Метрики из коробки

4.2K views23:46

Тайны Марлизонского двора, разборки с дата-канальями от CDS Д'артаньяна одной из компаний нашего рынка. Канал моего старого друга о хаках в нашей индустрии, неприкрытые фейлы и интересные заметки про разные ML кейсы.

Заходите, читайте.👇

4.0K viewsedited 08:47