Forwarded from Kantor.AI
Подкаст про технологии ИИ
Многие из вас в курсе, что я в этом году публикую второй сезон подкаста ТехТок, и этот сезон посвящен технологиям искусственного интеллекта. Цель - рассказать про важные для современного мира технологии на более широкую аудиторию, чем те, кто уже работает в AI. До сих пор подкаст был доступен только на YouTube, а теперь появился канал и на VK Видео, чтобы вы могли скинуть подкаст вашим родственникам и друзьям не из IT :)
VKвидео: https://vkvideo.ru/@kantortechtalk
YouTube: www.youtube.com/@KantorTechTalk
‼️ Обязательно подписывайтесь и следите за новыми выпусками! В этом сезоне их будет еще шесть.
🎬 Также вышел тизер подкаста с нашим следующим гостем, которого я уже несколько раз упоминал в канале за последнее время - с Александром Абрамовым :) Тема выпуска: большие языковые модели
Многие из вас в курсе, что я в этом году публикую второй сезон подкаста ТехТок, и этот сезон посвящен технологиям искусственного интеллекта. Цель - рассказать про важные для современного мира технологии на более широкую аудиторию, чем те, кто уже работает в AI. До сих пор подкаст был доступен только на YouTube, а теперь появился канал и на VK Видео, чтобы вы могли скинуть подкаст вашим родственникам и друзьям не из IT :)
VKвидео: https://vkvideo.ru/@kantortechtalk
YouTube: www.youtube.com/@KantorTechTalk
Please open Telegram to view this post
VIEW IN TELEGRAM
Dealer.AI
Хорошо поговорили с Виктором Кантором и командой ТехТок про Deep learning, NLP, и конечно GenAI. 🦾🤖🕺 Спасибо за приглашение 👇 Следите за новостями;)
YouTube
NLP И БОЛЬШИЕ ЯЗЫКОВЫЕ МОДЕЛИ | Александр Абрамов в гостях у ТехТок
В этом выпуске AI эксперт из Сбера Александр Абрамов, автор телеграмм-канала dealerAI, рассказывает нам о том, как обработка текстов на естественном языке (NLP) дошла до построения больших языковых моделей и в чем же их особенности
Таймлайн:
00:00:00 - Начало:…
Таймлайн:
00:00:00 - Начало:…
Dealer.AI
Distillation is all you need? Или опыт репликации знаний из O1. Вышла статья про то,как использование знания (внезапно не новое) из синты созданной через рассуждения модели учителя бустит ученика. Тут мы передаем привет снова Orca, Alpaca и прочим животным…
Возвращаясь снова к вопросу демократизации и инволюции архитектур моделей.
https://t.iss.one/zheltyi_ai/408
Что же за таинственные 7б и 32б, не qwen ли like?🤔
Ах да. Там ж так и написано.
https://t.iss.one/zheltyi_ai/408
Что же за таинственные 7б и 32б, не qwen ли like?🤔
Ах да. Там ж так и написано.
Telegram
Жёлтый AI
Запустили open-source модели на 7 и 32 миллиарда параметров
Сегодня мы выложили в открытый доступ две большие языковые модели на русском языке: T-Pro на 32 млрд параметров и обновленную T-Lite на 7 млрд параметров. Они построены на базе моделей Qwen 2.5…
Сегодня мы выложили в открытый доступ две большие языковые модели на русском языке: T-Pro на 32 млрд параметров и обновленную T-Lite на 7 млрд параметров. Они построены на базе моделей Qwen 2.5…
День полон новостей. На RuMTEB новый лидер от коллег из КНР.
KALM моделька, пока без репорта, но всего 500M параметров и бьет е5-mistral. Ждем репорт,чтобы актуализировать обзор.
Единственное,что стало меня как одного из оуенров напрягать на MTEB,что раздел классификация имеет бОльший вес и этим пользуются оуенеры моделек. Досыпают тренирвочные сеты ruMTEB по классификации в обучении и имеют сильный ап по лб за этот счет. Первыми это хакнули ребята из nvidia с их nv-embed.
KaLM видимо не стал исключением😁 , своих конкурентов он обогнал именно так +4 пункта в классификации. 📈
В остальных задачах почти нет победы, только в кластеризации +0.5 пункта и STS +1 пункт.
KALM моделька, пока без репорта, но всего 500M параметров и бьет е5-mistral. Ждем репорт,чтобы актуализировать обзор.
Единственное,что стало меня как одного из оуенров напрягать на MTEB,что раздел классификация имеет бОльший вес и этим пользуются оуенеры моделек. Досыпают тренирвочные сеты ruMTEB по классификации в обучении и имеют сильный ап по лб за этот счет. Первыми это хакнули ребята из nvidia с их nv-embed.
KaLM видимо не стал исключением
В остальных задачах почти нет победы, только в кластеризации +0.5 пункта и STS +1 пункт.
Please open Telegram to view this post
VIEW IN TELEGRAM
Фи какая... Вышла новая малая моделька phi-4 (14B) от Microsoft 😜
Много споров вокруг small-lm от майкрософт семейства phi. Одни считают,что они fit on the test. Другие, уповают на качественный тюн и дистилляцию. В любом случае, метрики интересные.
По замерам самих майкров моделька не уступает бОльшим собратьям.🤙 И даже семейства gpt4-O. Замеры представлены выше на примере math-problem.📈
Много споров вокруг small-lm от майкрософт семейства phi. Одни считают,что они fit on the test. Другие, уповают на качественный тюн и дистилляцию. В любом случае, метрики интересные.
По замерам самих майкров моделька не уступает бОльшим собратьям.
Please open Telegram to view this post
VIEW IN TELEGRAM
Dealer.AI
Фи какая... Вышла новая малая моделька phi-4 (14B) от Microsoft 😜 Много споров вокруг small-lm от майкрософт семейства phi. Одни считают,что они fit on the test. Другие, уповают на качественный тюн и дистилляцию. В любом случае, метрики интересные. По замерам…
Кому интересно, как такое может быть, за исключением "fit on the test".
Читаем тут про дистилляцию знаний и рассуждений. И тут про Orca , и тоже, как модели ученики учатся на рассуждениях учителя.
Читаем тут про дистилляцию знаний и рассуждений. И тут про Orca , и тоже, как модели ученики учатся на рассуждениях учителя.
Рад, что удалось приложить руку к проекту GigaEmbs. Замеры на ruMTEB ребята обещали докатить,по их замерам скор 67.45👇
UPD. Если есть вопросы по архитектуре, датке и тп пишите в комментариях.
UPD. Если есть вопросы по архитектуре, датке и тп пишите в комментариях.
Forwarded from Pavel Zloi
Второй важный нюанс, который не был затронут в публикации и о котором не упомянул ни один блогер на которого я подписан, это модель Giga Embeddings, которая вышла синхронно с LLM'ками.
Если кратко то это эмбеддинговая модель которая позволяет из инструкций извлекать эмбеддинги. Использует класс GigarEmbedModel, там как я понял взят только энкодер из GigaChat (мне в чатике подсказали, что это не совсем так), то есть на вход принимается последовательность токенов созданная токенизатором, а на выходе эмбеддинг, но похоже из-за того что это кастомный эмбеддер сделать из неё GGUF тоже скорее всего не получится (тут тоже казалось, что эта модель очень похожа на nv embed, которая в llama.cpp поддерживается).
Как я понял из карточки модели, надо использовать именно инструкции, так эмбеддинг будет точнее. Полагаю это можно будет задействовать в моём проекте роутера, попробую в общем её тоже.
Если кратко то это эмбеддинговая модель которая позволяет из инструкций извлекать эмбеддинги. Использует класс GigarEmbedModel, там как я понял взят только энкодер из GigaChat (мне в чатике подсказали, что это не совсем так), то есть на вход принимается последовательность токенов созданная токенизатором, а на выходе эмбеддинг, но похоже из-за того что это кастомный эмбеддер сделать из неё GGUF тоже скорее всего не получится (тут тоже казалось, что эта модель очень похожа на nv embed, которая в llama.cpp поддерживается).
Как я понял из карточки модели, надо использовать именно инструкции, так эмбеддинг будет точнее. Полагаю это можно будет задействовать в моём проекте роутера, попробую в общем её тоже.
Dealer.AI
Рад, что удалось приложить руку к проекту GigaEmbs. Замеры на ruMTEB ребята обещали докатить,по их замерам скор 67.45👇 UPD. Если есть вопросы по архитектуре, датке и тп пишите в комментариях.
https://postnauka.org/video/51371 если уж про эмбеддеры говорить, то куда уж без экскурса в историю.
postnauka.org
Многомерные пространства — все самое интересное на ПостНауке
Математик Илья Щуров о геометрии четырехмерного пространства-времени, линейной алгебре и многомерной статистике
Dealer.AI
Картина пятничная - философская. А задумывались ли вы, когда придёт предел данных для обучения LLM? На минуточку, по состоянию на май 2023 модели потребляют для предобучения от 0.5 до 1.4 трлн токенов. Насколько это много?) Средне статистическая книга…
Данные, эволюция и роботы.
Недавно Илья Суцкевер выступил со своим видением настоящего и будущего обучения моделей AI.
1. Приятно,что вспомнили про то,чтоМосква датка не резиновая(а Дядя писал об этом аж в мае 2023). Даже интернет конечен, а синтой сыт не будешь. Это дает новые вызовы L0 этапам предобучения и возможно более не будет новых претрейнов. Да можно иметь вариации архитектуры, токенизации и пр.
В остальном мы будем различны только в своих данных, полученных или синтетически или проприетарных. Однако даже синта будет получена с помощью моделек имеющих общие претрейн сеты.
2. Агенты, агенты, агенты. Илья утверждает,что в скором будущем они будут везде. А также, в отличии от текущего "шаблонного" мышления моделей ИИ, они действительно будут хорошо рассуждать. Пока, по словам Суцкевера, модели в бОльшей степени опираются на шаблоны задач решение которых они видели в предобучении или тюне. Вместе с тем,чем лучше модели смогут рассуждать самостоятельно,тем менее предсказуемы они станут для нас. В пример приводятся стратегии которые находит ИИ играя в шахматы или Го против чемпионов-людей. Да, это все еще, может быть, местами метод грубой силы, а не четких рассуждений (быстрый поиск стратегий в глубину и ширину), но это уже будоражит. При этом, четких рецептов, как это произойдет, Илья не дал.
3. Эволюция и эволюционное развитие. Также, были затронуты темы эволюции интеллекта у животных в тч в сравнении с предками человека. Была представлена взаимосвязь массы тела и мозга для особей разных биологических видов. Утверждается,что именно в этом может лежать секрет масштабирования систем ИИ. Подобно тому,как у гоминидов (предки людей) зависимость массы тела и мозга отличны от других млекопитающих в логарифмической шкале.
Но Дядя бы еще затронул один момент с эволюционным развитием. А именно, применение и к агентным системам и к улучшению архитектур методов из природы. Вспомним генетический алгоритм. Он уже стал давно рабочей лошадкой в задачах дискретной оптимизации. Также, его сейчас стали применять для создания улучшенных архитектур моделей. Например, делаю над весами моделей и их структурой мутацию и скрещивание - порождают новые модели, потенциально улучшенные к функции цели. Выше я привел кейс команды sakana.ai, по генетическому/эволюционному мерджингу моделей. Но подобным образом мы можем менять не только архитектуру и веса модели,но и переписывать код. Представьте себе ИИ, который сам "рассуждает", как говорил Илья, и эволюционно может мутировать свои веса и программное обеспечение в месте с кодовой базой для улучшения своих способностей к обучению и инференсу.
А причем тут агенты? Сами методы инспирированные природой являются роевыми, т.е. в т.ч. легко ложатся на систему агентов. Алгоритмы колоний пчел,муравьев,рыб и т.п. уже давно используются для навигации и управления группой роботов. Но ранее эти алгоритмы прописывались вручную, с умением ИИ моделей рассуждать, они сами могут придумывать алгоритмы коллективного рассуждения и поведения,чтобы действовать эффективно сообща.
Вот где Саре Коннор становится страшно.
На этом воскресные мысли Дяди всё. В интересное время живем.
Недавно Илья Суцкевер выступил со своим видением настоящего и будущего обучения моделей AI.
1. Приятно,что вспомнили про то,что
В остальном мы будем различны только в своих данных, полученных или синтетически или проприетарных. Однако даже синта будет получена с помощью моделек имеющих общие претрейн сеты.
2. Агенты, агенты, агенты. Илья утверждает,что в скором будущем они будут везде. А также, в отличии от текущего "шаблонного" мышления моделей ИИ, они действительно будут хорошо рассуждать. Пока, по словам Суцкевера, модели в бОльшей степени опираются на шаблоны задач решение которых они видели в предобучении или тюне. Вместе с тем,чем лучше модели смогут рассуждать самостоятельно,тем менее предсказуемы они станут для нас. В пример приводятся стратегии которые находит ИИ играя в шахматы или Го против чемпионов-людей. Да, это все еще, может быть, местами метод грубой силы, а не четких рассуждений (быстрый поиск стратегий в глубину и ширину), но это уже будоражит. При этом, четких рецептов, как это произойдет, Илья не дал.
3. Эволюция и эволюционное развитие. Также, были затронуты темы эволюции интеллекта у животных в тч в сравнении с предками человека. Была представлена взаимосвязь массы тела и мозга для особей разных биологических видов. Утверждается,что именно в этом может лежать секрет масштабирования систем ИИ. Подобно тому,как у гоминидов (предки людей) зависимость массы тела и мозга отличны от других млекопитающих в логарифмической шкале.
Но Дядя бы еще затронул один момент с эволюционным развитием. А именно, применение и к агентным системам и к улучшению архитектур методов из природы. Вспомним генетический алгоритм. Он уже стал давно рабочей лошадкой в задачах дискретной оптимизации. Также, его сейчас стали применять для создания улучшенных архитектур моделей. Например, делаю над весами моделей и их структурой мутацию и скрещивание - порождают новые модели, потенциально улучшенные к функции цели. Выше я привел кейс команды sakana.ai, по генетическому/эволюционному мерджингу моделей. Но подобным образом мы можем менять не только архитектуру и веса модели,но и переписывать код. Представьте себе ИИ, который сам "рассуждает", как говорил Илья, и эволюционно может мутировать свои веса и программное обеспечение в месте с кодовой базой для улучшения своих способностей к обучению и инференсу.
А причем тут агенты? Сами методы инспирированные природой являются роевыми, т.е. в т.ч. легко ложатся на систему агентов. Алгоритмы колоний пчел,муравьев,рыб и т.п. уже давно используются для навигации и управления группой роботов. Но ранее эти алгоритмы прописывались вручную, с умением ИИ моделей рассуждать, они сами могут придумывать алгоритмы коллективного рассуждения и поведения,чтобы действовать эффективно сообща.
Вот где Саре Коннор становится страшно.
На этом воскресные мысли Дяди всё. В интересное время живем.
YouTube
Ilya Sutskever NeurIPS 2024 full talk
ModernBERT. Новый, модный,классный, твой.💃 😊
Тут челики дали новую жизнь архитектуре BERT. Модель обогнала всех своих собратьев из энкодер семейства: DeBERTa,AlBERT и RoBERTa, и да GTE не в счет тк спецом обучена контрастивно.
Сделали все это за счёт много чего:
1. Оптимизации внимания,делают каждые 3 слоя глобал внимание, остальное sliding window attention (swa это как в лонгформерах).
2. Такое внимание помножено на RoPE позиционные эмбы.
3. Присыпано такое все 8к контекстом, а не 512 токенов.
4. Убрали смещения из нормализации и линейных слоев. Сдедали пренормализацию.
5. Добавили GeGLU активации.
6. Токенизация из OLMo модели,а не модифицированный BPE. Но cls/sep токены оставили.
7. Сделали больше глубины: 22 и 28 слоев, для base и large версий соответственно.
Обучение на 2Т токенов: 1.7Т с контекстом 1024 далее 300B с 8к. Убрали NSP задачу ("предсказание" следующего предложения), оставив MLM как в RoBERTa. Для оптимизации инфера и обучения добавили torch.compile улучшений и flash attention3, убрали паддинги, сделав раздельную обработку внимания на сиквенс без pad.
Крч накрутили всего современного и круто работающего. Если бы у них не получилось, я бы даже удивился.
Глядеть модельки тут.
Тут челики дали новую жизнь архитектуре BERT. Модель обогнала всех своих собратьев из энкодер семейства: DeBERTa,AlBERT и RoBERTa, и да GTE не в счет тк спецом обучена контрастивно.
Сделали все это за счёт много чего:
1. Оптимизации внимания,делают каждые 3 слоя глобал внимание, остальное sliding window attention (swa это как в лонгформерах).
2. Такое внимание помножено на RoPE позиционные эмбы.
3. Присыпано такое все 8к контекстом, а не 512 токенов.
4. Убрали смещения из нормализации и линейных слоев. Сдедали пренормализацию.
5. Добавили GeGLU активации.
6. Токенизация из OLMo модели,
7. Сделали больше глубины: 22 и 28 слоев, для base и large версий соответственно.
Обучение на 2Т токенов: 1.7Т с контекстом 1024 далее 300B с 8к. Убрали NSP задачу ("предсказание" следующего предложения), оставив MLM как в RoBERTa. Для оптимизации инфера и обучения добавили torch.compile улучшений и flash attention3, убрали паддинги, сделав раздельную обработку внимания на сиквенс без pad.
Крч накрутили всего современного и круто работающего. Если бы у них не получилось, я бы даже удивился.
Глядеть модельки тут.
Please open Telegram to view this post
VIEW IN TELEGRAM
arXiv.org
Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder...
Encoder-only transformer models such as BERT offer a great performance-size tradeoff for retrieval and classification tasks with respect to larger decoder-only models. Despite being the workhorse...
Тайны Марлизонского двора, разборки с дата-канальями от CDS Д'артаньяна одной из компаний нашего рынка. Канал моего старого друга о хаках в нашей индустрии, неприкрытые фейлы и интересные заметки про разные ML кейсы.
Заходите, читайте.👇
Заходите, читайте.👇