Интересное что-то
517 subscribers
2.72K photos
253 videos
138 files
4.51K links
Материалы и мысли, понадерганные отовсюду
Блог: https://t.iss.one/asisakov_channel
Чат: https://t.iss.one/youknowds_chat
Download Telegram
ChatGPT только что убил тысячи образовательных AI-стартапов (ладно, тысячи нервных клеток их фаундеров) — в сервисе появится специальный режим «Study Together».

1. В этом режиме вместо того чтобы сразу выдавать готовый ответ, ChatGPT задаст уточняющие вопросы, выяснит цель, уровень знаний и интересы по теме, а затем построит диалог так, чтобы пользователь сам пришел к верному решению или пониманию материала.

2. Материал разбивается на небольшие части, чтобы обучение шло поэтапно и было максимально понятным. Вместо длинных лекций — короткие сообщения, вопросы, практические задачи, обсуждения.

3. Режим пока в стадии тестирования и доступен немногим. В будущем возможно появятся групповые сессии — типа учебного чата или семинара. А еще, судя по конкурентам, возможность загрузить учебные материалы.

4. Пока ощущается, что Study Together — не отдельная модель или файнтюн, скорее набор системных промптов и дополнительный UI специально для этого режима.

Теперь про конкурентов, которые уже довольно давно реализовали эту фичу:

♥️ Gemini Learning Coach Gem
Еще в прошлом году в Gemini появился аналог GPTs, настраиваемых под пользователя кастомных Gems. Среди уже предустановленных был Learning Coach. Коуч от Google использует специальную модель LearnLM, обученную на образовательных данных и встроен по всей экосистеме продуктов Google.

♥️ Claude for Education
Такой же специальный режим тьютора: загрузка материалов, составление плана, ответы на вопросы, помощь с
эссе и прочее. В Learning Mode используется специализированный RLHF-пайплайн (Reinforcement Learning from Human Feedback), где модель дообучается на педагогических диалогах и поощряется за создание вопросов, а не готовых ответов. В архитектуре добавлены компоненты для отслеживания логики рассуждений и адаптации сложности вопросов под контекст.

Сфера образования — лакомый кусочек для AI-гигантов. Появление ChatGPT и других подобных сервисов так безнадежно её задисраптило, что мы буквально будем вынуждены перепридумать как учиться по-новому с помощью AI. ChatGPT тут как Apple — выходит на рынок не первым и очень осторожно, возможно не с лучшим решением — но повлияет мощно за счет своего масштаба.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
Ну и наконец-то Google Flow раскатали почти на весь мир, включая Европу.

https://labs.google/fx/tools/flow

У меня открывается без всякого ВПН.

https://blog.google/technology/google-labs/flow-adds-speech-expands/

Нужна подписка Pro.

И да, это липсинк по начальной фотке.

@cgevent
This media is not supported in your browser
VIEW IN TELEGRAM
Kontext Komposer + Kontext-powered Presets

Инструменты от Black Forest Labs, которые позволяют пользователям преобразовывать изображения без письменных подсказок, предлагая такие функции, как новые локации, пересветы, размещение товаров и создание киноплакатов.

На реддите уже надергали системных промптов из новых инструментов

спасибо @asleephidden

#imageediting
Forwarded from 🟡NeuroGraph (Сергей NeuroGraph)
Сегодня генератор видео и изображений RunWay обновили одну из своих лучших фич - RunWay Act, теперь уже версия 2.

Act 1 - делал лучший на рынке липсинк из видео в видео.

Сейчас функционал улучшен и расширен.

Улучшен захвата движения, он теперь нового поколения со значительными улучшениями качества и поддержкой отслеживания головы, лица, тела и рук.

Для Act-2 требуется только видеозапись движения и референсный персонаж.
Forwarded from Душный NLP
Соскучились по конференциям? Тогда ICML 2025 спешит на помощь!

В Ванкувере стартовала конференция ICML, а это значит, что мы — уже по традиции — будем делиться самым интересным с мероприятия. И вот первая подборка постеров, с пылу с жару.

Scion: Training Deep Learning Models with Norm-Constrained LMOs

Самый популярный оптимизатор — AdamW — не делает никаких предположений о геометрии весов модели. Из-за этого во время обучения надо накапливать и хранить статистики градиента. В Scion сразу вводят предположение о норме весов и используют linear minimization oracle для вычисления их апдейта на каждой итерации. Для разных типов слоёв можно (и нужно) использовать разные нормы.

Получаем менее требовательный к памяти алгоритм — не надо хранить первый и второй моменты градиента. Кроме того, оптимальные гиперпараметры переносятся между моделями разных размеров. А главное — Scion находит лучший лосс по сравнению с AdamW и позволяет сократить общее время обучения на 25-40% . Это происходит благодаря большому батчу.

Learning Dynamics in Continual Pre-Training for Large Language Models

Было много постеров о scaling laws. На этом — исследуют динамику дообучения (continual Pre-training), зависимость от lr schedule и от данных. Заметили, что на дообучении лосс сходится к тому же значению, что и при обучении на этом же датасете с нуля. Кроме того, лосс повторяет форму lr scheduler с некоторой задержкой. Опираясь на это, выводят scaling law. Ну а дальше подбирают некоторые оптимальные гиперпараметры обучения.

Scaling Collapse Reveals Universal Dynamics in Compute-Optimally Trained Neural Networks

Ещё один интересный постер о scaling law. Здесь показали, что если построить график нормированного лосса (нормируем на финальное значение) от нормированного компьюта (переводим в [0; 1]), то кривые для моделей разных размеров накладываются друг на друга. Причём этот феномен зависит от lr и lr scheduler. Для переобученных моделей кривые будут накладываться с некоторым шумом, а для неоптимальных lr — могут и вовсе расходиться. Также выводят scaling law, который зависит от lr scheduler. Как это можно использовать на практике — пока вопрос открытый.

Layer by Layer: Uncovering Hidden Representations in Language Models

Интересный постер об эмбеддингах промежуточных слоёв трансформера. Всегда считалось, что если нужны эмбеддинги для какой-нибудь задачи (например, классификации), то надо просто снять их с последнего слоя, и будет хорошо. А здесь авторы исследовали, насколько хороши эмбеддинги промежуточных слоёв (проверяют на MTEB), и оказалось, что всегда лучше брать какой-то промежуточный. Чтобы узнать, какой именно — считаем метрику prompt entropy для каждого слоя по некоторому набору входных данных. Чем она меньше — тем лучше будут работать эмбеддинги с этого слоя.

Интересным поделился Ермек Капушев

#YaICML25

Душный NLP
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from DeepSchool
Как LLM научились слышать?

В одной из предыдущих статей мы разобрали, какие подходы научили LLM понимать изображения и 3D-сцены.

В новой статье мы поговорим о добавлении в LLM новой модальности — аудио. От идеи представления звука мел-спектрограммой до генерации музыки по текстовому описанию.

А бонусом станет краткий разбор анализа видео с помощью LLM — задачи, где нужно синхронизировать визуальные и аудиодорожки.

Читайте новую статью по ссылке!
Forwarded from DeepSchool
RAG — от первой версии к рабочему решению

RAG кажется простой идеей: берём вопрос пользователя, находим нужную информацию в базе и просим LLM сгенерировать ответ. Однако на практике первая реализация часто разочаровывает. Почему так происходит?

В новой статье пошагово разбираем каждый компонент RAG-системы, объясняем типичные ошибки и даём план действий по улучшению ванильной версии:
— как разбивать данные на чанки
— что влияет на качество эмбеддингов и как выбрать модель
— зачем нужен реранкер и можно ли без него обойтись
— когда достаточно модели «из коробки» и как понять, нужно ли её дообучать

Статья будет особенно полезна новичкам, кто только начинает работать с RAG. Читайте по ссылке!