В Langflow 1.1.4 появился ШАБЛОН Deep Researcher!
Просто, то, что вчера вышло за $250, как прогрессивная разработка,- сегодня бесплатный шаблон в nocode.
Т.е. он сам, декомпозирует задачу, пишет план, вызывает агента с поиском на выполнение этого плана и подводит итог.
Упрощённо, конечно, но это все-таки шаблон.
Все компоненты заменяемы.
любой поиск или локальные модели подключаются за пару минут.
Это просто праздник какой-то. :)
#langflow #nocode #research
———
@tsingular
Просто, то, что вчера вышло за $250, как прогрессивная разработка,- сегодня бесплатный шаблон в nocode.
Т.е. он сам, декомпозирует задачу, пишет план, вызывает агента с поиском на выполнение этого плана и подводит итог.
Упрощённо, конечно, но это все-таки шаблон.
Все компоненты заменяемы.
любой поиск или локальные модели подключаются за пару минут.
Это просто праздник какой-то. :)
#langflow #nocode #research
———
@tsingular
✍4🔥3👌3
В подписке Gemini Advanced добавили 2.0 Pro Experimental
Новостей нет, бенчей тоже пока нет.
Рассуждений не видно. Поиска нет. :)
Втихую выкатили и все.
Gemini 2.0 Pro Experimental, доступная пользователям Gemini Advanced с четверга, теперь является ведущей моделью в семействе Gemini AI от Google, заявила компания. Она должна обеспечить «лучшую фактологию» и «более высокую производительность» для задач, связанных с кодированием и математикой.
«Независимо от того, решаете ли вы сложные задачи кодирования, такие как создание определенной программы с нуля, или решаете математические задачи, такие как разработка сложных статистических моделей или квантовых алгоритмов, 2.0 Pro Experimental поможет вам справляться даже с самыми сложными задачами с большей легкостью и точностью», — пишет Google в журнале изменений.
#Gemini #pro #experimental
———
@tsingular
Новостей нет, бенчей тоже пока нет.
Рассуждений не видно. Поиска нет. :)
Втихую выкатили и все.
Gemini 2.0 Pro Experimental, доступная пользователям Gemini Advanced с четверга, теперь является ведущей моделью в семействе Gemini AI от Google, заявила компания. Она должна обеспечить «лучшую фактологию» и «более высокую производительность» для задач, связанных с кодированием и математикой.
«Независимо от того, решаете ли вы сложные задачи кодирования, такие как создание определенной программы с нуля, или решаете математические задачи, такие как разработка сложных статистических моделей или квантовых алгоритмов, 2.0 Pro Experimental поможет вам справляться даже с самыми сложными задачами с большей легкостью и точностью», — пишет Google в журнале изменений.
#Gemini #pro #experimental
———
@tsingular
👍3🤔2
Media is too big
VIEW IN TELEGRAM
🤖 DeepSeek выкатили Small-версию своей мультимодальной модели!
При всего 2.8B активных параметров, DeepSeek-VL2-Small демонстрирует впечатляющие результаты:
- 92.3% на DocVQA (тест на понимание документов)
- 84.5% на ChartQA (работа с графиками)
- 83.4% на TextVQA (распознавание текста на изображениях)
Технически модель наследует все крутые фишки базовой версии:
- Dynamic tiling — умное разбиение картинок на тайлы для обработки изображений высокого разрешения. Больше никаких ограничений на размер входной картинки!
- Multi-head Latent Attention для оптимизации памяти — ключи и значения сжимаются в латентные вектора. За счет этого модель быстрее работает и меньше ест памяти.
- MoE (Mixture of Experts) архитектура — вместо того чтобы гонять все параметры, модель активирует только нужных "экспертов". Отсюда и экономия: из 16B общих параметров активируются только 2.8B.
Самое интересное: Small-версия не сильно отстает от старшей модели в точности. На некоторых бенчмарках разница всего 1-2%.
Для сравнения: другие модели похожего размера (например, InternVL2-2B или Qwen2-VL-2B) показывают заметно более слабые результаты, особенно в задачах с документами и текстом.
В общем, если нужна компактная мультимодальная модель с хорошим балансом размер/качество — DeepSeek-VL2-Small выглядит очень заманчиво. 🤔
Погнали наши городских :)
Пробуем тут:
https://huggingface.co/spaces/deepseek-ai/deepseek-vl2-small
#DeepSeek #VLM #Китай
———
@tsingular
При всего 2.8B активных параметров, DeepSeek-VL2-Small демонстрирует впечатляющие результаты:
- 92.3% на DocVQA (тест на понимание документов)
- 84.5% на ChartQA (работа с графиками)
- 83.4% на TextVQA (распознавание текста на изображениях)
Технически модель наследует все крутые фишки базовой версии:
- Dynamic tiling — умное разбиение картинок на тайлы для обработки изображений высокого разрешения. Больше никаких ограничений на размер входной картинки!
- Multi-head Latent Attention для оптимизации памяти — ключи и значения сжимаются в латентные вектора. За счет этого модель быстрее работает и меньше ест памяти.
- MoE (Mixture of Experts) архитектура — вместо того чтобы гонять все параметры, модель активирует только нужных "экспертов". Отсюда и экономия: из 16B общих параметров активируются только 2.8B.
Самое интересное: Small-версия не сильно отстает от старшей модели в точности. На некоторых бенчмарках разница всего 1-2%.
Для сравнения: другие модели похожего размера (например, InternVL2-2B или Qwen2-VL-2B) показывают заметно более слабые результаты, особенно в задачах с документами и текстом.
В общем, если нужна компактная мультимодальная модель с хорошим балансом размер/качество — DeepSeek-VL2-Small выглядит очень заманчиво. 🤔
Погнали наши городских :)
Пробуем тут:
https://huggingface.co/spaces/deepseek-ai/deepseek-vl2-small
#DeepSeek #VLM #Китай
———
@tsingular
🔥8👍4
Яндекс и Сбер скоро выкатят хабы-гейты для LLMок.
Инфа со стрима TalentHub
#Сбербанк #Яндекс #gate
———
@tsingular
Инфа со стрима TalentHub
#Сбербанк #Яндекс #gate
———
@tsingular
🤔5🫡2 1
Media is too big
VIEW IN TELEGRAM
HuggingFace собрали все ИИ модели и инструменты в общем пространстве и добавили ИИ поиск.
У нас было 2 миллиона моделей машинного обучения, 75 тысяч пространств развертывания, и целая гора мультимодальных датасетов всех возможных форматов.
Не то чтобы всё это действительно было нужно для одного проекта... но если уж начал собирать ИИ-стек, остановиться трудно.
Единственное, что действительно беспокоило – это поисковый движок.
На всей планете не было никого, кто бы мог искать модели умнее и быстрее, чем новый ИИ от HuggingFace.
И я знал, что рано или поздно мы перейдем на эту дрянь.
К полудню мы были где-то на краю пустыни талантов, когда API начало действовать.
Я помню, как сказал что-то вроде: "Я чувствую головокружение, может, ты поведешь..."
А потом внезапно вокруг стало очень тихо, и я увидел... боже мой, ты только посмотри на эти решения!
Разумеется, это была не вся коллекция. Я взял довольно стандартный набор: трансформеры, диффузионные модели, embeddings, языковые модели – всё, что может понадобиться для среднестатистического проекта машинного обучения.
С такими инструментами всё, что тебе нужно – это ввести запрос на английском, и искусственный интеллект мгновенно выдаст тебе готовое решение.
"Не останавливайся. Это ИИ-территория..."
#HuggingFace #каталог
———
@tsingular
У нас было 2 миллиона моделей машинного обучения, 75 тысяч пространств развертывания, и целая гора мультимодальных датасетов всех возможных форматов.
Не то чтобы всё это действительно было нужно для одного проекта... но если уж начал собирать ИИ-стек, остановиться трудно.
Единственное, что действительно беспокоило – это поисковый движок.
На всей планете не было никого, кто бы мог искать модели умнее и быстрее, чем новый ИИ от HuggingFace.
И я знал, что рано или поздно мы перейдем на эту дрянь.
К полудню мы были где-то на краю пустыни талантов, когда API начало действовать.
Я помню, как сказал что-то вроде: "Я чувствую головокружение, может, ты поведешь..."
А потом внезапно вокруг стало очень тихо, и я увидел... боже мой, ты только посмотри на эти решения!
Разумеется, это была не вся коллекция. Я взял довольно стандартный набор: трансформеры, диффузионные модели, embeddings, языковые модели – всё, что может понадобиться для среднестатистического проекта машинного обучения.
С такими инструментами всё, что тебе нужно – это ввести запрос на английском, и искусственный интеллект мгновенно выдаст тебе готовое решение.
"Не останавливайся. Это ИИ-территория..."
#HuggingFace #каталог
———
@tsingular
⚡8😁6🤩4👍3❤1🔥1
Forwarded from Data Secrets
Это то, что мы все так сильно любим: Андрей Карпаты выложил новое обучающее видео
Это погружение в LLM на 3.5 часа. В лекции рассмотрены все основные шаги обучения моделек:
– Прентрейн: данные, токенизация, устройство архитектуры трансформера, примеры на GPT-2 и Llama 3.1
– Файнтюнинг: LLM Psychology, галлюцинации, орфография и еще много интересных деталей
– RLHF: все про то, как обучение с подкреплением работает в LLM на примере DeepSeek R1
Ну что может быть лучше?
youtu.be/7xTGNNLPyMI?si=dlaK07h1Uw_1Dr8Z
Это погружение в LLM на 3.5 часа. В лекции рассмотрены все основные шаги обучения моделек:
– Прентрейн: данные, токенизация, устройство архитектуры трансформера, примеры на GPT-2 и Llama 3.1
– Файнтюнинг: LLM Psychology, галлюцинации, орфография и еще много интересных деталей
– RLHF: все про то, как обучение с подкреплением работает в LLM на примере DeepSeek R1
Ну что может быть лучше?
youtu.be/7xTGNNLPyMI?si=dlaK07h1Uw_1Dr8Z
🔥17✍4👍4⚡1🤝1
🚀 МТС врывается в мир корпоративного ИИ: анонсирована платформа MWS GPT
Главные фишки MWS GPT:
- Гибкость в выборе моделей: можно использовать как собственные решения МТС (Cotype и МТС Alpha), так и внедрять open source или сторонние LLM
- Демократичная цена: 1,1 рубля за 1000 токенов. На практике это означает, что SEO-статья обойдется примерно в 5 рублей, а презентация для клиентов — в 10 рублей
- Enterprise-уровень: выделенный пул GPU-ресурсов для быстрой обработки больших объемов данных
- Гибкое размещение: можно развернуть как в облаке МТС, так и на собственных серверах
- Фокус на корпоративные знания — платформа умеет создавать умные поисковики по внутренним базам данных компании. Это решает классическую проблему, когда важная информация разбросана по десяткам систем и документов.
Похоже, МТС всерьез нацелилась на то, чтобы сделать работу с ИИ доступной для российского бизнеса любого масштаба. Модель оплаты по факту использования (pay-as-you-go) может быть привлекательна для малого бизнеса, который может экспериментировать с ИИ без серьезных начальных вложений.
Будет интересно посмотреть, как платформа покажет себя в реальных проектах и сможет ли она составить конкуренцию другим российским и зарубежным решениям в этой области. 🤔
#МТС #hub #gate
———
@tsingular
Главные фишки MWS GPT:
- Гибкость в выборе моделей: можно использовать как собственные решения МТС (Cotype и МТС Alpha), так и внедрять open source или сторонние LLM
- Демократичная цена: 1,1 рубля за 1000 токенов. На практике это означает, что SEO-статья обойдется примерно в 5 рублей, а презентация для клиентов — в 10 рублей
- Enterprise-уровень: выделенный пул GPU-ресурсов для быстрой обработки больших объемов данных
- Гибкое размещение: можно развернуть как в облаке МТС, так и на собственных серверах
- Фокус на корпоративные знания — платформа умеет создавать умные поисковики по внутренним базам данных компании. Это решает классическую проблему, когда важная информация разбросана по десяткам систем и документов.
Похоже, МТС всерьез нацелилась на то, чтобы сделать работу с ИИ доступной для российского бизнеса любого масштаба. Модель оплаты по факту использования (pay-as-you-go) может быть привлекательна для малого бизнеса, который может экспериментировать с ИИ без серьезных начальных вложений.
Будет интересно посмотреть, как платформа покажет себя в реальных проектах и сможет ли она составить конкуренцию другим российским и зарубежным решениям в этой области. 🤔
#МТС #hub #gate
———
@tsingular
🤔8👍2❤1🔥1
Gemini 2.0: обновления от Google
Главное событие - выход сразу трёх версий Gemini 2.0:
1. Flash (GA) - для большинства задач
- Контекст 1млн токенов
- Мультимодальность из коробки
- Очень приятная цена: $0.10 за миллион токенов входа
2. Flash-Lite (Preview) - экономичный вариант
- Те же возможности, но оптимизирован под текст
- Супер-выгодная цена: $0.075 за миллион токенов
- Идеален для масштабных текстовых задач
3. Pro Experimental - монстр производительности
- Контекст 2 млн токенов!
- Лучшие показатели по всем бенчмаркам
- Особенно силён в коде (36% на LiveCodeBench) и математике (91.8% на MATH)
Существенный рост по сравнению с 1.5:
- MMLU-Pro: с 75.8% до 79.1% (Pro)
- SimpleQA: с 24.9% до 44.3% (Pro) - огромный скачок!
- HiddenMath: с 52% до 65.2% (Pro)
Интересно, что все модели получили поддержку мультимодальности, но генерация изображений и аудио пока "coming soon". 🤔
Похоже, Google серьёзно настроен конкурировать с OpenAI и Anthropic не только по качеству, но и по цене. А учитывая бесплатный тир и высокие лимиты - выглядит очень заманчиво для разработчиков 💪
Ну и по-настоящему демократичные цены, конечно, в сравнении с нашими отечественными решениями.
#Gemini #Google
———
@tsingular
Главное событие - выход сразу трёх версий Gemini 2.0:
1. Flash (GA) - для большинства задач
- Контекст 1млн токенов
- Мультимодальность из коробки
- Очень приятная цена: $0.10 за миллион токенов входа
2. Flash-Lite (Preview) - экономичный вариант
- Те же возможности, но оптимизирован под текст
- Супер-выгодная цена: $0.075 за миллион токенов
- Идеален для масштабных текстовых задач
3. Pro Experimental - монстр производительности
- Контекст 2 млн токенов!
- Лучшие показатели по всем бенчмаркам
- Особенно силён в коде (36% на LiveCodeBench) и математике (91.8% на MATH)
Существенный рост по сравнению с 1.5:
- MMLU-Pro: с 75.8% до 79.1% (Pro)
- SimpleQA: с 24.9% до 44.3% (Pro) - огромный скачок!
- HiddenMath: с 52% до 65.2% (Pro)
Интересно, что все модели получили поддержку мультимодальности, но генерация изображений и аудио пока "coming soon". 🤔
Похоже, Google серьёзно настроен конкурировать с OpenAI и Anthropic не только по качеству, но и по цене. А учитывая бесплатный тир и высокие лимиты - выглядит очень заманчиво для разработчиков 💪
Ну и по-настоящему демократичные цены, конечно, в сравнении с нашими отечественными решениями.
#Gemini #Google
———
@tsingular
🔥6👍3
🔍 Microsoft Chain-of-Retrieval (CoRAG): Новый подход к умному поиску информации
Вышла очень любопытная разработка от Microsoft и Renmin University!
Они представили CoRAG - систему, которая делает поиск информации похожим на человеческий процесс мышления.
🧠 Как это работает технически
1. Пошаговый поиск: Вместо того чтобы сразу искать ответ, система разбивает запрос на маленькие подзапросы. Прямо как люди, когда решают сложную задачу!
2. Rejection Sampling: Система генерирует несколько цепочек поиска (до 16 штук) и выбирает лучшую, основываясь на вероятности правильного ответа.
3. Масштабирование на тесте: Можно управлять балансом между скоростью и качеством, регулируя:
- Длину цепочки поиска (L)
- Количество пробных цепочек (N)
- Температуру сэмплирования (0.7 по умолчанию)
4. Архитектурные фишки:
- Использует E5-large для начального поиска
- Работает с базой из 36 млн документов
- Обучается на датасете из 125k примеров
🚀 Результаты, - огонь:
- На сложных вопросах (multi-hop QA) показывает улучшение на 10+ пунктов
- Превосходит даже более крупные модели
- Отлично справляется с задачами, требующими пошагового рассуждения
💡 Примеры применения:
1. Умный поиск по документации
2. Аналитика кода
3. Умный дебаггер
4. Архитектурные решения
Особенно круто, что всё это можно настраивать под конкретные задачи: где-то нужна скорость, а где-то - точность.
Наконец-то можно написать ЛЛМ-зануду, который засыпет ИИ дополнительными вопросами! 🤓
Paper
#Microsoft #CoRAG #RAG
———
@tsingular
Вышла очень любопытная разработка от Microsoft и Renmin University!
Они представили CoRAG - систему, которая делает поиск информации похожим на человеческий процесс мышления.
🧠 Как это работает технически
1. Пошаговый поиск: Вместо того чтобы сразу искать ответ, система разбивает запрос на маленькие подзапросы. Прямо как люди, когда решают сложную задачу!
2. Rejection Sampling: Система генерирует несколько цепочек поиска (до 16 штук) и выбирает лучшую, основываясь на вероятности правильного ответа.
3. Масштабирование на тесте: Можно управлять балансом между скоростью и качеством, регулируя:
- Длину цепочки поиска (L)
- Количество пробных цепочек (N)
- Температуру сэмплирования (0.7 по умолчанию)
4. Архитектурные фишки:
- Использует E5-large для начального поиска
- Работает с базой из 36 млн документов
- Обучается на датасете из 125k примеров
🚀 Результаты, - огонь:
- На сложных вопросах (multi-hop QA) показывает улучшение на 10+ пунктов
- Превосходит даже более крупные модели
- Отлично справляется с задачами, требующими пошагового рассуждения
💡 Примеры применения:
1. Умный поиск по документации
# Вместо простого поиска по ключевым словам
"Как настроить OAuth в Django?"
# CoRAG может построить цепочку:
"Что такое OAuth?" ->
"Какие библиотеки OAuth есть для Django?" ->
"Как настроить social-auth-app-django?" ->
"Какие типичные ошибки при настройке?"
2. Аналитика кода
# Вместо прямого поиска проблемы
"Почему падает производительность?"
# CoRAG может:
"Какие endpoints самые медленные?" ->
"Какие SQL-запросы они используют?" ->
"Есть ли N+1 проблемы в этих запросах?" ->
"Какие индексы могут помочь?"
3. Умный дебаггер
# Система может анализировать ошибку пошагово:
"В каком контексте возникает ошибка?" ->
"Какие переменные доступны?" ->
"Похожие паттерны в логах?" ->
"Типичные решения такой проблемы?"
4. Архитектурные решения
# При проектировании системы:
"Какие требования к масштабируемости?" ->
"Какие паттерны подходят?" ->
"Примеры похожих систем?" ->
"Типичные проблемы и решения?"
Особенно круто, что всё это можно настраивать под конкретные задачи: где-то нужна скорость, а где-то - точность.
Наконец-то можно написать ЛЛМ-зануду, который засыпет ИИ дополнительными вопросами! 🤓
Paper
#Microsoft #CoRAG #RAG
———
@tsingular
🔥6✍2⚡1❤1👍1
Telegram
Machinelearning
💬 Hibiki (2B и 1B) - новая модель синхронного перевода РЕЧИ В РЕЧЬ.
Модель может выполнять аудио и текстовые переводы речи в режиме реального времени, сохраняя голос говорящего и оптимально адаптируя его темп на основе содержания исходной речи.
Hibiki…
Модель может выполнять аудио и текстовые переводы речи в режиме реального времени, сохраняя голос говорящего и оптимально адаптируя его темп на основе содержания исходной речи.
Hibiki…
Синхронные переводчики всё.
https://t.iss.one/ai_machinelearning_big_data/6715
🤗 HF: https://huggingface.co/collections/kyutai/hibiki-fr-en-67a48835a3d50ee55d37c2b5
#translation #voice
———
@tsingular
https://t.iss.one/ai_machinelearning_big_data/6715
Модель может выполнять аудио и текстовые переводы речи в режиме реального времени, сохраняя голос говорящего и оптимально адаптируя его темп на основе содержания исходной речи.
Hibiki превосходит предыдущие модели по качеству перевода, естественности и по схожести говорящих и приближается к переводчикам-людям.
> Открытая модель
> Потоковый перевод: обрабатывает аудио в реальном времени
> Многопотоковая архитектура: использует архитектуру Moshi для моделирования исходной и целевой речи
> Способна работать в шумных условиях
> Обучена на 48 Nvidia H100
> Работает с MLX, Candle и PyTorch
> На данный момент поддерживает французский и английский языки (дальше больше)
> Отлично подходит на запусках на девайсах
🤗 HF: https://huggingface.co/collections/kyutai/hibiki-fr-en-67a48835a3d50ee55d37c2b5
#translation #voice
———
@tsingular
🤯10❤1
Claude - one love :)
Напиши, говорю, обход бинарного дерева, как синьор, в надежде получить что то из области "препарраре ла пицца перфетта!", как в меме, но он выдал 2 страницы профессионального кода. Скукота. :)
Ну ок, говорю, давай по-взрослому тогда.
И, вот как-то я не уверен, что понимаю на столько по-взрослому :)
Есть кто-нибудь, кто сможет это расшифровать? :)
p.s.: мем в комменте
#Claude #binarytree #dev #мемы
———
@tsingular
Напиши, говорю, обход бинарного дерева, как синьор, в надежде получить что то из области "препарраре ла пицца перфетта!", как в меме, но он выдал 2 страницы профессионального кода. Скукота. :)
Ну ок, говорю, давай по-взрослому тогда.
// Ультра-компактная версия
t=n=>n?[...t(n.l),n.v,...t(n.r)]:[]
b=n=>{q=[n];return n?[...q.map(n=>(n.l&&q.push(n.l),n.r&&q.push(n.r),n.v))]:[]};
И, вот как-то я не уверен, что понимаю на столько по-взрослому :)
Есть кто-нибудь, кто сможет это расшифровать? :)
p.s.: мем в комменте
#Claude #binarytree #dev #мемы
———
@tsingular
😁12🔥5
Дистилляция экономит миллиарды: как исследователи из Стэнфорда создали reasoning-модель за $50
Интересный технический кейс появился на прошлой неделе - исследователи из Стэнфорда и Университета Вашингтона показали, как можно воспроизвести возможности современных reasoning-моделей с минимальными затратами. Их модель s1 демонстрирует результаты, сопоставимые с OpenAI o1 и DeepSeek R1, но при этом потребовала всего около $50 на облачные вычисления.
Технические детали
Самое интересное в этой работе - элегантность подхода. Вместо того чтобы тренировать модель с нуля (что требует огромных вычислительных ресурсов), исследователи:
1. Взяли готовую базовую модель Qwen-32B
2. Создали датасет из 1000 тщательно отобранных задач с решениями
3. Получили "reasoning traces" (цепочки рассуждений) от Gemini 2.0 Flash Thinking
4. Применили supervised fine-tuning всего на 26 минут используя 16 H100 GPU
Использовали три критерия для отбора задач:
- Сложность (отбирались задачи, которые базовая модель не могла решить)
- Разнообразие (равномерное распределение по 50 различным доменам)
- Качество (тщательная валидация форматирования и содержания)
Математическая находка
Интересный трюк они применили для улучшения точности ответов - так называемый "budget forcing". Идея в том, что когда модель пытается завершить рассуждение, ей вместо этого добавляется слово "Wait", заставляя продолжить анализ. Это простое решение позволило поднять точность на AIME24 с 50% до 57%.
Применимость
Конечно, это не значит что инвестиции Google и OpenAI в инфраструктуру теперь бессмысленны. Дистилляция хороша для воспроизведения существующих возможностей, но не для создания принципиально новых моделей.
Но сам факт, что команда исследователей смогла получить результаты, сравнимые с лидерами с минимальными ресурсами - показывает как быстро демократизируется эта технология.
Технический стек
- Base model: Qwen2.5-32B-Instruct
- Training: PyTorch FSDP
- Dataset: 1000 samples (vs 800K у R1)
- Fine-tuning time: 26 минут
- Hardware: 16 NVIDIA H100 GPUs
- Evaluation: AIME24, MATH500, GPQA Diamond benchmarks
Код и данные доступны на GitHub, что позволяет воспроизвести результаты.
Правда, Google уже заявил что его ToS запрещает такое использование Gemini API - так что юридическая сторона вопроса пока под вопросом.
paper
GitHub
Но сама работа - отличный пример как правильный инженерный подход может компенсировать отсутствие гигантских ресурсов. Будет интересно посмотреть, как дальше будет развиваться направление "бюджетных" AI моделей.
Не списал, а опирался на труды предшественников :)
Отдельное спасибо @alyxst за наводку :)
#s1 #Gemini #finetunung #Qwen
———
@tsingular
Интересный технический кейс появился на прошлой неделе - исследователи из Стэнфорда и Университета Вашингтона показали, как можно воспроизвести возможности современных reasoning-моделей с минимальными затратами. Их модель s1 демонстрирует результаты, сопоставимые с OpenAI o1 и DeepSeek R1, но при этом потребовала всего около $50 на облачные вычисления.
Технические детали
Самое интересное в этой работе - элегантность подхода. Вместо того чтобы тренировать модель с нуля (что требует огромных вычислительных ресурсов), исследователи:
1. Взяли готовую базовую модель Qwen-32B
2. Создали датасет из 1000 тщательно отобранных задач с решениями
3. Получили "reasoning traces" (цепочки рассуждений) от Gemini 2.0 Flash Thinking
4. Применили supervised fine-tuning всего на 26 минут используя 16 H100 GPU
Использовали три критерия для отбора задач:
- Сложность (отбирались задачи, которые базовая модель не могла решить)
- Разнообразие (равномерное распределение по 50 различным доменам)
- Качество (тщательная валидация форматирования и содержания)
Математическая находка
Интересный трюк они применили для улучшения точности ответов - так называемый "budget forcing". Идея в том, что когда модель пытается завершить рассуждение, ей вместо этого добавляется слово "Wait", заставляя продолжить анализ. Это простое решение позволило поднять точность на AIME24 с 50% до 57%.
Применимость
Конечно, это не значит что инвестиции Google и OpenAI в инфраструктуру теперь бессмысленны. Дистилляция хороша для воспроизведения существующих возможностей, но не для создания принципиально новых моделей.
Но сам факт, что команда исследователей смогла получить результаты, сравнимые с лидерами с минимальными ресурсами - показывает как быстро демократизируется эта технология.
Технический стек
- Base model: Qwen2.5-32B-Instruct
- Training: PyTorch FSDP
- Dataset: 1000 samples (vs 800K у R1)
- Fine-tuning time: 26 минут
- Hardware: 16 NVIDIA H100 GPUs
- Evaluation: AIME24, MATH500, GPQA Diamond benchmarks
Код и данные доступны на GitHub, что позволяет воспроизвести результаты.
Правда, Google уже заявил что его ToS запрещает такое использование Gemini API - так что юридическая сторона вопроса пока под вопросом.
paper
GitHub
Но сама работа - отличный пример как правильный инженерный подход может компенсировать отсутствие гигантских ресурсов. Будет интересно посмотреть, как дальше будет развиваться направление "бюджетных" AI моделей.
Не списал, а опирался на труды предшественников :)
Отдельное спасибо @alyxst за наводку :)
#s1 #Gemini #finetunung #Qwen
———
@tsingular
🔥8👍4⚡3❤2✍1👏1🤯1
Forwarded from AI Product | Igor Akimov
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAI тут на конфе в Японии показали, как они сделали AI сейлза по входящим лидам.
Вот как работает:
- Клиент заполняет форму Contact Sales.
- Контактные данные попадают в панель задач OpenAI в качестве лида
- Агент по продажам анализирует заявку и вызывает несколько функций
- Инструмент enrich_lead выполняет глубокое исследование лида, чтобы заполнить его информацией, например данными о роли, секторе, размере компании и т. д.
- Вызывает get_calendar_availability, чтобы проверить свободное время для назначения встречи.
- Вызывает send_email, чтобы составить проект электронного письма для планирования встречи.
- завершает задачу.
Так что сапожник - с сапогами (хотя честно говоря сколько не заполнял форму на общение с сейлзами OpenAI, ни разу не отвечали...)
Вот как работает:
- Клиент заполняет форму Contact Sales.
- Контактные данные попадают в панель задач OpenAI в качестве лида
- Агент по продажам анализирует заявку и вызывает несколько функций
- Инструмент enrich_lead выполняет глубокое исследование лида, чтобы заполнить его информацией, например данными о роли, секторе, размере компании и т. д.
- Вызывает get_calendar_availability, чтобы проверить свободное время для назначения встречи.
- Вызывает send_email, чтобы составить проект электронного письма для планирования встречи.
- завершает задачу.
Так что сапожник - с сапогами (хотя честно говоря сколько не заполнял форму на общение с сейлзами OpenAI, ни разу не отвечали...)
👍3😢1
Евгений Касперский у себя в Х. 😀
Делаем ставки,- кто кого купит?
- Так! На видеокартах сэкономили, на датасетах тоже... На чём бы еще?! 🤔
#Касперский #DeepSeek #Китай
------
@tsingular
Делаем ставки,- кто кого купит?
- Так! На видеокартах сэкономили, на датасетах тоже... На чём бы еще?! 🤔
#Касперский #DeepSeek #Китай
------
@tsingular
😁11👻5🤔4😈2
Регулярная рубрика, - инструкции от AWS.
На этот раз интересный материал по мульти-интерфейсным AI-ассистентам. Разберем технические детали! 🤓
1. RAG:
- Amazon Kendra как векторная база данных (вместо популярных Pinecone/Weaviate)
- Amazon S3 для хранения документации
- CloudFront для раздачи ссылок на источники
- AWS Lambda для подгрузки данных из Slack
2. Интересно, что используют CloudFront вместо прямых Slack-ссылок. Это решает проблему доступа к источникам для пользователей без доступа к Slack. Умно! 🎯
3. Интеграция построена через два основных интерфейса:
- Amazon Q Business (нативное решение AWS)
- Slack (через API интеграцию)
4. Технический лайфхак: они используют метаданные в Kendra для каждого файла-источника, что позволяет обоим интерфейсам корректно привязывать первоисточники документов.
5. Мониторинг реализован через:
- Встроенную аналитику Amazon Q
- Кастомный CloudWatch дашборд для Slack-метрик
- Автоматические дейли-репорты в Slack
Автоматическое обновление данных через EventBridge - система сама подтягивает новые данные из Slack каждый день.
Kendra под вектор, - ещё не слышал. 🤔
Ну AWS/не AWS тут не так важно, интересна архитектура и подходы.
У AWS и архитекторы, - огонь и методология и практика описания этих архитектур очень круто отлажена.
Изучаем.
#AWS #RAG #Cloud #обучение
———
@tsingular
На этот раз интересный материал по мульти-интерфейсным AI-ассистентам. Разберем технические детали! 🤓
1. RAG:
- Amazon Kendra как векторная база данных (вместо популярных Pinecone/Weaviate)
- Amazon S3 для хранения документации
- CloudFront для раздачи ссылок на источники
- AWS Lambda для подгрузки данных из Slack
2. Интересно, что используют CloudFront вместо прямых Slack-ссылок. Это решает проблему доступа к источникам для пользователей без доступа к Slack. Умно! 🎯
3. Интеграция построена через два основных интерфейса:
- Amazon Q Business (нативное решение AWS)
- Slack (через API интеграцию)
4. Технический лайфхак: они используют метаданные в Kendra для каждого файла-источника, что позволяет обоим интерфейсам корректно привязывать первоисточники документов.
5. Мониторинг реализован через:
- Встроенную аналитику Amazon Q
- Кастомный CloudWatch дашборд для Slack-метрик
- Автоматические дейли-репорты в Slack
Автоматическое обновление данных через EventBridge - система сама подтягивает новые данные из Slack каждый день.
Kendra под вектор, - ещё не слышал. 🤔
Ну AWS/не AWS тут не так важно, интересна архитектура и подходы.
У AWS и архитекторы, - огонь и методология и практика описания этих архитектур очень круто отлажена.
Изучаем.
#AWS #RAG #Cloud #обучение
———
@tsingular
👍6🔥2
Media is too big
VIEW IN TELEGRAM
🚀Le Chat 2025: Mistral AI выпускает "самого быстрого" AI-ассистента
Mistral AI выпустил обновление своего AI-ассистента Le Chat, и, похоже, собирается серьёзно потеснить конкурентов на рынке (как минимум Groq).
Flash Answers: огромная скорость
Главная фишка обновления - функция Flash Answers. Le Chat теперь генерирует ответы со скоростью до 1000 токенов в секунду. Mistral AI утверждает, что это делает их ассистента самым быстрым на рынке. (тут, конечно, вопрос в размерности модели. Groq на малых моделях тоже может за 1000+ улететь)
Что умеет новый Le Chat?
• Code Interpreter: Появилась возможность запускать код прямо в чате, проводить научный анализ и создавать визуализации. Удобно для разработчиков и аналитиков, которым нужно быстро проверить гипотезы.
• Генерация изображений: За это отвечает модель Flux Ultra от Black Forest Labs - текущий лидер в области генерации изображений.
• Работа с документами: Le Chat научился работать с разными форматами файлов - от PDF до сложных таблиц. Причём разработчики хвастаются "лучшим в индустрии" распознаванием текста (интересно будет его на таблицах в PDF проверить, да еще на листах с разворотом в скане с печатями :) но мы это делать, конечно, не будем, потому, что печати.).
Тарифы и доступность 💰
Mistral AI предлагает четыре тарифных плана:
• Бесплатный: Доступ к базовым функциям, включая последние модели, генерацию изображений и загрузку документов.
• Pro (14.99$/месяц): Расширенные лимиты для активных пользователей.
• Team (24.99$/месяц на пользователя): Включает единый биллинг, приоритетную поддержку и кредиты la Plateforme.
• Enterprise: Индивидуальное ценообразование, возможность развертывания в своей инфраструктуре и настройка под нужды компании.
Что еще интересно? 🤔
Le Chat теперь доступен на iOS и Android, что делает его по-настоящему мобильным помощником. Скоро появится функция Memories - система будет запоминать ваши предпочтения для более персонализированных ответов (личное дело на каждого и социальный рейтинг в следующих версиях :) ).
Mistral AI позиционирует себя как "демократизатора AI" - большинство продвинутых функций доступно в бесплатной версии. При этом цена Pro-версии (14.99$) выглядит довольно конкурентной на фоне других игроков рынка.
Что дальше?
Mistral AI обещает скоро добавить интеграцию с рабочими инструментами (почта, базы данных, мессенджеры) и возможность создавать многошаговых агентов для автоматизации рутинных задач (конкурент MS Copilot 365).
#Mistral #LeChat
———
@tsingular
Mistral AI выпустил обновление своего AI-ассистента Le Chat, и, похоже, собирается серьёзно потеснить конкурентов на рынке (как минимум Groq).
Flash Answers: огромная скорость
Главная фишка обновления - функция Flash Answers. Le Chat теперь генерирует ответы со скоростью до 1000 токенов в секунду. Mistral AI утверждает, что это делает их ассистента самым быстрым на рынке. (тут, конечно, вопрос в размерности модели. Groq на малых моделях тоже может за 1000+ улететь)
Что умеет новый Le Chat?
• Code Interpreter: Появилась возможность запускать код прямо в чате, проводить научный анализ и создавать визуализации. Удобно для разработчиков и аналитиков, которым нужно быстро проверить гипотезы.
• Генерация изображений: За это отвечает модель Flux Ultra от Black Forest Labs - текущий лидер в области генерации изображений.
• Работа с документами: Le Chat научился работать с разными форматами файлов - от PDF до сложных таблиц. Причём разработчики хвастаются "лучшим в индустрии" распознаванием текста (интересно будет его на таблицах в PDF проверить, да еще на листах с разворотом в скане с печатями :) но мы это делать, конечно, не будем, потому, что печати.).
Тарифы и доступность 💰
Mistral AI предлагает четыре тарифных плана:
• Бесплатный: Доступ к базовым функциям, включая последние модели, генерацию изображений и загрузку документов.
• Pro (14.99$/месяц): Расширенные лимиты для активных пользователей.
• Team (24.99$/месяц на пользователя): Включает единый биллинг, приоритетную поддержку и кредиты la Plateforme.
• Enterprise: Индивидуальное ценообразование, возможность развертывания в своей инфраструктуре и настройка под нужды компании.
Что еще интересно? 🤔
Le Chat теперь доступен на iOS и Android, что делает его по-настоящему мобильным помощником. Скоро появится функция Memories - система будет запоминать ваши предпочтения для более персонализированных ответов (личное дело на каждого и социальный рейтинг в следующих версиях :) ).
Mistral AI позиционирует себя как "демократизатора AI" - большинство продвинутых функций доступно в бесплатной версии. При этом цена Pro-версии (14.99$) выглядит довольно конкурентной на фоне других игроков рынка.
Что дальше?
Mistral AI обещает скоро добавить интеграцию с рабочими инструментами (почта, базы данных, мессенджеры) и возможность создавать многошаговых агентов для автоматизации рутинных задач (конкурент MS Copilot 365).
#Mistral #LeChat
———
@tsingular
🔥4👍2