Neural Deep
Продолжаю свои тесты и вот удалось развернуть Qwen2-VL-72B-Instruct-FP8-dynamic на 4х4090 (на immers за 260к деревянных в месяц) с 16к токенами контекста и с не плохой скоростью Cейчас взял этот бенчмарк cmarkea/doc-vqa и упаковал тест в streamlit что бы…
Поменял датасет на вот этот
Добавил проверку ответа еще в один шаг LLM модератором
1) Скрин результаты
2) Скрин процесс следил за ним сразу в 3 терминала =)
Прогнал на обеих моделях по 250 вопросов из доступных 10к
Поставлю на ночь все тогда!
Какие еще VL модельки проверить на DocVQA?
Добавил проверку ответа еще в один шаг LLM модератором
1) Скрин результаты
2) Скрин процесс следил за ним сразу в 3 терминала =)
Прогнал на обеих моделях по 250 вопросов из доступных 10к
Поставлю на ночь все тогда!
Какие еще VL модельки проверить на DocVQA?
This media is not supported in your browser
VIEW IN TELEGRAM
Ну что разбиваем копилку?
Вышла долгожданная 5090 в два раза мощнее прошлой GeForce RTX 4090, и в два раза компактнее.
Nvidia представила GeForce RTX 5090, а также GeForce RTX 5080, GeForce RTX 5070 Ti и GeForce RTX 5070
GeForce RTX 5090 оказалась сильно дешевле, чем ожидалось $1.999 я рассчитывал на 2.500+
GeForce RTX 5090. 32 ГБ памяти GDDR7.
Частота памяти составила 30 ГГц. Видеокарта построена на GPU GB202-300-A1 c 21 760 ядрами CUDA.
TDP — 575 Вт.
Ускоритель поддерживает PCIe Gen 5.0 и DisplayPort 2.1b UHBR20 (8K 165 ГЦ)
Вышла долгожданная 5090 в два раза мощнее прошлой GeForce RTX 4090, и в два раза компактнее.
Nvidia представила GeForce RTX 5090, а также GeForce RTX 5080, GeForce RTX 5070 Ti и GeForce RTX 5070
GeForce RTX 5090 оказалась сильно дешевле, чем ожидалось $1.999 я рассчитывал на 2.500+
GeForce RTX 5090. 32 ГБ памяти GDDR7.
Частота памяти составила 30 ГГц. Видеокарта построена на GPU GB202-300-A1 c 21 760 ядрами CUDA.
TDP — 575 Вт.
Ускоритель поддерживает PCIe Gen 5.0 и DisplayPort 2.1b UHBR20 (8K 165 ГЦ)
🔥10❤6👍5
Media is too big
VIEW IN TELEGRAM
Еще чуть чуть и игры можно будет ставить прям на видеокарту 32 Гб КАРЛ!
🔥10
А что по нашей теме LLM?
А вот что новый game-changer для тех кто успел построить сервера и закупится H100 скажу так вы точно сейчас получите обесценивание своих затрат в х2 х3 раза и вот почему!
NVIDIA показала компактную AI платформу стоимостью в 3k USD, которая может запускать модели размером до 200B. А если соединить две машины - до 405B.
https://t.iss.one/llm_under_hood/478
А вот что новый game-changer для тех кто успел построить сервера и закупится H100 скажу так вы точно сейчас получите обесценивание своих затрат в х2 х3 раза и вот почему!
NVIDIA показала компактную AI платформу стоимостью в 3k USD, которая может запускать модели размером до 200B. А если соединить две машины - до 405B.
https://t.iss.one/llm_under_hood/478
TechCrunch
Nvidia's Project Digits is a 'personal AI supercomputer' | TechCrunch
At the 2025 Consumer Electronics Show in Las Vegas, Nvidia unveiled Project Digits, a device it's calling a 'personal AI supercomputer.'
🔥13 5
Forwarded from Korenev AI - GPT в тапочках🩴
Записал подкаст с двумя ИИ предпринимателями, которые находятся в гуще событий.
Парни работают с крупным бизнесом и рассказывают, как реально заработать на ИИ в России, сколько стоит внедрение, и где искать первых клиентов.
Обсудили конкретные кейсы и поделились историями успеха – от первой сделки до оборота в сотни миллионов.
В этом видео мы старались излагать мысли с минимумом технарской терминологии.
Надеюсь записать следующий подкаст уже с технарским погружением.
➡️ Задавайте парням вопросы в комментариях. Попрошу их ответить или тут, или как раз в новом подкасте.
Приятного просмотра!
Ссылки:
Ютуб
Рутуб
Контакты:
➖ Роман Куцев, основатель компании по разметке данных с оборотом 500 млн рублей, создатель LLM-Arena https://t.iss.one/Roma_Data
➖ Валерий Ковальский, создатель компании по внедрению корпоративных ИИ-решений https://t.iss.one/neuraldeep
➖ Коренев Александр, ведущий подкаста, эксперт по внедрению ИИ в банковском секторе https://t.iss.one/korenev_ai
Парни работают с крупным бизнесом и рассказывают, как реально заработать на ИИ в России, сколько стоит внедрение, и где искать первых клиентов.
Обсудили конкретные кейсы и поделились историями успеха – от первой сделки до оборота в сотни миллионов.
В этом видео мы старались излагать мысли с минимумом технарской терминологии.
Надеюсь записать следующий подкаст уже с технарским погружением.
Приятного просмотра!
Ссылки:
Ютуб
Рутуб
Контакты:
Please open Telegram to view this post
VIEW IN TELEGRAM
100👍12🔥9❤4
Кстати у нас есть добрый и ламповый чат этого канала где обсуждают LLM и могут ответить на ваши вопросы про ИТ заходите чтобы не пропустить актуальное обсуждение
https://t.iss.one/neuraldeepchat
https://t.iss.one/neuraldeepchat
Telegram
Чат Kovalskii Варианты?
Ask about LLM
Чат канала @neuraldeep
Прошу общаться вежливо и дружелюбно
Чат канала @neuraldeep
Прошу общаться вежливо и дружелюбно
1🔥10
Forwarded from LLM под капотом
Titan - альтернатива трансформерам от Google #разбор
Google тут втихую выложил интересную работу про LLM с улучшенной памятью и потенциальным контекстом более 2M. Если учитывать то, что Google в последнее время кучно выпускает модели, которые попадают в TOP-10 моего бизнес-бенчмарка, то потенциал у этой затеи очень интересный.
Если в обычном Transformer память о прошлых токенах хранится только в рамках короткого окна self-attention (и приходится хитрить со Structured Checklists, чтобы оптимизировать внимание), то в Titans вводится многокомпонентная система памяти:
(1) Краткосрочная память (ограниченное скользящее окно внимания).
(2) Долгосрочная память (онлайн-обучаемая нейронная память).
(3) Постоянная память (фиксированный набор параметров для общих знаний).
Такое построение позволяет модели "учиться" на неожиданных событиях прямо во время inference. По сравнению с трансформерами, Titans обеспечивают:
(1) Более эффективную работу с очень длинными контекстами, перекладывая «глобальное» запоминание с дорогого self-attention на лёгкий по вычислительным затратам механизм памяти (ближе к O(n) или O (n log n), нежели тупиковый O(n*n))
(2) Увеличенную способность «доставать» нужную информацию из глубокого прошлого за счёт специального, динамически обновляемого модуля.
Это теоретически дает превосходство на ряде бенчмарков, где требуется действительно долгосрочное моделирование (например, cверхдлинные «needle-in-haystack» задачи, задачи из time-series и геномики).
Получится ли у Google забить тот самый гвоздь в крышку гроба трансформеров - еще предстоит посмотреть. Но если это случится в 2025 году - это будет здорово, даже если снова придется пересматривать все архитектуры!
Прочитать статью можно тут.
Ваш, @llm_under_hood 🤗
PS: Google могли бы оптимизировать модели под использование GPU и CPU тесном тандеме, и тогда они могли бы работать только на системах вроде Google TPU или новых супер-чипов NVidia. Но именно в этой архитектуре обновления памяти специально распараллеливаются так, чтобы работать хорошо на традиционных акселераторах. Молодцы!
Google тут втихую выложил интересную работу про LLM с улучшенной памятью и потенциальным контекстом более 2M. Если учитывать то, что Google в последнее время кучно выпускает модели, которые попадают в TOP-10 моего бизнес-бенчмарка, то потенциал у этой затеи очень интересный.
Если в обычном Transformer память о прошлых токенах хранится только в рамках короткого окна self-attention (и приходится хитрить со Structured Checklists, чтобы оптимизировать внимание), то в Titans вводится многокомпонентная система памяти:
(1) Краткосрочная память (ограниченное скользящее окно внимания).
(2) Долгосрочная память (онлайн-обучаемая нейронная память).
(3) Постоянная память (фиксированный набор параметров для общих знаний).
Такое построение позволяет модели "учиться" на неожиданных событиях прямо во время inference. По сравнению с трансформерами, Titans обеспечивают:
(1) Более эффективную работу с очень длинными контекстами, перекладывая «глобальное» запоминание с дорогого self-attention на лёгкий по вычислительным затратам механизм памяти (ближе к O(n) или O (n log n), нежели тупиковый O(n*n))
(2) Увеличенную способность «доставать» нужную информацию из глубокого прошлого за счёт специального, динамически обновляемого модуля.
Это теоретически дает превосходство на ряде бенчмарков, где требуется действительно долгосрочное моделирование (например, cверхдлинные «needle-in-haystack» задачи, задачи из time-series и геномики).
Получится ли у Google забить тот самый гвоздь в крышку гроба трансформеров - еще предстоит посмотреть. Но если это случится в 2025 году - это будет здорово, даже если снова придется пересматривать все архитектуры!
Прочитать статью можно тут.
Ваш, @llm_under_hood 🤗
PS: Google могли бы оптимизировать модели под использование GPU и CPU тесном тандеме, и тогда они могли бы работать только на системах вроде Google TPU или новых супер-чипов NVidia. Но именно в этой архитектуре обновления памяти специально распараллеливаются так, чтобы работать хорошо на традиционных акселераторах. Молодцы!
👍12
RAG за 3 часа на 2млн токенов из телеграм канала?
Легко!
На основе комьюнити чата и с разрешения владельца канала
Канал @llm_under_hood! 🚀
Чат канала @llm_driven_products
Ниже расскажу как 3-4 часа упаковал всю базу знаний канала и группы в векторное пространство и сделал действительно рабочую базу знаний.
При разработке отошел от классических подходов построения RAG для энтерпрайза - главный челлендж был в том, как превратить живое общение в структурированную базу знаний и сохранить контекст диалогов через parent_id.
Самое главное для меня что я уже получил положительные отзывы, так как люди получают ответы на ЧАВО из тематики канала.
ОБЩАЯ СТАТИСТИКА:
• Всего сообщений: 25,852
• Общий объём в токенах: 1,820,174
• Среднее токенов на сообщение: 70.41
Архитектура поиска:
• 4 связанные коллекции в Milvus:
- Посты канала (778)
- Ответы на посты (2,702) → связь через parent_post_id
- Комментарии (6,517)
- Ответы на комментарии (12,653) → связь через parent_comment_id
• Гибридный поиск:
- Векторный (semantic) через multilingual-e5-large
- Полнотекстовый с ранжированием
- Объединение результатов с учетом parent_id для сохранения контекста
• REST API на FastAPI со Swagger документацией
• Хостинг на Яндекс Облаке
Предобработка данных:
• ~2,000 сообщений до 10 токенов отфильтрованы как шум
• LLM-разметка по типам:
- Технические уточнения (~20%)
- Ссылки (~10%)
- Конкретные вопросы (~15%)
• Сохранение коротких сообщений с упоминанием технологий
• Обработка parent_id для связности диалогов
В планах:
• Собрать аналогичных ботов для других русскоязычных LLM-сообществ
• Объединить всю практику в единый RAG-engine
• Поделиться опытом очистки и структурирования диалогов из Telegram и созданием такого бота в live стриме на своем канале
Попробовать бота можно тут: @llm_driven_products_bot
Присоединяйтесь к тестированию! 🤖
P.S. Отдельное спасибо @llm_under_hood за крутой контент, который позволил собрать такую базу знаний!
Легко!
На основе комьюнити чата и с разрешения владельца канала
Канал @llm_under_hood! 🚀
Чат канала @llm_driven_products
Ниже расскажу как 3-4 часа упаковал всю базу знаний канала и группы в векторное пространство и сделал действительно рабочую базу знаний.
При разработке отошел от классических подходов построения RAG для энтерпрайза - главный челлендж был в том, как превратить живое общение в структурированную базу знаний и сохранить контекст диалогов через parent_id.
Самое главное для меня что я уже получил положительные отзывы, так как люди получают ответы на ЧАВО из тематики канала.
ОБЩАЯ СТАТИСТИКА:
• Всего сообщений: 25,852
• Общий объём в токенах: 1,820,174
• Среднее токенов на сообщение: 70.41
Архитектура поиска:
• 4 связанные коллекции в Milvus:
- Посты канала (778)
- Ответы на посты (2,702) → связь через parent_post_id
- Комментарии (6,517)
- Ответы на комментарии (12,653) → связь через parent_comment_id
• Гибридный поиск:
- Векторный (semantic) через multilingual-e5-large
- Полнотекстовый с ранжированием
- Объединение результатов с учетом parent_id для сохранения контекста
• REST API на FastAPI со Swagger документацией
• Хостинг на Яндекс Облаке
Предобработка данных:
• ~2,000 сообщений до 10 токенов отфильтрованы как шум
• LLM-разметка по типам:
- Технические уточнения (~20%)
- Ссылки (~10%)
- Конкретные вопросы (~15%)
• Сохранение коротких сообщений с упоминанием технологий
• Обработка parent_id для связности диалогов
В планах:
• Собрать аналогичных ботов для других русскоязычных LLM-сообществ
• Объединить всю практику в единый RAG-engine
• Поделиться опытом очистки и структурирования диалогов из Telegram и созданием такого бота в live стриме на своем канале
Попробовать бота можно тут: @llm_driven_products_bot
Присоединяйтесь к тестированию! 🤖
P.S. Отдельное спасибо @llm_under_hood за крутой контент, который позволил собрать такую базу знаний!
50🔥20👍15❤1
Neural Deep
RAG за 3 часа на 2млн токенов из телеграм канала? Легко! На основе комьюнити чата и с разрешения владельца канала Канал @llm_under_hood! 🚀 Чат канала @llm_driven_products Ниже расскажу как 3-4 часа упаковал всю базу знаний канала и группы в векторное…
Стоит ли провести стрим где мы за тоже время возможно быстрее создадим с вами RAG систему по другому каналу или чату где увеличим кол-во данных и сделаем агентов для поиска информации с планированием и заданиями?
Кодить будем через Клод + pycharm разберем чанкование конвертацию данных и промптирование RAG
Кодить будем через Клод + pycharm разберем чанкование конвертацию данных и промптирование RAG
👍44🔥18
Forwarded from LLM Arena
Пока все говорят о новом "убийце GPT" — мы его уже добавили на Арену. Речь о модели DeepSeekR1, которой предрекают уже первые места на лидербордах. Предлагаем вам самим протестировать и сделать выводы.
Пишут, что R1 превзошла все существующие модели OpenAI в тестах по программированию и математике.
Кстати, пользоваться Ареной и попробовать новинку можно и прямо в Telegram.
Пишут, что R1 превзошла все существующие модели OpenAI в тестах по программированию и математике.
Кстати, пользоваться Ареной и попробовать новинку можно и прямо в Telegram.
51🔥10👍5❤3
Neural Deep
https://t.iss.one/neuraldeep?livestream Запланировал трансляцию в ТГ на вторник 21 числа в 19:00
Ну что уже через 4 часа сядем с вами попрогать RAG (чистый handmade + Claude) никаких langchain или других крутых словечек только питон и только хардкорно разбирать задачу
Что нас ждет?
Порисуем схему
Попробуем на локальной модели (возьмем арендуем GPU и поднимем LLM с huggingface + structured output)
Поднимем топовую векторную бд
Cоздадим base пайплайн RAG
Упакуем все в API
Упакуем все в докер
И пообщаемся с RAG через тг бота
https://t.iss.one/neuraldeep?livestream
Что нас ждет?
Порисуем схему
Попробуем на локальной модели (возьмем арендуем GPU и поднимем LLM с huggingface + structured output)
Поднимем топовую векторную бд
Cоздадим base пайплайн RAG
Упакуем все в API
Упакуем все в докер
И пообщаемся с RAG через тг бота
https://t.iss.one/neuraldeep?livestream
Telegram
Neural Deep
Head of AI redmadrobot.ru
6 лет: 0>>>Head of AI
AI Infrastructure | Production RAG
Local inference
RAG (2M+ книг)
RAG chat bot (5М+ токенов)
B2B платформа (10+ клиентов)
B2C gptdaisy.com (100k MAU)
Код, кейсы, R&D
github.com/kekslop | @neuraldeepchat
6 лет: 0>>>Head of AI
AI Infrastructure | Production RAG
Local inference
RAG (2M+ книг)
RAG chat bot (5М+ токенов)
B2B платформа (10+ клиентов)
B2C gptdaisy.com (100k MAU)
Код, кейсы, R&D
github.com/kekslop | @neuraldeepchat
64❤17🔥10👍7