This media is not supported in your browser
VIEW IN TELEGRAM
Ну что разбиваем копилку?
Вышла долгожданная 5090 в два раза мощнее прошлой GeForce RTX 4090, и в два раза компактнее.
Nvidia представила GeForce RTX 5090, а также GeForce RTX 5080, GeForce RTX 5070 Ti и GeForce RTX 5070
GeForce RTX 5090 оказалась сильно дешевле, чем ожидалось $1.999 я рассчитывал на 2.500+
GeForce RTX 5090. 32 ГБ памяти GDDR7.
Частота памяти составила 30 ГГц. Видеокарта построена на GPU GB202-300-A1 c 21 760 ядрами CUDA.
TDP — 575 Вт.
Ускоритель поддерживает PCIe Gen 5.0 и DisplayPort 2.1b UHBR20 (8K 165 ГЦ)
Вышла долгожданная 5090 в два раза мощнее прошлой GeForce RTX 4090, и в два раза компактнее.
Nvidia представила GeForce RTX 5090, а также GeForce RTX 5080, GeForce RTX 5070 Ti и GeForce RTX 5070
GeForce RTX 5090 оказалась сильно дешевле, чем ожидалось $1.999 я рассчитывал на 2.500+
GeForce RTX 5090. 32 ГБ памяти GDDR7.
Частота памяти составила 30 ГГц. Видеокарта построена на GPU GB202-300-A1 c 21 760 ядрами CUDA.
TDP — 575 Вт.
Ускоритель поддерживает PCIe Gen 5.0 и DisplayPort 2.1b UHBR20 (8K 165 ГЦ)
🔥10❤6👍5
Media is too big
VIEW IN TELEGRAM
Еще чуть чуть и игры можно будет ставить прям на видеокарту 32 Гб КАРЛ!
🔥10
А что по нашей теме LLM?
А вот что новый game-changer для тех кто успел построить сервера и закупится H100 скажу так вы точно сейчас получите обесценивание своих затрат в х2 х3 раза и вот почему!
NVIDIA показала компактную AI платформу стоимостью в 3k USD, которая может запускать модели размером до 200B. А если соединить две машины - до 405B.
https://t.iss.one/llm_under_hood/478
А вот что новый game-changer для тех кто успел построить сервера и закупится H100 скажу так вы точно сейчас получите обесценивание своих затрат в х2 х3 раза и вот почему!
NVIDIA показала компактную AI платформу стоимостью в 3k USD, которая может запускать модели размером до 200B. А если соединить две машины - до 405B.
https://t.iss.one/llm_under_hood/478
TechCrunch
Nvidia's Project Digits is a 'personal AI supercomputer' | TechCrunch
At the 2025 Consumer Electronics Show in Las Vegas, Nvidia unveiled Project Digits, a device it's calling a 'personal AI supercomputer.'
🔥13 5
Forwarded from Korenev AI - GPT в тапочках🩴
Записал подкаст с двумя ИИ предпринимателями, которые находятся в гуще событий.
Парни работают с крупным бизнесом и рассказывают, как реально заработать на ИИ в России, сколько стоит внедрение, и где искать первых клиентов.
Обсудили конкретные кейсы и поделились историями успеха – от первой сделки до оборота в сотни миллионов.
В этом видео мы старались излагать мысли с минимумом технарской терминологии.
Надеюсь записать следующий подкаст уже с технарским погружением.
➡️ Задавайте парням вопросы в комментариях. Попрошу их ответить или тут, или как раз в новом подкасте.
Приятного просмотра!
Ссылки:
Ютуб
Рутуб
Контакты:
➖ Роман Куцев, основатель компании по разметке данных с оборотом 500 млн рублей, создатель LLM-Arena https://t.iss.one/Roma_Data
➖ Валерий Ковальский, создатель компании по внедрению корпоративных ИИ-решений https://t.iss.one/neuraldeep
➖ Коренев Александр, ведущий подкаста, эксперт по внедрению ИИ в банковском секторе https://t.iss.one/korenev_ai
Парни работают с крупным бизнесом и рассказывают, как реально заработать на ИИ в России, сколько стоит внедрение, и где искать первых клиентов.
Обсудили конкретные кейсы и поделились историями успеха – от первой сделки до оборота в сотни миллионов.
В этом видео мы старались излагать мысли с минимумом технарской терминологии.
Надеюсь записать следующий подкаст уже с технарским погружением.
Приятного просмотра!
Ссылки:
Ютуб
Рутуб
Контакты:
Please open Telegram to view this post
VIEW IN TELEGRAM
100👍12🔥9❤4
Кстати у нас есть добрый и ламповый чат этого канала где обсуждают LLM и могут ответить на ваши вопросы про ИТ заходите чтобы не пропустить актуальное обсуждение
https://t.iss.one/neuraldeepchat
https://t.iss.one/neuraldeepchat
Telegram
Чат Kovalskii Варианты?
Ask about LLM
Чат канала @neuraldeep
Прошу общаться вежливо и дружелюбно
Чат канала @neuraldeep
Прошу общаться вежливо и дружелюбно
1🔥10
Forwarded from LLM под капотом
Titan - альтернатива трансформерам от Google #разбор
Google тут втихую выложил интересную работу про LLM с улучшенной памятью и потенциальным контекстом более 2M. Если учитывать то, что Google в последнее время кучно выпускает модели, которые попадают в TOP-10 моего бизнес-бенчмарка, то потенциал у этой затеи очень интересный.
Если в обычном Transformer память о прошлых токенах хранится только в рамках короткого окна self-attention (и приходится хитрить со Structured Checklists, чтобы оптимизировать внимание), то в Titans вводится многокомпонентная система памяти:
(1) Краткосрочная память (ограниченное скользящее окно внимания).
(2) Долгосрочная память (онлайн-обучаемая нейронная память).
(3) Постоянная память (фиксированный набор параметров для общих знаний).
Такое построение позволяет модели "учиться" на неожиданных событиях прямо во время inference. По сравнению с трансформерами, Titans обеспечивают:
(1) Более эффективную работу с очень длинными контекстами, перекладывая «глобальное» запоминание с дорогого self-attention на лёгкий по вычислительным затратам механизм памяти (ближе к O(n) или O (n log n), нежели тупиковый O(n*n))
(2) Увеличенную способность «доставать» нужную информацию из глубокого прошлого за счёт специального, динамически обновляемого модуля.
Это теоретически дает превосходство на ряде бенчмарков, где требуется действительно долгосрочное моделирование (например, cверхдлинные «needle-in-haystack» задачи, задачи из time-series и геномики).
Получится ли у Google забить тот самый гвоздь в крышку гроба трансформеров - еще предстоит посмотреть. Но если это случится в 2025 году - это будет здорово, даже если снова придется пересматривать все архитектуры!
Прочитать статью можно тут.
Ваш, @llm_under_hood 🤗
PS: Google могли бы оптимизировать модели под использование GPU и CPU тесном тандеме, и тогда они могли бы работать только на системах вроде Google TPU или новых супер-чипов NVidia. Но именно в этой архитектуре обновления памяти специально распараллеливаются так, чтобы работать хорошо на традиционных акселераторах. Молодцы!
Google тут втихую выложил интересную работу про LLM с улучшенной памятью и потенциальным контекстом более 2M. Если учитывать то, что Google в последнее время кучно выпускает модели, которые попадают в TOP-10 моего бизнес-бенчмарка, то потенциал у этой затеи очень интересный.
Если в обычном Transformer память о прошлых токенах хранится только в рамках короткого окна self-attention (и приходится хитрить со Structured Checklists, чтобы оптимизировать внимание), то в Titans вводится многокомпонентная система памяти:
(1) Краткосрочная память (ограниченное скользящее окно внимания).
(2) Долгосрочная память (онлайн-обучаемая нейронная память).
(3) Постоянная память (фиксированный набор параметров для общих знаний).
Такое построение позволяет модели "учиться" на неожиданных событиях прямо во время inference. По сравнению с трансформерами, Titans обеспечивают:
(1) Более эффективную работу с очень длинными контекстами, перекладывая «глобальное» запоминание с дорогого self-attention на лёгкий по вычислительным затратам механизм памяти (ближе к O(n) или O (n log n), нежели тупиковый O(n*n))
(2) Увеличенную способность «доставать» нужную информацию из глубокого прошлого за счёт специального, динамически обновляемого модуля.
Это теоретически дает превосходство на ряде бенчмарков, где требуется действительно долгосрочное моделирование (например, cверхдлинные «needle-in-haystack» задачи, задачи из time-series и геномики).
Получится ли у Google забить тот самый гвоздь в крышку гроба трансформеров - еще предстоит посмотреть. Но если это случится в 2025 году - это будет здорово, даже если снова придется пересматривать все архитектуры!
Прочитать статью можно тут.
Ваш, @llm_under_hood 🤗
PS: Google могли бы оптимизировать модели под использование GPU и CPU тесном тандеме, и тогда они могли бы работать только на системах вроде Google TPU или новых супер-чипов NVidia. Но именно в этой архитектуре обновления памяти специально распараллеливаются так, чтобы работать хорошо на традиционных акселераторах. Молодцы!
👍12
RAG за 3 часа на 2млн токенов из телеграм канала?
Легко!
На основе комьюнити чата и с разрешения владельца канала
Канал @llm_under_hood! 🚀
Чат канала @llm_driven_products
Ниже расскажу как 3-4 часа упаковал всю базу знаний канала и группы в векторное пространство и сделал действительно рабочую базу знаний.
При разработке отошел от классических подходов построения RAG для энтерпрайза - главный челлендж был в том, как превратить живое общение в структурированную базу знаний и сохранить контекст диалогов через parent_id.
Самое главное для меня что я уже получил положительные отзывы, так как люди получают ответы на ЧАВО из тематики канала.
ОБЩАЯ СТАТИСТИКА:
• Всего сообщений: 25,852
• Общий объём в токенах: 1,820,174
• Среднее токенов на сообщение: 70.41
Архитектура поиска:
• 4 связанные коллекции в Milvus:
- Посты канала (778)
- Ответы на посты (2,702) → связь через parent_post_id
- Комментарии (6,517)
- Ответы на комментарии (12,653) → связь через parent_comment_id
• Гибридный поиск:
- Векторный (semantic) через multilingual-e5-large
- Полнотекстовый с ранжированием
- Объединение результатов с учетом parent_id для сохранения контекста
• REST API на FastAPI со Swagger документацией
• Хостинг на Яндекс Облаке
Предобработка данных:
• ~2,000 сообщений до 10 токенов отфильтрованы как шум
• LLM-разметка по типам:
- Технические уточнения (~20%)
- Ссылки (~10%)
- Конкретные вопросы (~15%)
• Сохранение коротких сообщений с упоминанием технологий
• Обработка parent_id для связности диалогов
В планах:
• Собрать аналогичных ботов для других русскоязычных LLM-сообществ
• Объединить всю практику в единый RAG-engine
• Поделиться опытом очистки и структурирования диалогов из Telegram и созданием такого бота в live стриме на своем канале
Попробовать бота можно тут: @llm_driven_products_bot
Присоединяйтесь к тестированию! 🤖
P.S. Отдельное спасибо @llm_under_hood за крутой контент, который позволил собрать такую базу знаний!
Легко!
На основе комьюнити чата и с разрешения владельца канала
Канал @llm_under_hood! 🚀
Чат канала @llm_driven_products
Ниже расскажу как 3-4 часа упаковал всю базу знаний канала и группы в векторное пространство и сделал действительно рабочую базу знаний.
При разработке отошел от классических подходов построения RAG для энтерпрайза - главный челлендж был в том, как превратить живое общение в структурированную базу знаний и сохранить контекст диалогов через parent_id.
Самое главное для меня что я уже получил положительные отзывы, так как люди получают ответы на ЧАВО из тематики канала.
ОБЩАЯ СТАТИСТИКА:
• Всего сообщений: 25,852
• Общий объём в токенах: 1,820,174
• Среднее токенов на сообщение: 70.41
Архитектура поиска:
• 4 связанные коллекции в Milvus:
- Посты канала (778)
- Ответы на посты (2,702) → связь через parent_post_id
- Комментарии (6,517)
- Ответы на комментарии (12,653) → связь через parent_comment_id
• Гибридный поиск:
- Векторный (semantic) через multilingual-e5-large
- Полнотекстовый с ранжированием
- Объединение результатов с учетом parent_id для сохранения контекста
• REST API на FastAPI со Swagger документацией
• Хостинг на Яндекс Облаке
Предобработка данных:
• ~2,000 сообщений до 10 токенов отфильтрованы как шум
• LLM-разметка по типам:
- Технические уточнения (~20%)
- Ссылки (~10%)
- Конкретные вопросы (~15%)
• Сохранение коротких сообщений с упоминанием технологий
• Обработка parent_id для связности диалогов
В планах:
• Собрать аналогичных ботов для других русскоязычных LLM-сообществ
• Объединить всю практику в единый RAG-engine
• Поделиться опытом очистки и структурирования диалогов из Telegram и созданием такого бота в live стриме на своем канале
Попробовать бота можно тут: @llm_driven_products_bot
Присоединяйтесь к тестированию! 🤖
P.S. Отдельное спасибо @llm_under_hood за крутой контент, который позволил собрать такую базу знаний!
50🔥20👍15❤1
Neural Deep
RAG за 3 часа на 2млн токенов из телеграм канала? Легко! На основе комьюнити чата и с разрешения владельца канала Канал @llm_under_hood! 🚀 Чат канала @llm_driven_products Ниже расскажу как 3-4 часа упаковал всю базу знаний канала и группы в векторное…
Стоит ли провести стрим где мы за тоже время возможно быстрее создадим с вами RAG систему по другому каналу или чату где увеличим кол-во данных и сделаем агентов для поиска информации с планированием и заданиями?
Кодить будем через Клод + pycharm разберем чанкование конвертацию данных и промптирование RAG
Кодить будем через Клод + pycharm разберем чанкование конвертацию данных и промптирование RAG
👍44🔥18
Forwarded from LLM Arena
Пока все говорят о новом "убийце GPT" — мы его уже добавили на Арену. Речь о модели DeepSeekR1, которой предрекают уже первые места на лидербордах. Предлагаем вам самим протестировать и сделать выводы.
Пишут, что R1 превзошла все существующие модели OpenAI в тестах по программированию и математике.
Кстати, пользоваться Ареной и попробовать новинку можно и прямо в Telegram.
Пишут, что R1 превзошла все существующие модели OpenAI в тестах по программированию и математике.
Кстати, пользоваться Ареной и попробовать новинку можно и прямо в Telegram.
51🔥10👍5❤3
Neural Deep
https://t.iss.one/neuraldeep?livestream Запланировал трансляцию в ТГ на вторник 21 числа в 19:00
Ну что уже через 4 часа сядем с вами попрогать RAG (чистый handmade + Claude) никаких langchain или других крутых словечек только питон и только хардкорно разбирать задачу
Что нас ждет?
Порисуем схему
Попробуем на локальной модели (возьмем арендуем GPU и поднимем LLM с huggingface + structured output)
Поднимем топовую векторную бд
Cоздадим base пайплайн RAG
Упакуем все в API
Упакуем все в докер
И пообщаемся с RAG через тг бота
https://t.iss.one/neuraldeep?livestream
Что нас ждет?
Порисуем схему
Попробуем на локальной модели (возьмем арендуем GPU и поднимем LLM с huggingface + structured output)
Поднимем топовую векторную бд
Cоздадим base пайплайн RAG
Упакуем все в API
Упакуем все в докер
И пообщаемся с RAG через тг бота
https://t.iss.one/neuraldeep?livestream
Telegram
Neural Deep
Head of AI redmadrobot.ru
6 лет: 0>>>Head of AI
AI Infrastructure | Production RAG
Local inference
RAG (2M+ книг)
RAG chat bot (5М+ токенов)
B2B платформа (10+ клиентов)
B2C gptdaisy.com (100k MAU)
Код, кейсы, R&D
github.com/kekslop | @neuraldeepchat
6 лет: 0>>>Head of AI
AI Infrastructure | Production RAG
Local inference
RAG (2M+ книг)
RAG chat bot (5М+ токенов)
B2B платформа (10+ клиентов)
B2C gptdaisy.com (100k MAU)
Код, кейсы, R&D
github.com/kekslop | @neuraldeepchat
64❤17🔥10👍7
Media is too big
VIEW IN TELEGRAM
Запись стрима!
Повторил онлайн опыт https://t.iss.one/neuraldeep/1270
Создаем свой RAG по данным из любого канала в тг или чата с 0 без фреймворков
Весь код поиска, парсинга, чанкования Handmade
Всем спасибо за просмотр в пике было 70 человек!
Что успели?
Порисуем схему✔️
Попробуем на локальной модели (возьмем арендуем GPU и поднимем LLM с huggingface + structured output)🚫
Поднимем топовую векторную бд✔️
Cоздадим base пайплайн RAG✔️
Упакуем все в API✔️
Упакуем все в докер🚫
И пообщаемся с RAG через тг бота✔️
Планирую скоро еще один стрим где добавим в бота реранкер + попробуем прикрутить локальную ллм и классификатор
Анализировали этот канал: https://t.iss.one/data_secrets
@VectorSagebot потестить!
Повторил онлайн опыт https://t.iss.one/neuraldeep/1270
Создаем свой RAG по данным из любого канала в тг или чата с 0 без фреймворков
Весь код поиска, парсинга, чанкования Handmade
Всем спасибо за просмотр в пике было 70 человек!
Что успели?
Порисуем схему
Попробуем на локальной модели (возьмем арендуем GPU и поднимем LLM с huggingface + structured output)
Поднимем топовую векторную бд
Cоздадим base пайплайн RAG
Упакуем все в API
Упакуем все в докер
И пообщаемся с RAG через тг бота
Планирую скоро еще один стрим где добавим в бота реранкер + попробуем прикрутить локальную ллм и классификатор
Анализировали этот канал: https://t.iss.one/data_secrets
@VectorSagebot потестить!
Please open Telegram to view this post
VIEW IN TELEGRAM
108❤36🔥18 14👍9