Neural Kovalskii

This media is not supported in your browser

0:13

4.38K views08:21

4🔥26❤5

График точности всех RAG экспериментов из ERCv2

Напомню, что в ERCr2 43 разные команды ставили эксперименты по построению RAG систем, которые смогут дать наиболее точные ответы на 100 вопросов по 100 PDF (публичные отчеты компаний). Некоторые вопросы требовали сравнительной работы с разными PDF.

Всего было поставлено 134 эксперимента с разными моделями и архитектурами. На этой таблицы они все отображены.

- R - это точность работы Retrieval алгоритма (системы должны были подтверждать свои ответы ссылками на страница)
- G - это точность финального ответа, на основе ground truth данных
- Зеленая линия - линия, где у систем качество Retrieval совпадает с качеством Generation.

Архитектуры, которые выше этой линии - доставали много ненужных страниц (или пропускали нужные), но как-то получали правильный ответ.

Те, кто был ниже - находили правильные данные, но путались с генерацией ответа.

Самые лучшие RAG системы (по итоговому качеству ответов) - "сгрудились" рядом с этой зеленой линией - строго под ней. Получается логический вывод - качество финального ответа обычно зависит от качества заполнения контекста.

Ваш, @llm_under_hood 🤗

PS: Исходную таблицу можно увидеть на странице ERC. Там же есть ссылки на все доступные исходные данные соревнования, включая алгоритм оценки результатов и описания архитектур.

🔥17❤5

3.87K views11:15

Neural Kovalskii

Всем спасибо кто слушал, было здорово

2🔥63❤24👍9

4.78K views14:21

Neural Kovalskii

Forwarded from BOGDANISSSIMO

Please open Telegram to view this post

VIEW IN TELEGRAM

5.96K views21:21

Neural Kovalskii

На злобу дня из рабочего чата

😁99👍9❤1

6K views06:24

Neural Kovalskii

Forwarded from LLM Arena

😨

Бенчмаркинг LLM в кризисе?

Классические лидерборды больше не отражают реальную эффективность моделей в прикладных задачах. Мы видим, что специалисты комбинируют метрики и сигналы, чтобы подобрать идеальную LLM под свой уникальный кейс.

Мы проводим новое исследование, чтобы понять:

🔹Как профессионалы выбирают решение на базе LLM.
🔹Какие данные, инструменты и сигналы реально помогают.

🧑‍💻 Для кого?

Приглашаем всех, кто профессионально связан с AI-продуктами и работает с LLM: ML-инженеры, дата-сайентисты, исследователи, продакты, MLOps и индивидуальные контрибьюторы.

➡️ Пройти опрос: https://forms.gle/dDWeWaWbxhk6qsNL7

🙏 Будем признательны за репост — это поможет собрать более широкую и качественную выборку. Мы обязательно поделимся результатами исследования по его завершению.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍12🔥5

4.99K views08:30

Neural Kovalskii

Forwarded from Neural Shit

Киберпанк, который мы заслужили: собеседование с нейро-HR. Добро пожаловать в будущее, мясной мешок.

😁54🤯5

4.49K views12:14

Neural Kovalskii

n8n + Qwen 2.5 7b instruct + vLLM + SO = Мощный диджитал твин на своем железе! Всем привет! По следам экспериментов я решил собрать небольшой пост старт по тематике n8n здорового человека Что это такое? Low-code подход через n8n для построения логики "диджитал…

Си плас плас
Сикюэль
Туда же)

😁50🔥8👍1

5.54K viewsedited 05:36

Neural Kovalskii

120 млн ₽ за T-Pro 2.0 — образцовая дорожная карта в AI-гонку

Первые эксперименты с файнтюнингом всегда дороже (это мы трезво понимаем), но ребята показали как красиво войти в топ-лигу ру моделей
Второй прогон вышел в 120 лямов за полгода работы это просто огонь по нынешним меркам!

Для сравнения Витя приводит как западные модели сжигают десятки миллиардов на аналогичные задачи понятно что там с 0

Я считаю что это топ подход
Зачем городить с нуля сейчас когда в гонке железа топ модели это до 32b и 90% задач в топиках data extraction и search assistant
Можно взять проверенную базу и довести до ума?
Китайцы уже потратились на фундамент используй и развивай
Статистика загрузок с HuggingFace 30k! За первую неделю после релиза

Сам тестирую не gguf версию пока что полет нормальный! Но тесты все еще идут

[29/100] Витя Тарнавский

На T-Pro 2.0 мы потратили всего 120 млн ₽

В эту сумму входит всё: пол-года R&D, удачные и неудачные запуски обучения, стоимость датасетов. Для моделей такого уровня это очень скромно и эффективно.

Финальный прогон – 2.6 млн ₽. Большая разница – норма:…

👍27🔥8❤7👏1

5.22K viewsedited 10:04

Neural Kovalskii

Forwarded from Pavel Zloi

dev.by

Турнир по вайб-кодингу закончился провалом — победитель решил лишь 7,5% задач

Организаторы соревнования по ИИ-программированию K Prize опубликовали первые результаты — и они оказались неожиданно низкими.

вайб-кодер != программист

Увидел на канале тёзки @toshoseti публикацию про турнир по вайб-кодингу, результат данного турнира меня совсем не удивил, так как оказалось, что дрессированные модельки показали не самый лучший результат.

В целом, ожидаемо.

Как говорят автомобилисты: "самое главное в автомобиле - это прослойка между рулём и сидением".

В вайб-кодинге плюс-минус то же самое, если над задачей работает бестолковый инженер, то и результат будет соответствующий, даже если нейросеть у него state-of-the-art и файнтюненная под задачу и промтами с контекстом подбодрённая.

Приведу одну занятную цитату из поста:

Для сравнения: на тесте SWE‑Bench лучшие модели показывают до 75% успешных решений на простом уровне и 34% на сложном. В K Prize ни одна из участвовавших моделей не преодолела даже 10% порог.

Сошлюсь на @Roma_Data и @dealerAI, которые в своих публикациях не раз подмечали - тестирование LLM по современным бенчмаркам зачастую не показывает объективной картины. Потому что как только задачка выходит за пределы того, что модель видела в процессе обучения - всё, приехали, она начинает тупить, узкие места всплывают моментально и надо иметь опыт и знания, чтобы это подметить и вернуть модель в нужное русло.

Вот и получается, что хороший вайб-кодер - это не просто человек и нейросеть, а связка: инженер с опытом и пониманием проблемы + правильно подключённые и настроенные инструменты, в таком случае можно и 75% и больше задач решить, а если у специалиста пробел в знаниях, то всего его успешные потуги - просто удачное стечение обстоятельств, так как модель видела в процессе обучения как решать подобные задачи.

И хотя прогресс в кодинге у LLM есть, пока что я могу его охарактеризовать как костыль на костыле, который упирается не столько в архитектуру или там какую-то абстрактную точность модели, сколько в то, кто и как её использует. Поэтому ИМХО 100% успеха на подобных соревновании мы как мне кажется не увидим ни завтра, ни через год и вполне возможно, что при нашей жизни не увидим тоже.

Есть мнение, что если кто и добьётся успеха такого рода конкурсах, то это не тот, кто пишет промты в стиле "ты теперь TypeScript Senior" или "изучи исходный код проекта и реши вот эту задачу", а тот, кто будет выполнять декомпозицию задач на более простые, заставлять модели строить reasoning цепочки и не будет надеется на магию, но это уже скорее soft skills, а не фичи LLM.

2🔥32👍10💯5❤4

5.92K views14:04

Neural Kovalskii

Где посты/разборы/бенчмарки Валера?

Рутина/Переезд/и много чего еще затянуло на пару недель

Head of AI нужно тоже отрабатывать по этому было много выступлений/планирования/и принятия решений/постановок задач

Артём в же завершил свою тираду про разработку сервиса для корпоративной транскрибации аудио/видео встреч(читайте там аж 5 частей)
Разбирался что такое SWE и как его готовить особенно в разрезе запуска бенчмарков
Записывал подкаст с Богданом
Выступал на конференциях
Тестировал новую модель от t-tech
Успел написать через курсор сервис для разметки 2.5кк постов в тг (на одной 4090 и 7b модельке это длилось 54 часа) кстати это экономия почти $200 на gpt-4o-mini или $8к на gpt-4o
На двух 4090(48гб) спекулятивный декодинг не ускоряет ничего из за низкого p2p между картами(запишем пробовать больше не будем)

Так же последние 2 недели я в попытках причесать свою IT инфру(14 физических серверов и 13 виртуалок)
Понял что за последние 2 месяца экспериментов все в таком хаосе что сам ужаснулся, ровно как у меня в коробке с проводами и нужными штуками для пайки

Но как говорится насмотрелся я мотивирующих видео, ~~нет~~
Решил начать с того что просто описал каждый сервис в табличку и понял что буду делать с этим дальше(пока ловлю дзен)

После такого аудита нашел что аж 2 сервера простаивало(2080ti+2060super) пойдут под сервис воркеры для speechcoreai.com (4к регистраций без рекламы уже есть!)

Еще из новостей мне приехала новая 4090 (буду разворачивать на пару недель под заказ vLLM + VL модель для разметки видео)
DNS уже 3 раз переносит мне доставку нужного БП для сборки в чатике скину как нить процесс сборки

Вот такой мини обзор последних 2 недель!

В заготовках лежит пост про локальную инфру для RAG и своих экспериментов! (Сколько/Как собрать/Какие модели)

ITипичные аспекты Артёма

Пост 5/5, финалочка
Предыдущий

Наконец-то время подвести черту всей затее

Общий итог:

Первое и самое важное -порядочно освежил коднавыки и страты работы на форсаже.

Изначально без ИИ я бы оценил эквивалентный проект с нуля в 4 недели + фронтенд (ибо я…

2🔥28👍13❤8😁2

5.84K viewsedited 19:24

Neural Kovalskii

Forwarded from Dealer.AI

Microsoft показали списки профессий, которые больше всего и меньше всего подвержены риску быть замененными ИИ.

Data scientist 0.77 😳

В массажисты, я пойду пусть меня научат(с) 😁

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

😁28💯7🤔22

4.54K views08:12

Neural Kovalskii

Forwarded from Daisy news

🆕

Обновление в Daisy

Добавили новые AI-модели для работы с текстом, написания кода и продвинутых рассуждений.

Вот что появилось:

🤖 ChatGPT-4.1 — быстро пишет код и анализирует данные.

🤖 GPT-o4-mini — рассуждает и предлагает идеи.

🤖 Gemini 2.5 Flash — быстро и точно решает логические задачи.

🤖 Grok-3 — оперативно отвечает на вопросы и генерирует тексты.

🤖 Claude Sonnet-4 — пишет и проверяет код, упрощает тестирование.

Подробности о лимитах использования моделей смотри в личном кабинете в разделе «Тарифы». Пробуй новые возможности Daisy и делись впечатлениями в комментариях.

⚡️ Daisy — AI-сервис для удобной работы с передовыми LLM. Работает без VPN.
🌼 @daisygpt_bot

Please open Telegram to view this post

VIEW IN TELEGRAM

👍11🔥7🤣5❤1

5.02K views10:31

Neural Kovalskii

40k Telegram каналов: массовая аналитика на RTX 4090 за 48 часов

Задача на 1.5 млрд токенов
«Вошли и вышли, приключение на 20 минут»

Попали в руки 40 000 Telegram каналов

Задача: привести к единой таксономии через анализ постов, описаний и названий каналов

Масштаб
2 млн постов (по 20-50 с каждого канала)
3 млрд символов → после очистки 1.5 млрд токенов

Нужны метатеги + категории для каждого канала

Железо vs Облако: честный расчёт

GPT-4o-mini в облаке: $150 (≈12 200₽) за весь объём, мгновенно

RTX 4090 сборка (250k₽): 48 часов непрерывной работы

Точка окупаемости: 20+ экспериментов (250k₽ / 12k₽ = 20 запусков)

Двухэтапная архитектура

Этап 1 Извлечение метатегов
Задача: из постов канала получить топ-10 тегов, описывающих тематику

{
    "channel_tags": [
        "искусственный_интеллект", 
        "машинное_обучение", 
        "нейросети"
    ]
}

Алгоритм
1. Канал → фильтруем посты (мин. 50 символов)
2. Батчи по 30 постов → T-lite-it-1.0 → 3-5 тегов за запрос
3. До 3 батчей на канал (макс. 20 тегов)
4. Частотный анализ → топ-10 финальных тегов канала

Построение таксономии из реальных данных

Создание финальной таксономии:
1. Частотный анализ: собрал ВСЕ метатеги → выбрал топ-1000 самых частых
2. Claude Opus/Sonnet 4: скормил топ-1000 тегов → получил 50 базовых категорий
3. Deep Research: дополнил таксономию до 60 категорий через анализ пропущенных тематик
4. Финальный список: 60 категорий покрывают 95% всех каналов

Этап 2: Категоризация по таксономии
Задача: метатеги канала → 2-3 категории из 60 выведенных из данных

Схема сопоставления

{
    "mappings": [{
        "channel_name": "Neural Deep",
        "categories": ["artificial_intelligence", "technology_innovation"]
    }]
}

Алгоритм:
1. Загружаем готовые метатеги каналов
2. Батчи по 15 каналов → промпт с таксономией (60 категорий из реальных данных)
3. T-lite-it-1.0 выбирает подходящие категории из выведенного списка
4. Результат: channel_info + metaTags + taxonomy_categories

Точность спросите вы?

Проверил 1000 каналов вручную:
- 79% точность категоризации — канал в правильной категории
- 86% точность метатегов — теги релевантны контенту

Что работает отлично:
IT/Tech каналы → точные теги и категории
Новостные каналы → четкая категоризация
Образовательный контент → стабильное качество

Проблемные зоны:
❌ Мемные каналы → размытые категории
❌ Микс-контент → сложно выбрать главную тему
❌ Рекламные посты → портят всё тегирование канала
❌ Каналы с частой рекламой дают нерелевантные теги

Технические детали

Модель: T-lite-it-1.0 — русская версия Qwen2.5-7B от T-Tech
Железо: RTX 4090 (24GB VRAM) + AMD Ryzen 3
Потоки: 10 для метатегов, 20 для категоризации
Guided JSON: xgrammar для стабильного парсинга
vLLM

Еще раз про экономику

Разовая задача: Облако в 20 раз дешевле
20+ экспериментов: Железо окупается
Постоянная аналитика: Железо экономит x5-10

Преимущества собственного железа:
- Полный контроль процесса
- Эксперименты без страха за бюджет
- Конфиденциальность данных
- Возможность тонкой настройки

48 часов работы GPU → структурированная база с:
- Метатегами для каждого канала (из реальных постов)
- Таксономией, выведенной из топ-1000 тегов (не абстрактной)
- 79% точность категоризации
- 60 категорий покрывают 95% каналов
- Готовая основа для поиска и рекомендаций

Кстати сверху еще сделали векторизацию на bge-m3 получился бомбический семантический поиск!

Фотка сервера в коментах

601🔥84❤21👍12💯1

6.23K viewsedited 21:51

Neural Kovalskii

Куда бежит AI индустрия?

В выходные перечитывая канал и ализируя посты Рефата (делает оч крутые обзоры на AI инструменты) за последние месяцы, видно четкий тренд все бегут к агентным системам, но пока больше экспериментируют, чем внедряют в продакшн

Куда бежит индустрия (по Рефату):

1. От кодинг-ассистентов к полноценным агентам
- Cursor → Cursor Agent mode
- Claude Code с sub-agents и MCP интеграциями
- Amazon Kiro как "архитектурный редактор"
- Lovable с рассуждающими агентами

Паттерн: Все перестают делать "умный автокомплит" и переходят к системам, которые могут планировать и выполнять сложные задачи самостоятельно.

2. Мультимодальность как стандарт
- Google Gemini Deep Think с параллельными агентами
- Runway Aleph для VFX
- NotebookLM с видео-режимом
- HeyGen Video Agent

Паттерн: Текст-only решения воспринимаются как legacy. Если твой AI не работает с видео/аудио/изображениями - ты отстал

3. Браузеры как новая боевая площадка
- OpenAI готовит браузер-убийцу Chrome
- Perplexity Comet в бете
- Browser MCP для интеграции с существующими браузерами

Паттерн: Поисковики и браузеры сливаются в единые AI-интерфейсы. Google нервничает не зря

4. Voice-first интерфейсы набирают обороты
- 37% разработчиков планируют audio (по отчету Amplify Partners)
- ElevenLabs персональный помощник
- Grok 4 с шепотом и пением
- Носимые устройства будущего

Паттерн: Клавиатура и мышь постепенно отходят на второй план для AI-взаимодействий

5. Инфраструктурная консолидация
- Amazon S3 Vectors убивает standalone векторные БД
- Multi-model routing становится нормой (37% используют 5+ моделей)
- MCP как стандарт для tool integration

Паттерн: Фрагментированные AI-стеки консолидируются в unified платформы

6. AI-first workflow в компаниях
- 50% кода в Google пишет AI
- AI Operations Lead как новая роль
- Netflix использует AI для создания контента
- Amazon требует AI-навыки для карьерного роста

Паттерн: AI перестает быть "экспериментом" и становится core business process.

Главный инсайт: Индустрия движется от "AI как feature" к "AI как platform". Следующие 2-3 года определят, кто создаст доминирующую систему, а кто останется с legacy-решениями

2🔥39👍15❤5💯4

5.6K viewsedited 06:03

Neural Kovalskii

Forwarded from Dealer.AI

🤩

https://github.com/huggingface/transformers/releases/tag/v4.55.0

Верим?

🤨

Upd. Пока видим, что обе момзельки MoE с 3.6B и 5.1B активными параметрами, и конечно новый ускорятор на FlashAttention3.

Architecture.
- Token-choice MoE with SwiGLU activations. Классика

🚬

- When calculating the MoE weights, a softmax is taken over selected experts (softmax-after-topk). Тоже ничего нового. 🪨
- Each attention layer uses RoPE with 128K context. Не удивили.
- Alternate attention layers: full-context, and sliding 128-token window. Сам бы так сделал.

😘

- Attention layers use a learned attention sink per-head, where the denominator of the softmax has an additional additive value. Это интересное. 🧠
- It uses the same tokenizer as GPT-4o and other OpenAI API models. Ну ок че.
- Some new tokens have been incorporated to enable compatibility with the Responses API. Ожидаемо.

😏

P. S. Спасибо дорогому подписчику
@azik1725

😘

Please open Telegram to view this post

VIEW IN TELEGRAM

GitHub

Release v4.55.0: New openai GPT OSS model! · huggingface/transformers

Welcome GPT OSS, the new open-source model family from OpenAI!

For more detailed information about this model, we recommend reading the following blogpost: https://huggingface.co/blog/welcome-open...

🤔14❤5

3.65K views16:49

Neural Kovalskii

Forwarded from Сиолошная

OpenAI разродились двумя опенсурсными моделями, на 120b и 20b параметров. Обе — микстуры экспертов, что означает, что несмотря на размер, если вам хватает памяти GPU, модели быстрые: 5.1b и 3.6b активных параметров.

Модели рассуждающие, поддерживают 3 типа длины рассуждений: low, medium, high.

Ссылки:
— https://openai.com/open-models/
— https://openai.com/index/gpt-oss-model-card/
— https://cookbook.openai.com/articles/openai-harmony
— https://gpt-oss.com/ - тут можно поиграть с моделью

Судя по лендингу, модели уже сегодня будут доступны на Groq и Cerebas, предлагая очень быструю генерацию. И почти все инференс-движки уже поддерживают модель.

И самое крутое — как и o3, модели поддерживают вызов инструментов (поиск, Python, etc) в цепочке рассуждений.

Самое некрутое: нет мультимодальности, картинки и тем более звук модели не воспринимают.

🔥17😁3🤣1

2.53K views17:21

Neural Kovalskii

Согласен со всеми кто репостит, метрики сказка

Я же буду пробовать запустить на своем кластере 4090(48гб)

Пойду расчехлять терминал!

26👍12🔥6❤4

4.3K views17:26

Neural Kovalskii

Согласен со всеми кто репостит, метрики сказка Я же буду пробовать запустить на своем кластере 4090(48гб) Пойду расчехлять терминал!

gpt-oss запуск на 4090/3090

TL;DR: OpenAI выкатили gpt-oss-120b и 20b модели, но Docker образ vllm/vllm-openai:gptoss не работает на RTX 4090 из-за жесткого требования FlashAttention 3, которое поддерживается только на H100/B100

Временно используйте llama.cpp с весами от unsloth

Вчера пытался запустить новые модели от OpenAI на своих RTX 4090 (48GB x2) через официальный Docker образ vllm/vllm-openai:gptoss. Результат - крах с AssertionError: Sinks are only supported in FlashAttention 3.

Проблема системная:

Что происходит под капотом:
- OpenAI добавили в свой форк vLLM обязательное использование асинхронных декодирований
- Эти оптимизации требуют FlashAttention 3
- FA3 работает только на серверных GPU: H100, B100 или потребительских RTX 5090
- RTX 4090, даже с 48GB памяти, остается за бортом

Обходные пути не работают:

VLLM_ATTENTION_BACKEND=TRITON_ATTN_VLLM_V1

Сервер стартует, но падает при инференсе

torch.AcceleratorError: CUDA error: no kernel image is available for execution on the device

Как пишет подписчик @dvv101111
Судя по активности в GitHub, OpenAI и vLLM планируют мержить изменения частями.

Изначально хотели большой PR на 22k строк, но сообщество попросило разбить по фичам

Прогноз: К следующей неделе должна появиться более гибкая версия vLLM с настройкой FlashAttention

Что делать сейчас?

Пока что единственный способ запустить gpt-oss на RTX 4090:

1. llama.cpp с весами от unsloth
2. Подробный гайд тут
3. Поддержка multi-GPU через тензорный параллелизм

Вечером перелезу на llama.cpp для тестов, но хотелось бы на "исконно родном" vLLM запустить сначала.

Следим за моим issue - там уже собралось сообщество пострадавших с RTX 4090, L20 48GB и A100.

Пока что gpt-oss доступен только владельцам H100+ или тем, кто готов возиться с llama.cpp.
Но учитывая темпы разработки, скоро все заработает и на наших "простых" 4090 48GB 😄

Кто еще пытался запустить? И на чем?
Паша рапортует о успешном запуске на Ollama

👍22❤12😁114

5K viewsedited 09:34

About

Blog

Apps

Platform