Так так тут вторая часть вышла!
Страха и ненависти вЛас-Вегас (курсоре) точно перейдем на Claude Code в следующих итерациях)))
Зачитаться что еще накопал синьор при работе с AI инструментами
Страха и ненависти в
Зачитаться что еще накопал синьор при работе с AI инструментами
Telegram
ITипичные аспекты Артёма
Начало
Продолжу описывать процесс работы длиной в (предыдущую) неделю,мысли подходы в формате:
* Затраченное время
* Какие изменения вносил
* Какие выводы сделаны/инсайты получены
пнд-втр, 10+14=24ч.
- Загружен проект, проведена первичная оценка имеющейся…
Продолжу описывать процесс работы длиной в (предыдущую) неделю,мысли подходы в формате:
* Затраченное время
* Какие изменения вносил
* Какие выводы сделаны/инсайты получены
пнд-втр, 10+14=24ч.
- Загружен проект, проведена первичная оценка имеющейся…
👏12👍7🔥4😁2
Завтра выступлю на конфе Turbo ML Conf 2025
https://t.iss.one/zheltyi_ai/440
Рега уже закрыта, будет запись
Расскажу про workflow, мелкие модели до 10b и простые решения!
Возможно запишу вам обстановку!
https://t.iss.one/zheltyi_ai/440
Рега уже закрыта, будет запись
Расскажу про workflow, мелкие модели до 10b и простые решения!
Возможно запишу вам обстановку!
1❤49👍11 9🔥4
Новый топ в open-source среди ру моделей 30b +?
И так пока я мчу на сапсане в МСК разберу новинку от t-tech
T-pro-it-2.0 (qwen3-32b)
Запустил я модельку на нашем кластере х2 4090(48 гб модифицированные)
"Без спекулятивки"
Влезли все те же 120к токенов в (кто забыл как настраивать rope_scaling в сonfig.json)
Сходу пару базовых сюпризов 1) пришлось уйти на самую последнюю версию vllm 2) поднять версии драйверов (nvdidia+cuda)
Как вы помните я тестировал тут qwen coder и T-pro-it-1.0 он же (qwen2.5-32b-instruct)
средняя скорость чтения в одном потоке 800 т/с чтение и 22 т/c генерация
Модель рассуждающая так что она будет пулять еще поле think (бюджетом на рассуждение пока можно управлять через систем промпт возможно в vLLM появится поддержка
Либо можно передать параметр
Такой подход передает в шаблон
prompt: '<|im_start|>user\nРеши: 2x + 5 = 13<|im_end|>\n<|im_start|>assistant\n
Что в свою очередь отключает размыления
Еще можно включить
Такое нужно для передачи отдельного поля
————————————————————————-
И так скорость честно я ожидал чуть больше исходя из того что проделали ребята из t-tech
Чтение в одном потоке 920 т/с чтение и 24.7 т/c генерация прирост составил 2.7 токена в секунду на моих кейсах что тоже неплохо!
Дальше я буду делать замеры на задачах
RAG (наш бенч) + Задачи классификации контента
SO погоняю большие схемы
Генерация отличная чистая без китайский иероглифов и артефактов, конечно же модель запущена в FP16 без квантов
И так пока я мчу на сапсане в МСК разберу новинку от t-tech
T-pro-it-2.0 (qwen3-32b)
Запустил я модельку на нашем кластере х2 4090(48 гб модифицированные)
"Без спекулятивки"
Влезли все те же 120к токенов в (кто забыл как настраивать rope_scaling в сonfig.json)
"rope_scaling": {
"factor": 4.0,
"original_max_position_embeddings": 32768,
"type": "yarn"
},
Сходу пару базовых сюпризов 1) пришлось уйти на самую последнюю версию vllm 2) поднять версии драйверов (nvdidia+cuda)
Как вы помните я тестировал тут qwen coder и T-pro-it-1.0 он же (qwen2.5-32b-instruct)
средняя скорость чтения в одном потоке 800 т/с чтение и 22 т/c генерация
Модель рассуждающая так что она будет пулять еще поле think (бюджетом на рассуждение пока можно управлять через систем промпт возможно в vLLM появится поддержка
budget
) Либо можно передать параметр
"enable_thinking": False
и отключить расждуения вовсеstream = client.chat.completions.create(
model="qwen3-32b",
messages=[{"role": "user", "content": "Реши: 2x + 5 = 13"}],
stream=True,
extra_body={"chat_template_kwargs": {"enable_thinking": False}}
)
Такой подход передает в шаблон
prompt: '<|im_start|>user\nРеши: 2x + 5 = 13<|im_end|>\n<|im_start|>assistant\n
<think>\n\n</think>
\n\n'Что в свою очередь отключает размыления
Еще можно включить
--reasoning-parser qwen3
Такое нужно для передачи отдельного поля
reasoning_content
в ответе что хорошо расширят кол-во сценариев при работе с такой моделью————————————————————————-
И так скорость честно я ожидал чуть больше исходя из того что проделали ребята из t-tech
Чтение в одном потоке 920 т/с чтение и 24.7 т/c генерация прирост составил 2.7 токена в секунду на моих кейсах что тоже неплохо!
Дальше я буду делать замеры на задачах
RAG (наш бенч) + Задачи классификации контента
SO погоняю большие схемы
Генерация отличная чистая без китайский иероглифов и артефактов, конечно же модель запущена в FP16 без квантов
🔥33👍10🤔2 1
Forwarded from LLM под капотом
График точности всех RAG экспериментов из ERCv2
Напомню, что в ERCr2 43 разные команды ставили эксперименты по построению RAG систем, которые смогут дать наиболее точные ответы на 100 вопросов по 100 PDF (публичные отчеты компаний). Некоторые вопросы требовали сравнительной работы с разными PDF.
Всего было поставлено 134 эксперимента с разными моделями и архитектурами. На этой таблицы они все отображены.
- R - это точность работы Retrieval алгоритма (системы должны были подтверждать свои ответы ссылками на страница)
- G - это точность финального ответа, на основе ground truth данных
- Зеленая линия - линия, где у систем качество Retrieval совпадает с качеством Generation.
Архитектуры, которые выше этой линии - доставали много ненужных страниц (или пропускали нужные), но как-то получали правильный ответ.
Те, кто был ниже - находили правильные данные, но путались с генерацией ответа.
Самые лучшие RAG системы (по итоговому качеству ответов) - "сгрудились" рядом с этой зеленой линией - строго под ней. Получается логический вывод - качество финального ответа обычно зависит от качества заполнения контекста.
Ваш, @llm_under_hood 🤗
PS: Исходную таблицу можно увидеть на странице ERC. Там же есть ссылки на все доступные исходные данные соревнования, включая алгоритм оценки результатов и описания архитектур.
Напомню, что в ERCr2 43 разные команды ставили эксперименты по построению RAG систем, которые смогут дать наиболее точные ответы на 100 вопросов по 100 PDF (публичные отчеты компаний). Некоторые вопросы требовали сравнительной работы с разными PDF.
Всего было поставлено 134 эксперимента с разными моделями и архитектурами. На этой таблицы они все отображены.
- R - это точность работы Retrieval алгоритма (системы должны были подтверждать свои ответы ссылками на страница)
- G - это точность финального ответа, на основе ground truth данных
- Зеленая линия - линия, где у систем качество Retrieval совпадает с качеством Generation.
Архитектуры, которые выше этой линии - доставали много ненужных страниц (или пропускали нужные), но как-то получали правильный ответ.
Те, кто был ниже - находили правильные данные, но путались с генерацией ответа.
Самые лучшие RAG системы (по итоговому качеству ответов) - "сгрудились" рядом с этой зеленой линией - строго под ней. Получается логический вывод - качество финального ответа обычно зависит от качества заполнения контекста.
Ваш, @llm_under_hood 🤗
PS: Исходную таблицу можно увидеть на странице ERC. Там же есть ссылки на все доступные исходные данные соревнования, включая алгоритм оценки результатов и описания архитектур.
🔥16❤5
Forwarded from BOGDANISSSIMO
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from LLM Arena
Классические лидерборды больше не отражают реальную эффективность моделей в прикладных задачах. Мы видим, что специалисты комбинируют метрики и сигналы, чтобы подобрать идеальную LLM под свой уникальный кейс.
Мы проводим новое исследование, чтобы понять:
🔹Как профессионалы выбирают решение на базе LLM.
🔹Какие данные, инструменты и сигналы реально помогают.
🧑💻 Для кого?
Приглашаем всех, кто профессионально связан с AI-продуктами и работает с LLM: ML-инженеры, дата-сайентисты, исследователи, продакты, MLOps и индивидуальные контрибьюторы.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥4
Forwarded from Neural Shit
Киберпанк, который мы заслужили: собеседование с нейро-HR. Добро пожаловать в будущее, мясной мешок.
😁53🤯5
Neural Deep
n8n + Qwen 2.5 7b instruct + vLLM + SO = Мощный диджитал твин на своем железе! Всем привет! По следам экспериментов я решил собрать небольшой пост старт по тематике n8n здорового человека Что это такое? Low-code подход через n8n для построения логики "диджитал…
Си плас плас
Сикюэль
Туда же)
Сикюэль
Туда же)
😁45🔥8
120 млн ₽ за T-Pro 2.0 — образцовая дорожная карта в AI-гонку
Первые эксперименты с файнтюнингом всегда дороже (это мы трезво понимаем), но ребята показали как красиво войти в топ-лигу ру моделей
Второй прогон вышел в 120 лямов за полгода работы это просто огонь по нынешним меркам!
Для сравнения Витя приводит как западные модели сжигают десятки миллиардов на аналогичные задачи понятно что там с 0
Я считаю что это топ подход
Зачем городить с нуля сейчас когда в гонке железа топ модели это до 32b и 90% задач в топиках data extraction и search assistant
Можно взять проверенную базу и довести до ума?
Китайцы уже потратились на фундамент используй и развивай
Статистика загрузок с HuggingFace 30k! За первую неделю после релиза
Сам тестирую не gguf версию пока что полет нормальный! Но тесты все еще идут
Первые эксперименты с файнтюнингом всегда дороже (это мы трезво понимаем), но ребята показали как красиво войти в топ-лигу ру моделей
Второй прогон вышел в 120 лямов за полгода работы это просто огонь по нынешним меркам!
Для сравнения Витя приводит как западные модели сжигают десятки миллиардов на аналогичные задачи понятно что там с 0
Я считаю что это топ подход
Зачем городить с нуля сейчас когда в гонке железа топ модели это до 32b и 90% задач в топиках data extraction и search assistant
Можно взять проверенную базу и довести до ума?
Китайцы уже потратились на фундамент используй и развивай
Статистика загрузок с HuggingFace 30k! За первую неделю после релиза
Сам тестирую не gguf версию пока что полет нормальный! Но тесты все еще идут
Telegram
[29/100] Витя Тарнавский
На T-Pro 2.0 мы потратили всего 120 млн ₽
В эту сумму входит всё: пол-года R&D, удачные и неудачные запуски обучения, стоимость датасетов. Для моделей такого уровня это очень скромно и эффективно.
Финальный прогон – 2.6 млн ₽. Большая разница – норма:…
В эту сумму входит всё: пол-года R&D, удачные и неудачные запуски обучения, стоимость датасетов. Для моделей такого уровня это очень скромно и эффективно.
Финальный прогон – 2.6 млн ₽. Большая разница – норма:…
👍25❤7🔥7👏1
Forwarded from Pavel Zloi
dev.by
Турнир по вайб-кодингу закончился провалом — победитель решил лишь 7,5% задач
Организаторы соревнования по ИИ-программированию K Prize опубликовали первые результаты — и они оказались неожиданно низкими.
вайб-кодер != программист
Увидел на канале тёзки @toshoseti публикацию про турнир по вайб-кодингу, результат данного турнира меня совсем не удивил, так как оказалось, что дрессированные модельки показали не самый лучший результат.
В целом, ожидаемо.
Как говорят автомобилисты: "самое главное в автомобиле - это прослойка между рулём и сидением".
В вайб-кодинге плюс-минус то же самое, если над задачей работает бестолковый инженер, то и результат будет соответствующий, даже если нейросеть у него state-of-the-art и файнтюненная под задачу и промтами с контекстом подбодрённая.
Приведу одну занятную цитату из поста:
Сошлюсь на @Roma_Data и @dealerAI, которые в своих публикациях не раз подмечали - тестирование LLM по современным бенчмаркам зачастую не показывает объективной картины. Потому что как только задачка выходит за пределы того, что модель видела в процессе обучения - всё, приехали, она начинает тупить, узкие места всплывают моментально и надо иметь опыт и знания, чтобы это подметить и вернуть модель в нужное русло.
Вот и получается, что хороший вайб-кодер - это не просто человек и нейросеть, а связка: инженер с опытом и пониманием проблемы + правильно подключённые и настроенные инструменты, в таком случае можно и 75% и больше задач решить, а если у специалиста пробел в знаниях, то всего его успешные потуги - просто удачное стечение обстоятельств, так как модель видела в процессе обучения как решать подобные задачи.
И хотя прогресс в кодинге у LLM есть, пока что я могу его охарактеризовать как костыль на костыле, который упирается не столько в архитектуру или там какую-то абстрактную точность модели, сколько в то, кто и как её использует. Поэтому ИМХО 100% успеха на подобных соревновании мы как мне кажется не увидим ни завтра, ни через год и вполне возможно, что при нашей жизни не увидим тоже.
Есть мнение, что если кто и добьётся успеха такого рода конкурсах, то это не тот, кто пишет промты в стиле "ты теперь TypeScript Senior" или "изучи исходный код проекта и реши вот эту задачу", а тот, кто будет выполнять декомпозицию задач на более простые, заставлять модели строить reasoning цепочки и не будет надеется на магию, но это уже скорее soft skills, а не фичи LLM.
Увидел на канале тёзки @toshoseti публикацию про турнир по вайб-кодингу, результат данного турнира меня совсем не удивил, так как оказалось, что дрессированные модельки показали не самый лучший результат.
В целом, ожидаемо.
Как говорят автомобилисты: "самое главное в автомобиле - это прослойка между рулём и сидением".
В вайб-кодинге плюс-минус то же самое, если над задачей работает бестолковый инженер, то и результат будет соответствующий, даже если нейросеть у него state-of-the-art и файнтюненная под задачу и промтами с контекстом подбодрённая.
Приведу одну занятную цитату из поста:
Для сравнения: на тесте SWE‑Bench лучшие модели показывают до 75% успешных решений на простом уровне и 34% на сложном. В K Prize ни одна из участвовавших моделей не преодолела даже 10% порог.
Сошлюсь на @Roma_Data и @dealerAI, которые в своих публикациях не раз подмечали - тестирование LLM по современным бенчмаркам зачастую не показывает объективной картины. Потому что как только задачка выходит за пределы того, что модель видела в процессе обучения - всё, приехали, она начинает тупить, узкие места всплывают моментально и надо иметь опыт и знания, чтобы это подметить и вернуть модель в нужное русло.
Вот и получается, что хороший вайб-кодер - это не просто человек и нейросеть, а связка: инженер с опытом и пониманием проблемы + правильно подключённые и настроенные инструменты, в таком случае можно и 75% и больше задач решить, а если у специалиста пробел в знаниях, то всего его успешные потуги - просто удачное стечение обстоятельств, так как модель видела в процессе обучения как решать подобные задачи.
И хотя прогресс в кодинге у LLM есть, пока что я могу его охарактеризовать как костыль на костыле, который упирается не столько в архитектуру или там какую-то абстрактную точность модели, сколько в то, кто и как её использует. Поэтому ИМХО 100% успеха на подобных соревновании мы как мне кажется не увидим ни завтра, ни через год и вполне возможно, что при нашей жизни не увидим тоже.
Есть мнение, что если кто и добьётся успеха такого рода конкурсах, то это не тот, кто пишет промты в стиле "ты теперь TypeScript Senior" или "изучи исходный код проекта и реши вот эту задачу", а тот, кто будет выполнять декомпозицию задач на более простые, заставлять модели строить reasoning цепочки и не будет надеется на магию, но это уже скорее soft skills, а не фичи LLM.
2🔥29👍9💯6❤5
Где посты/разборы/бенчмарки Валера?
Рутина/Переезд/и много чего еще затянуло на пару недель
Head of AI нужно тоже отрабатывать по этому было много выступлений/планирования/и принятия решений/постановок задач
Артём в же завершил свою тираду про разработку сервиса для корпоративной транскрибации аудио/видео встреч(читайте там аж 5 частей)
Разбирался что такое SWE и как его готовить особенно в разрезе запуска бенчмарков
Записывал подкаст с Богданом
Выступал на конференциях
Тестировал новую модель от t-tech
Успел написать через курсор сервис для разметки 2.5кк постов в тг (на одной 4090 и 7b модельке это длилось 54 часа) кстати это экономия почти $200 на gpt-4o-mini или $8к на gpt-4o
На двух 4090(48гб) спекулятивный декодинг не ускоряет ничего из за низкого p2p между картами(запишем пробовать больше не будем)
Так же последние 2 недели я в попытках причесать свою IT инфру(14 физических серверов и 13 виртуалок)
Понял что за последние 2 месяца экспериментов все в таком хаосе что сам ужаснулся, ровно как у меня в коробке с проводами и нужными штуками для пайки
Но как говорится насмотрелся я мотивирующих видео,нет
Решил начать с того что просто описал каждый сервис в табличку и понял что буду делать с этим дальше(пока ловлю дзен)
После такого аудита нашел что аж 2 сервера простаивало(2080ti+2060super) пойдут под сервис воркеры для speechcoreai.com (4к регистраций без рекламы уже есть!)
Еще из новостей мне приехала новая 4090 (буду разворачивать на пару недель под заказ vLLM + VL модель для разметки видео)
DNS уже 3 раз переносит мне доставку нужного БП для сборки в чатике скину как нить процесс сборки
Вот такой мини обзор последних 2 недель!
В заготовках лежит пост про локальную инфру для RAG и своих экспериментов! (Сколько/Как собрать/Какие модели)
Рутина/Переезд/и много чего еще затянуло на пару недель
Head of AI нужно тоже отрабатывать по этому было много выступлений/планирования/и принятия решений/постановок задач
Артём в же завершил свою тираду про разработку сервиса для корпоративной транскрибации аудио/видео встреч(читайте там аж 5 частей)
Разбирался что такое SWE и как его готовить особенно в разрезе запуска бенчмарков
Записывал подкаст с Богданом
Выступал на конференциях
Тестировал новую модель от t-tech
Успел написать через курсор сервис для разметки 2.5кк постов в тг (на одной 4090 и 7b модельке это длилось 54 часа) кстати это экономия почти $200 на gpt-4o-mini или $8к на gpt-4o
На двух 4090(48гб) спекулятивный декодинг не ускоряет ничего из за низкого p2p между картами(запишем пробовать больше не будем)
Так же последние 2 недели я в попытках причесать свою IT инфру(14 физических серверов и 13 виртуалок)
Понял что за последние 2 месяца экспериментов все в таком хаосе что сам ужаснулся, ровно как у меня в коробке с проводами и нужными штуками для пайки
Но как говорится насмотрелся я мотивирующих видео,
Решил начать с того что просто описал каждый сервис в табличку и понял что буду делать с этим дальше(пока ловлю дзен)
После такого аудита нашел что аж 2 сервера простаивало(2080ti+2060super) пойдут под сервис воркеры для speechcoreai.com (4к регистраций без рекламы уже есть!)
Еще из новостей мне приехала новая 4090 (буду разворачивать на пару недель под заказ vLLM + VL модель для разметки видео)
DNS уже 3 раз переносит мне доставку нужного БП для сборки в чатике скину как нить процесс сборки
Вот такой мини обзор последних 2 недель!
В заготовках лежит пост про локальную инфру для RAG и своих экспериментов! (Сколько/Как собрать/Какие модели)
Telegram
ITипичные аспекты Артёма
Пост 5/5, финалочка
Предыдущий
Наконец-то время подвести черту всей затее
Общий итог:
Первое и самое важное -порядочно освежил коднавыки и страты работы на форсаже.
Изначально без ИИ я бы оценил эквивалентный проект с нуля в 4 недели + фронтенд (ибо я…
Предыдущий
Наконец-то время подвести черту всей затее
Общий итог:
Первое и самое важное -порядочно освежил коднавыки и страты работы на форсаже.
Изначально без ИИ я бы оценил эквивалентный проект с нуля в 4 недели + фронтенд (ибо я…
2🔥23👍13❤8😁2
Forwarded from Dealer.AI
Microsoft показали списки профессий, которые больше всего и меньше всего подвержены риску быть замененными ИИ.
Data scientist 0.77😳
В массажисты, я пойду пусть меня научат(с)😁
Data scientist 0.77
В массажисты, я пойду пусть меня научат(с)
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁27💯6🤔2 2
Forwarded from Daisy news
Добавили новые AI-модели для работы с текстом, написания кода и продвинутых рассуждений.
Вот что появилось:
Подробности о лимитах использования моделей смотри в личном кабинете в разделе «Тарифы». Пробуй новые возможности Daisy и делись впечатлениями в комментариях.
⚡️ Daisy — AI-сервис для удобной работы с передовыми LLM. Работает без VPN.
🌼 @daisygpt_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥7🤣5❤1
40k Telegram каналов: массовая аналитика на RTX 4090 за 48 часов
Задача на 1.5 млрд токенов
«Вошли и вышли, приключение на 20 минут»
Попали в руки 40 000 Telegram каналов
Задача: привести к единой таксономии через анализ постов, описаний и названий каналов
Масштаб
2 млн постов (по 20-50 с каждого канала)
3 млрд символов → после очистки 1.5 млрд токенов
Нужны метатеги + категории для каждого канала
Железо vs Облако: честный расчёт
GPT-4o-mini в облаке: $150 (≈12 200₽) за весь объём, мгновенно
RTX 4090 сборка (250k₽): 48 часов непрерывной работы
Точка окупаемости: 20+ экспериментов (250k₽ / 12k₽ = 20 запусков)
Двухэтапная архитектура
Этап 1 Извлечение метатегов
Задача: из постов канала получить топ-10 тегов, описывающих тематику
Алгоритм
1. Канал → фильтруем посты (мин. 50 символов)
2. Батчи по 30 постов → T-lite-it-1.0 → 3-5 тегов за запрос
3. До 3 батчей на канал (макс. 20 тегов)
4. Частотный анализ → топ-10 финальных тегов канала
Построение таксономии из реальных данных
Создание финальной таксономии:
1. Частотный анализ: собрал ВСЕ метатеги → выбрал топ-1000 самых частых
2. Claude Opus/Sonnet 4: скормил топ-1000 тегов → получил 50 базовых категорий
3. Deep Research: дополнил таксономию до 60 категорий через анализ пропущенных тематик
4. Финальный список: 60 категорий покрывают 95% всех каналов
Этап 2: Категоризация по таксономии
Задача: метатеги канала → 2-3 категории из 60 выведенных из данных
Схема сопоставления
Алгоритм:
1. Загружаем готовые метатеги каналов
2. Батчи по 15 каналов → промпт с таксономией (60 категорий из реальных данных)
3. T-lite-it-1.0 выбирает подходящие категории из выведенного списка
4. Результат: channel_info + metaTags + taxonomy_categories
Точность спросите вы?
Проверил 1000 каналов вручную:
- 79% точность категоризации — канал в правильной категории
- 86% точность метатегов — теги релевантны контенту
Что работает отлично:
IT/Tech каналы → точные теги и категории
Новостные каналы → четкая категоризация
Образовательный контент → стабильное качество
Проблемные зоны:
❌ Мемные каналы → размытые категории
❌ Микс-контент → сложно выбрать главную тему
❌ Рекламные посты → портят всё тегирование канала
❌ Каналы с частой рекламой дают нерелевантные теги
Технические детали
Модель: T-lite-it-1.0 — русская версия Qwen2.5-7B от T-Tech
Железо: RTX 4090 (24GB VRAM) + AMD Ryzen 3
Потоки: 10 для метатегов, 20 для категоризации
Guided JSON: xgrammar для стабильного парсинга
vLLM
Еще раз про экономику
Разовая задача: Облако в 20 раз дешевле
20+ экспериментов: Железо окупается
Постоянная аналитика: Железо экономит x5-10
Преимущества собственного железа:
- Полный контроль процесса
- Эксперименты без страха за бюджет
- Конфиденциальность данных
- Возможность тонкой настройки
48 часов работы GPU → структурированная база с:
- Метатегами для каждого канала (из реальных постов)
- Таксономией, выведенной из топ-1000 тегов (не абстрактной)
- 79% точность категоризации
- 60 категорий покрывают 95% каналов
- Готовая основа для поиска и рекомендаций
Кстати сверху еще сделали векторизацию на bge-m3 получился бомбический!
Фотка сервера в коментах
Задача на 1.5 млрд токенов
«Вошли и вышли, приключение на 20 минут»
Попали в руки 40 000 Telegram каналов
Задача: привести к единой таксономии через анализ постов, описаний и названий каналов
Масштаб
2 млн постов (по 20-50 с каждого канала)
3 млрд символов → после очистки 1.5 млрд токенов
Нужны метатеги + категории для каждого канала
Железо vs Облако: честный расчёт
GPT-4o-mini в облаке: $150 (≈12 200₽) за весь объём, мгновенно
RTX 4090 сборка (250k₽): 48 часов непрерывной работы
Точка окупаемости: 20+ экспериментов (250k₽ / 12k₽ = 20 запусков)
Двухэтапная архитектура
Этап 1 Извлечение метатегов
Задача: из постов канала получить топ-10 тегов, описывающих тематику
{
"channel_tags": [
"искусственный_интеллект",
"машинное_обучение",
"нейросети"
]
}
Алгоритм
1. Канал → фильтруем посты (мин. 50 символов)
2. Батчи по 30 постов → T-lite-it-1.0 → 3-5 тегов за запрос
3. До 3 батчей на канал (макс. 20 тегов)
4. Частотный анализ → топ-10 финальных тегов канала
Построение таксономии из реальных данных
Создание финальной таксономии:
1. Частотный анализ: собрал ВСЕ метатеги → выбрал топ-1000 самых частых
2. Claude Opus/Sonnet 4: скормил топ-1000 тегов → получил 50 базовых категорий
3. Deep Research: дополнил таксономию до 60 категорий через анализ пропущенных тематик
4. Финальный список: 60 категорий покрывают 95% всех каналов
Этап 2: Категоризация по таксономии
Задача: метатеги канала → 2-3 категории из 60 выведенных из данных
Схема сопоставления
{
"mappings": [{
"channel_name": "Neural Deep",
"categories": ["artificial_intelligence", "technology_innovation"]
}]
}
Алгоритм:
1. Загружаем готовые метатеги каналов
2. Батчи по 15 каналов → промпт с таксономией (60 категорий из реальных данных)
3. T-lite-it-1.0 выбирает подходящие категории из выведенного списка
4. Результат: channel_info + metaTags + taxonomy_categories
Точность спросите вы?
Проверил 1000 каналов вручную:
- 79% точность категоризации — канал в правильной категории
- 86% точность метатегов — теги релевантны контенту
Что работает отлично:
IT/Tech каналы → точные теги и категории
Новостные каналы → четкая категоризация
Образовательный контент → стабильное качество
Проблемные зоны:
❌ Мемные каналы → размытые категории
❌ Микс-контент → сложно выбрать главную тему
❌ Рекламные посты → портят всё тегирование канала
❌ Каналы с частой рекламой дают нерелевантные теги
Технические детали
Модель: T-lite-it-1.0 — русская версия Qwen2.5-7B от T-Tech
Железо: RTX 4090 (24GB VRAM) + AMD Ryzen 3
Потоки: 10 для метатегов, 20 для категоризации
Guided JSON: xgrammar для стабильного парсинга
vLLM
Еще раз про экономику
Разовая задача: Облако в 20 раз дешевле
20+ экспериментов: Железо окупается
Постоянная аналитика: Железо экономит x5-10
Преимущества собственного железа:
- Полный контроль процесса
- Эксперименты без страха за бюджет
- Конфиденциальность данных
- Возможность тонкой настройки
48 часов работы GPU → структурированная база с:
- Метатегами для каждого канала (из реальных постов)
- Таксономией, выведенной из топ-1000 тегов (не абстрактной)
- 79% точность категоризации
- 60 категорий покрывают 95% каналов
- Готовая основа для поиска и рекомендаций
Кстати сверху еще сделали векторизацию на bge-m3 получился бомбический!
Фотка сервера в коментах
601🔥67❤17👍11💯1