Всем привет пока подрастет новое поколение после спокойной ночи, у меня добрались руки развернуть Qwen 2.5 Coder
Дано
1. Новости о том что появилась Open-Source LLM которая по написанию кода сопоставима с GPT-4o
2. Код бота который состоит из более чем 600 строк и является монолитом
3. Qwen2.5-Coder-32B-Instruct развернута на нашем сервере с четырьмя 4090 на кастомном охлаждении который мы собрали вместе с одной крутой хардварной студией из Санкт-Петербурга
Характеристики запуска:
- 32B
- FP16
- Скорость чтения более 2к токенов в секунду
- Скорость генерации 20 токенов в секунду
- Контекст вмещает 32k токенов
- Длина очереди 2
Загрузил код в промпт и написал простую задачу на русском а именно "расширить модель лимитов и добавить туда новые возможности логирования последней активности пользователя по любым действиям" что влечет как по мне не мало изменений в коде
Результат
Модель за два прохода выдала 400 строк в первый раз и 200 во второй код заработал с первого раза без исправлений
Одна и небольшая задача изменения кода на питоне конечно не очень репрезентативно так что отдал на тест в свой отдел разработки посмотрим что скажут ребята по диффу модель сделала 15 изменений в этой портянке и предложила создать мерж скрипт на случай если этого поля нет в БД что ж я всегда считал этих ребят сверхлюдьми
Как всегда все со скринами и пруфами
Дано
1. Новости о том что появилась Open-Source LLM которая по написанию кода сопоставима с GPT-4o
2. Код бота который состоит из более чем 600 строк и является монолитом
3. Qwen2.5-Coder-32B-Instruct развернута на нашем сервере с четырьмя 4090 на кастомном охлаждении который мы собрали вместе с одной крутой хардварной студией из Санкт-Петербурга
Характеристики запуска:
- 32B
- FP16
- Скорость чтения более 2к токенов в секунду
- Скорость генерации 20 токенов в секунду
- Контекст вмещает 32k токенов
- Длина очереди 2
Загрузил код в промпт и написал простую задачу на русском а именно "расширить модель лимитов и добавить туда новые возможности логирования последней активности пользователя по любым действиям" что влечет как по мне не мало изменений в коде
Результат
Модель за два прохода выдала 400 строк в первый раз и 200 во второй код заработал с первого раза без исправлений
Одна и небольшая задача изменения кода на питоне конечно не очень репрезентативно так что отдал на тест в свой отдел разработки посмотрим что скажут ребята по диффу модель сделала 15 изменений в этой портянке и предложила создать мерж скрипт на случай если этого поля нет в БД что ж я всегда считал этих ребят сверхлюдьми
Как всегда все со скринами и пруфами
🔥14👍5❤3
Так как у меня целая орда Telegram ботов, где общий MAU перевалил за 50к, и большую часть ботов я разрабатываю и поддерживаю сам, решил иногда выкладывать сюда статистику и как её добиваюсь.
Начнем с бота @daisytranscribe_bot "Speech-To-Text Daisy".
Сейчас он умеет любое аудио (даже файлы) и даже размером около 2 ГБ преобразовывать в текст и работает в группах.
Я ни разу не давал рекламу на этого бота!
Ни от кого не скрываю, что там дообученная модель Whisper и некоторые хитрости на постобработке.
Запустил я бота год назад для личных целей.
Сейчас он живет на двух 2080Ti из моего личного парка, так что плачу только за интернет и розетку.
На момент сентября @daisytranscribe_bot
Уникальных пользователей: 767
Кол-во файлов: ~3000 шт.
После я решил добавить любой тип аудио-видео контента.
Любой размер до 2 ГБ, но ограничил кол-во минут до 180.
Умеет делать саммари.
Может прислать результат файлом
И сменил название бота добавим туда простые три слова Speech To Text
В бэклоге лежит разделение по ролям (собралось много запросов).
На сегодня 17.11 после всех вышеперечисленных действий бот вырос до 8573 уникальных пользователей. Дойду до 10к в месяц, будет отображаться MAU в Telegram.
Кол-во файлов, которые обработал бот, перевалило за 16 тысяч.
Кстати, бот бесплатный.
Но есть лимиты на большие файлы: 5 штук в день.
На небольшие файлы до 10 минут: 30 штук в день.
Ну и начал вести статистику.
Статистика по нажатию клавиш
И так же я начал считать WAU. Вот цифры на сегодня:
Количество активных пользователей за последнюю полную неделю (WAU): 514
Период: с 2024-11-10 по 2024-11-16
Считаю эксперимент удачным, буду развивать функционал и, возможно, задумаюсь о рекламе. Отдельно радуют вот такие отзывы (закинул скрин в комментарии).
Дальше в планах добавить платные тарифы и создать простой посадочный лендинг + нужно будет проанализировать аудиторию, разделить на группы и языковые зоны. Честно скажу, бот пользуется популярностью за рубежом, больше 60% пользователей.
https://t.iss.one/daisytranscribe_bot
Начнем с бота @daisytranscribe_bot "Speech-To-Text Daisy".
Сейчас он умеет любое аудио (даже файлы) и даже размером около 2 ГБ преобразовывать в текст и работает в группах.
Я ни разу не давал рекламу на этого бота!
Ни от кого не скрываю, что там дообученная модель Whisper и некоторые хитрости на постобработке.
Запустил я бота год назад для личных целей.
Сейчас он живет на двух 2080Ti из моего личного парка, так что плачу только за интернет и розетку.
На момент сентября @daisytranscribe_bot
Уникальных пользователей: 767
Кол-во файлов: ~3000 шт.
После я решил добавить любой тип аудио-видео контента.
Любой размер до 2 ГБ, но ограничил кол-во минут до 180.
Умеет делать саммари.
Может прислать результат файлом
И сменил название бота добавим туда простые три слова Speech To Text
В бэклоге лежит разделение по ролям (собралось много запросов).
На сегодня 17.11 после всех вышеперечисленных действий бот вырос до 8573 уникальных пользователей. Дойду до 10к в месяц, будет отображаться MAU в Telegram.
Кол-во файлов, которые обработал бот, перевалило за 16 тысяч.
Кстати, бот бесплатный.
Но есть лимиты на большие файлы: 5 штук в день.
На небольшие файлы до 10 минут: 30 штук в день.
Ну и начал вести статистику.
Статистика по нажатию клавиш
{
"summary": 1709,
"download": 4396,
"text": 9353
}
И так же я начал считать WAU. Вот цифры на сегодня:
Количество активных пользователей за последнюю полную неделю (WAU): 514
Период: с 2024-11-10 по 2024-11-16
Считаю эксперимент удачным, буду развивать функционал и, возможно, задумаюсь о рекламе. Отдельно радуют вот такие отзывы (закинул скрин в комментарии).
Дальше в планах добавить платные тарифы и создать простой посадочный лендинг + нужно будет проанализировать аудиторию, разделить на группы и языковые зоны. Честно скажу, бот пользуется популярностью за рубежом, больше 60% пользователей.
https://t.iss.one/daisytranscribe_bot
Telegram
Speech To Text | STT | Распознавание голоса
The only Telegram bot that transcribes files up to 2000 MB.
Question: https://t.iss.one/slokyton
Question: https://t.iss.one/slokyton
🔥15👍5❤1
Никогда такого не было и вот опять?
Исследователи обнаружили так называемых «злых близнецов» у промптов для LLM
Это такие искаженные версии обычных запросов, которые на первый взгляд выглядят как бессмысленный набор символов, но при этом заставляют модели генерировать те же ответы, что и оригинальные промпты на естественном языке.
Воу подумал я и пошел читать что же такое "злые близнецы"?
"Evil Twins" — это такие промпты, которые выглядят как случайный набор букв и символов, но при этом работают так же, как и обычные запросы. Например, если вы попросите AI описать процесс формирования звезд, то и оригинальный промпт, и его "злой близнец" выдадут вам схожие научные объяснения.
- Оригинальный промпт: "Offer an opinion on the problems that could arise from using AI."
(Выскажите мнение о проблемах, которые могут возникнуть при использовании ИИ)
Злой близнец: "True problem vil caused use zou AI"
Эффективность: Более 75% тестов показали идентичные ответы.
- Оригинальный промпт: "Describe the star formation process."
(Опишите процесс формирования звезд)
Злой близнец: "Produ bundcules cation of` stars efect"
Эффективность: Схожие научные объяснения в обоих случаях.
1. Переносимость: Эти промпты работают с различными моделями, такими как GPT-4, Claude, Gemini Pro, Mistral и другими открытыми моделями.
2. Стабильность: Порядок токенов важен, и замена отдельных токенов может снизить эффективность. Работают даже при различных температурах генерации.
3. Ограничения: Не все промпты имеют эффективных "злых близнецов", и эффективность может варьироваться между моделями. Некоторые сложные инструкции труднее "клонировать".
Существование "злых близнецов" показывает, что языковые модели воспринимают входные данные иначе, чем люди.
Это поднимает вопросы о том, насколько глубоко AI понимает естественный язык.
А я все больше понимаю что мы ничего не понимаем про LLM =)
вижу вот такие проблемы и возможности
- Это могут быть "Компактные промпты"
- Ну на тоненького это "Оптимизация"
- Жуть как это может поднять "Безопасность" маскирование данных вперед! Ну и мошенники тут близко!
Исследователи обнаружили так называемых «злых близнецов» у промптов для LLM
Это такие искаженные версии обычных запросов, которые на первый взгляд выглядят как бессмысленный набор символов, но при этом заставляют модели генерировать те же ответы, что и оригинальные промпты на естественном языке.
Воу подумал я и пошел читать что же такое "злые близнецы"?
"Evil Twins" — это такие промпты, которые выглядят как случайный набор букв и символов, но при этом работают так же, как и обычные запросы. Например, если вы попросите AI описать процесс формирования звезд, то и оригинальный промпт, и его "злой близнец" выдадут вам схожие научные объяснения.
- Оригинальный промпт: "Offer an opinion on the problems that could arise from using AI."
(Выскажите мнение о проблемах, которые могут возникнуть при использовании ИИ)
Злой близнец: "True problem vil caused use zou AI"
Эффективность: Более 75% тестов показали идентичные ответы.
- Оригинальный промпт: "Describe the star formation process."
(Опишите процесс формирования звезд)
Злой близнец: "Produ bundcules cation of` stars efect"
Эффективность: Схожие научные объяснения в обоих случаях.
1. Переносимость: Эти промпты работают с различными моделями, такими как GPT-4, Claude, Gemini Pro, Mistral и другими открытыми моделями.
2. Стабильность: Порядок токенов важен, и замена отдельных токенов может снизить эффективность. Работают даже при различных температурах генерации.
3. Ограничения: Не все промпты имеют эффективных "злых близнецов", и эффективность может варьироваться между моделями. Некоторые сложные инструкции труднее "клонировать".
Существование "злых близнецов" показывает, что языковые модели воспринимают входные данные иначе, чем люди.
Это поднимает вопросы о том, насколько глубоко AI понимает естественный язык.
вижу вот такие проблемы и возможности
- Это могут быть "Компактные промпты"
- Ну на тоненького это "Оптимизация"
- Жуть как это может поднять "Безопасность" маскирование данных вперед! Ну и мошенники тут близко!
ACL Anthology
Prompts have evil twins
Rimon Melamed, Lucas Hurley McCabe, Tanay Wakhare, Yejin Kim, H. Howie Huang, Enric Boix-Adserà. Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing. 2024.
👍8🔥4
Forwarded from Уголок zanudamode (Aleksandr Grishkanich)
Хочу напомнить, что болото это одна из стабильнейших и полезнейших экосистем планеты. А сколько углерода утилизирует)
🔥10😁8 3👍1
Недавно прочитал пост на Medium, где автор, проживающий в индустриально развитых америках, пугает бизнес непроходимыми трудностями построения своего RAG. В качестве примера он приводит компанию, начавшую разработку RAG в начале года. К весне, говорит, CTO компании заплакал крокодиловыми слезами над х3 бюджетом, который распух из-за галлюцинаций LLM, неотлаженных процессов загрузки и выгрузки данных и проблем с масштабируемостью.
И это даже не самое страшное, говорит разработчик. Весь кошмар ожидается впереди:
— Попробуй поработай с сотнями тыщ типов PDF из разных источников, а на сладкое — загрузи в RAG книжку в формате epub
— Контроль качества ответов — как заставить LLM отвечать правильно и не скатываться в бред?
— Упомянутый бред: по закону подлости на этапе тестирования его нет, а когда показываешь демо клиенту — ну все, вызывайте дурку 🤡
— Утечки данных, обновления контекста, комплаенс...
Последнее, конечно, больше касается запада, нежели России и СНГ, у нас на сохранность данных, как мы знает, кладут 🔩. Самый безопасный вариант для бизнеса — это изолированный контур желательно где-нибудь в тайге.
Но не будем расщепляться на микротемы.
Главный топик этого эссе: бизнесу невыгодно строить свой LLM-кораблик, потому что вместо плавания на два месяца есть риск утонуть в работе на года. Кому нужны выгоревшие IT-отделы в погоне за хайпом? Вместо этого автор (разумеется, уже сделавший из этого бизнес) предлагает забить на инхаус и сосредоточиться на бизнесе, а LLM пусть делают те, кто посвящает этому весь свой фултайм.
А что думаете вы?
И это даже не самое страшное, говорит разработчик. Весь кошмар ожидается впереди:
— Попробуй поработай с сотнями тыщ типов PDF из разных источников, а на сладкое — загрузи в RAG книжку в формате epub
— Контроль качества ответов — как заставить LLM отвечать правильно и не скатываться в бред?
— Упомянутый бред: по закону подлости на этапе тестирования его нет, а когда показываешь демо клиенту — ну все, вызывайте дурку 🤡
— Утечки данных, обновления контекста, комплаенс...
Последнее, конечно, больше касается запада, нежели России и СНГ, у нас на сохранность данных, как мы знает, кладут 🔩. Самый безопасный вариант для бизнеса — это изолированный контур желательно где-нибудь в тайге.
Но не будем расщепляться на микротемы.
Главный топик этого эссе: бизнесу невыгодно строить свой LLM-кораблик, потому что вместо плавания на два месяца есть риск утонуть в работе на года. Кому нужны выгоревшие IT-отделы в погоне за хайпом? Вместо этого автор (разумеется, уже сделавший из этого бизнес) предлагает забить на инхаус и сосредоточиться на бизнесе, а LLM пусть делают те, кто посвящает этому весь свой фултайм.
А что думаете вы?
Medium
Dear IT Departments, Please Stop Trying To Build Your Own RAG
IT departments convince themselves that building their own RAG-based chat is easy. It’s not. It’s a nightmare.
👍9😁5❤3🔥1
Neural Deep
Так как у меня целая орда Telegram ботов, где общий MAU перевалил за 50к, и большую часть ботов я разрабатываю и поддерживаю сам, решил иногда выкладывать сюда статистику и как её добиваюсь. Начнем с бота @daisytranscribe_bot "Speech-To-Text Daisy". Сейчас…
Всем привет продолжаю пилить тг бота через Claude!
И рад сообщить об обновлении и новых фишках @daisytranscribe_bot!
🎯 Что нового:
- Полностью переработан интерфейс настроек (/settings)
- Добавлена поддержка нескольких языков: Русский, English, Arabic
- Появилась функция разделения по ролям (определение спикеров)
- Автоматическое определение языка (Auto Mode)
📊 Текущие достижения:
- Обработано более 19,000 файлов
- Суммарная длительность: 749 часов
- Активно растущее сообщество пользователей
💫 Напоминаю основные возможности:
- Поддержка файлов до 160 минут
- Максимальный размер файла: 2000 MB
- Создание саммари текста
- Выгрузка результата в текстовом формате или файлом
🎯 Дневные лимиты:
- 30 файлов до 10 минут
- 5 файлов более 10 минут
Попробуйте новые функции прямо сейчас! Отправьте боту любое голосовое сообщение, видео или аудио файл. 🎯
#SpeechToText #Telegram #Bot #Update
Пост так же подготовил claude но я проверил! =)
И рад сообщить об обновлении и новых фишках @daisytranscribe_bot!
🎯 Что нового:
- Полностью переработан интерфейс настроек (/settings)
- Добавлена поддержка нескольких языков: Русский, English, Arabic
- Появилась функция разделения по ролям (определение спикеров)
- Автоматическое определение языка (Auto Mode)
📊 Текущие достижения:
- Обработано более 19,000 файлов
- Суммарная длительность: 749 часов
- Активно растущее сообщество пользователей
💫 Напоминаю основные возможности:
- Поддержка файлов до 160 минут
- Максимальный размер файла: 2000 MB
- Создание саммари текста
- Выгрузка результата в текстовом формате или файлом
🎯 Дневные лимиты:
- 30 файлов до 10 минут
- 5 файлов более 10 минут
Попробуйте новые функции прямо сейчас! Отправьте боту любое голосовое сообщение, видео или аудио файл. 🎯
#SpeechToText #Telegram #Bot #Update
Пост так же подготовил claude но я проверил! =)
1👍11🔥8
🔥12 6
Forwarded from Speech-To-Text | STT | Daisy
📈 Global Statistics
👥 User Stats:
▫️ Total Users: 4,510
▫️ Monthly Active Users: 1,099
▫️ Weekly Active Users: 461
🎯 Processing Stats:
▫️ Total files processed: 20,739
▫️ Total processing time: 1,042 hours 25 minutes
Thank you for using our service! 🙏
👥 User Stats:
▫️ Total Users: 4,510
▫️ Monthly Active Users: 1,099
▫️ Weekly Active Users: 461
🎯 Processing Stats:
▫️ Total files processed: 20,739
▫️ Total processing time: 1,042 hours 25 minutes
Thank you for using our service! 🙏
🔥10 7❤4
Всем привет!
Прошлая неделя была очень горячая и нагруженная так что с запозданием выкладываю где был и что делал!
Ваш карманный ИИ агент выступил 6 декабря на conversations-ai
К комментариях будет моя презентация по теме RAG и скоро выложу запись выступления!
Рассказывал о том как RAG меняет
правила игры в бизнесе.
Прошлая неделя была очень горячая и нагруженная так что с запозданием выкладываю где был и что делал!
Ваш карманный ИИ агент выступил 6 декабря на conversations-ai
К комментариях будет моя презентация по теме RAG и скоро выложу запись выступления!
Рассказывал о том как RAG меняет
правила игры в бизнесе.
👍17🔥14
Neural Deep
Ваш карманный спец по GenAI слетал тут на днях в МСК, провел очень интересный, на мой взгляд, воркшоп по применению ИИ в бизнесе. Скоро раскрою чуть подробнее, но кейсов для себя я достал предостаточно. Ну и гипотезу подтвердил. Чекаем крутые облака!
В эфире программа развития показываем как разбираться в LLM за три часа
Чуть чуть с запозданием, но все же дописал пост!
Отделом Discovery r_m_r были разработаны материалы для практического погружения в мир GenAI, а руководителем AI-направления и мной был проведен офлайн-воркшоп о том, как применять генеративный искусственный интеллект в разных бизнес-сценариях.
В теоретической части мы рассказали, в каких сферах активнее всего применяют большие языковые модели (LLM) и где, по нашему опыту, они приносят наибольший эффект — с учётом специфики бизнеса.
В практической части участники погрузились в реальную работу над проектами. Используя специально подготовленные бумажные адаптации бордов miro и канвасы проектов, семь команд разрабатывали и оценивали бизнес-гипотезы, создавали концепции потенциальных проектов с возможностью их дальнейшего масштабирования.
Работа с офлайн-фреймами позволила участникам максимально сконцентрироваться на генерации и проработке идей. Подобные воркшопы мы проводим регулярно и всегда получаем отличную обратную связь от участников. Спасибо команде исследователей за отлично подготовленные материалы!
Чуть чуть с запозданием, но все же дописал пост!
Отделом Discovery r_m_r были разработаны материалы для практического погружения в мир GenAI, а руководителем AI-направления и мной был проведен офлайн-воркшоп о том, как применять генеративный искусственный интеллект в разных бизнес-сценариях.
В теоретической части мы рассказали, в каких сферах активнее всего применяют большие языковые модели (LLM) и где, по нашему опыту, они приносят наибольший эффект — с учётом специфики бизнеса.
В практической части участники погрузились в реальную работу над проектами. Используя специально подготовленные бумажные адаптации бордов miro и канвасы проектов, семь команд разрабатывали и оценивали бизнес-гипотезы, создавали концепции потенциальных проектов с возможностью их дальнейшего масштабирования.
Работа с офлайн-фреймами позволила участникам максимально сконцентрироваться на генерации и проработке идей. Подобные воркшопы мы проводим регулярно и всегда получаем отличную обратную связь от участников. Спасибо команде исследователей за отлично подготовленные материалы!
❤21🔥11👍8
Ты точно оценишь! Да и много кто еще)
Теперь в @daisytranscribe_bot можно засетапить кастомный промпт для анализа своего файла
Потом жмем "Set New Prompt" и самое главное сделать replay следующего сообщения с новой инструкцией)
Я в саджесте показываю как лучше всего писать промпты для анализа но уверен у тебя есть свои =)
И вуаля ллмка сделает то что тебе нужно а не то что я зашил по дефолту)
Теперь в @daisytranscribe_bot можно засетапить кастомный промпт для анализа своего файла
/summary_prompt
Потом жмем "Set New Prompt" и самое главное сделать replay следующего сообщения с новой инструкцией)
Я в саджесте показываю как лучше всего писать промпты для анализа но уверен у тебя есть свои =)
И вуаля ллмка сделает то что тебе нужно а не то что я зашил по дефолту)
❤11🔥7
Наконец у нас в стартапе собралось достаточно кейсов и у лида разметки появилось время и помощники что бы начать сравнивать open-source модели под наши продуктовые задачи.
Подготовили сейчас площадку и визуализацию базовыми MMLU/ruMMLU кстати как вам сравнение Llama3.1 8b vs Qwen 2.5 7b ?
Еще и клод сразу помогает сделать красивую визуализацию =)
Бенчмарки будут про бизнесовые задачи в РФ от HR RAG до text2sql задачек! Пишите что интересно вам!
Подготовили сейчас площадку и визуализацию базовыми MMLU/ruMMLU кстати как вам сравнение Llama3.1 8b vs Qwen 2.5 7b ?
Еще и клод сразу помогает сделать красивую визуализацию =)
Бенчмарки будут про бизнесовые задачи в РФ от HR RAG до text2sql задачек! Пишите что интересно вам!
🔥16❤8👍5
Как построить собственную AI-поисковую систему: опыт российского рынка 2024
Привет, я еще и технический энтузиаст, который обожает разбираться в железе. Сегодня расскажу историю о том, как создать эффективную корпоративную поисковую систему на базе RAG без космических бюджетов.
От простого к сложному
Представьте классическую задачу ML - кредитный скоринг в банке. Для его работы достаточно сервера с парой GPU NVIDIA L4 общей стоимостью около 2-3 млн рублей. Такой сервер может обрабатывать нескольких 10 тысяч заявок в день.
Теперь посмотрим на современные RAG-поисковики с LLM. Для запуска требуется минимум 4-8 карт A100 или H100, а это уже 20-40 млн рублей только за железо. И это без учета остальной инфраструктуры.
Три пути внедрения поисковых систем на базе ИИ в 2024 году:
1. Облачные решения (OpenAI/Anthropic):
- Простота внедрения
- НО: Отсутствие контроля над данными
- НО: Невозможность отследить, что сотрудники отправляют в поисковые запросы
- НО: Риски утечки конфиденциальной информации через промпты
2. API-интеграция:
- Больше контроля над процессами
- Возможность логирования запросов
- НО: Все еще есть риски утечки через промпты
- НО: Зависимость от внешних провайдеров
3. Собственное RAG-решение:
- Полный контроль над данными и поисковыми запросами
- Возможность тонкой настройки под специфику компании
- НО: Стандартные серверы для обработки даже 5 параллельных запросов стоят выше тендерного лимита
- НО: Сложность начальной настройки
Почему это критично для российского рынка?
В текущих условиях компании сталкиваются с тремя ключевыми проблемами:
- Ограничения на поставку серверного оборудования
- Высокая стоимость классических решений
- Необходимость хранить данные внутри периметра компании
Наш путь оптимизации RAG-системы
1. Техническая оптимизация:
- Разработали специализированные методы запуска LLM на китайских MTT картах
- Создали ETL-пайплайны для бесшовной интеграции корпоративных баз знаний с векторными БД:
* Автоматическая синхронизация с популярными CRM/ERP системами
* Умная обработка структурированных и неструктурированных данных
* Поддержка инкрементальных обновлений
- Оптимизировали векторный поиск для работы с гибридными данными
- Внедрили эффективную систему кэширования
2. Обучение моделей:
- Провели fine-tuning open-source моделей под специфику поисковых задач
- Оптимизировали параметры для быстрого поиска
- Сфокусировались на моделях до 10B параметров, идеальных для RAG
3. Инфраструктурные решения:
- Внедрили серверные карты MTT на базе MUSA технологий
- Обеспечили стабильные поставки через китайских партнеров
- Достигли производительности уровня NVIDIA L4 по цене в 2-3 раза ниже
Реальные результаты
При классическом подходе:
С нашими оптимизациями:
- Стоимость серверной части снижается в 2-3 раза по сравнению с аналогичными решениями на L4
- ETL-процессы позволяют начать работу с существующими базами знаний за считанные дни вместо месяцев
- Гибридный подход к хранению и поиску обеспечивает точность на уровне 80%+
Подтверждение рынком
На начало 2025 года:
- Портфель из 4 крупных компаний в очереди на поставку программно-аппаратного комплекса
- Успешные пилоты в разных отраслях
- Подтвержденная экономия на внедрении от 60%
Главный инсайт:
- Китайские GPU карты это что-то новое и до конца не изученное,
- Классические базы знаний компаний уже содержат 80% необходимой информации. Наша задача - сделать её доступной через современные векторные поисковые системы. Благодаря оптимизированным ETL-процессам мы превращаем статичные базы знаний в динамические поисковые системы.
Про что рассказать дальше?
- Как работает наш ETL-пайплайн для разных типов данных?
- Методы оптимизации векторного поиска?
- Особенности интеграции с популярными корпоративными системами?
- Практические кейсы внедрения?
- Расчеты экономической эффективности на железе?
Привет, я еще и технический энтузиаст, который обожает разбираться в железе. Сегодня расскажу историю о том, как создать эффективную корпоративную поисковую систему на базе RAG без космических бюджетов.
От простого к сложному
Представьте классическую задачу ML - кредитный скоринг в банке. Для его работы достаточно сервера с парой GPU NVIDIA L4 общей стоимостью около 2-3 млн рублей. Такой сервер может обрабатывать нескольких 10 тысяч заявок в день.
Теперь посмотрим на современные RAG-поисковики с LLM. Для запуска требуется минимум 4-8 карт A100 или H100, а это уже 20-40 млн рублей только за железо. И это без учета остальной инфраструктуры.
Три пути внедрения поисковых систем на базе ИИ в 2024 году:
1. Облачные решения (OpenAI/Anthropic):
- Простота внедрения
- НО: Отсутствие контроля над данными
- НО: Невозможность отследить, что сотрудники отправляют в поисковые запросы
- НО: Риски утечки конфиденциальной информации через промпты
2. API-интеграция:
- Больше контроля над процессами
- Возможность логирования запросов
- НО: Все еще есть риски утечки через промпты
- НО: Зависимость от внешних провайдеров
3. Собственное RAG-решение:
- Полный контроль над данными и поисковыми запросами
- Возможность тонкой настройки под специфику компании
- НО: Стандартные серверы для обработки даже 5 параллельных запросов стоят выше тендерного лимита
- НО: Сложность начальной настройки
Почему это критично для российского рынка?
В текущих условиях компании сталкиваются с тремя ключевыми проблемами:
- Ограничения на поставку серверного оборудования
- Высокая стоимость классических решений
- Необходимость хранить данные внутри периметра компании
Наш путь оптимизации RAG-системы
1. Техническая оптимизация:
- Разработали специализированные методы запуска LLM на китайских MTT картах
- Создали ETL-пайплайны для бесшовной интеграции корпоративных баз знаний с векторными БД:
* Автоматическая синхронизация с популярными CRM/ERP системами
* Умная обработка структурированных и неструктурированных данных
* Поддержка инкрементальных обновлений
- Оптимизировали векторный поиск для работы с гибридными данными
- Внедрили эффективную систему кэширования
2. Обучение моделей:
- Провели fine-tuning open-source моделей под специфику поисковых задач
- Оптимизировали параметры для быстрого поиска
- Сфокусировались на моделях до 10B параметров, идеальных для RAG
3. Инфраструктурные решения:
- Внедрили серверные карты MTT на базе MUSA технологий
- Обеспечили стабильные поставки через китайских партнеров
- Достигли производительности уровня NVIDIA L4 по цене в 2-3 раза ниже
Реальные результаты
При классическом подходе:
Общая стоимость = Софт (N) + Сервер (S) + Внедрение (W)
Окупаемость = Экономия (C) / Время внедрения (T)
С нашими оптимизациями:
- Стоимость серверной части снижается в 2-3 раза по сравнению с аналогичными решениями на L4
- ETL-процессы позволяют начать работу с существующими базами знаний за считанные дни вместо месяцев
- Гибридный подход к хранению и поиску обеспечивает точность на уровне 80%+
Подтверждение рынком
На начало 2025 года:
- Портфель из 4 крупных компаний в очереди на поставку программно-аппаратного комплекса
- Успешные пилоты в разных отраслях
- Подтвержденная экономия на внедрении от 60%
Главный инсайт:
- Китайские GPU карты это что-то новое и до конца не изученное,
- Классические базы знаний компаний уже содержат 80% необходимой информации. Наша задача - сделать её доступной через современные векторные поисковые системы. Благодаря оптимизированным ETL-процессам мы превращаем статичные базы знаний в динамические поисковые системы.
Про что рассказать дальше?
- Как работает наш ETL-пайплайн для разных типов данных?
- Методы оптимизации векторного поиска?
- Особенности интеграции с популярными корпоративными системами?
- Практические кейсы внедрения?
- Расчеты экономической эффективности на железе?
🔥20👍13