Neural Deep
7.66K subscribers
308 photos
44 videos
3 files
199 links
Head of AI redmadrobot.ru

6 лет: 0>>>Head of AI
AI Infrastructure | Production RAG

Local inference
RAG (2M+ книг)
RAG chat bot (5М+ токенов)
B2B платформа (10+ клиентов)
B2C gptdaisy.com (100k MAU)

Код, кейсы
github.com/vakovalskii | @neuraldeepchat
Download Telegram
Forwarded from red_mad_robot
Помните, как мы пообещали начать разбираться в LLM вместе с вами и пропали на три недели? А потом выложили один и тот же пост дважды.

Поймите наше упорство — просто очень хотим быть точными в вопросе сложных технологий и нигде не соврать. Мы пересмотрели несколько часов лекций светил науки, замучили экспертов из NDT by red_mad_robot своими вопросами и наконец нашли формат, который действительно расставил в наших головах базовые понятия об LLM по полочкам. Им оказалось видео с дипфейковым Райаном Гослингом, доступно объясняющим принцип работы больших языковых моделей.

Если по каким-то необъяснимым причинам вы не хотите восемь минут смотреть на Райана Гослинга, рассказываем в карточках.

А в следующий раз обещаем рассказать про эмбеддинги, механизм внимания и другие термины, от которых иногда голова идёт кругом. Не переключайтесь.

#GenAI_101
🔥6👍32
This media is not supported in your browser
VIEW IN TELEGRAM
Энтузиасты из сообщества Twitter создали инфографику, отображающую изменения в рейтинге популярных чат-ботов, которые составляют так называемую ChatBot Arena, за последний год.

ChatBot GPT по-прежнему удерживает лидирующие позиции, однако конкуренты активно набирают обороты и оказывают давление. Сфера конкуренции в данной области набирает обороты, и все с интересом ожидают, какие еще инновационные решения сможет предложить компания ClosedAI.

Для получения дополнительной информации о том, что представляет собой ChatBot Arena, обратитесь по указанной ссылке.
@neuraldeep
👍52🔥2
Forwarded from Forbes Russia
С момента появления ChatGPT прошло полтора года, и, преодолев все стадии от скепсиса до восторга, бизнес столкнулся с непониманием того, как использовать LLM (Large Language Models, большие языковые модели) в своих процессах и какой реальный бизнес-эффект они дают?

Постепенно рынок осознает, что внедрение генеративного ИИ требует дополнительных инвестиций — как в компетенции, так и в ресурсы, — и двигается осторожно, соизмеряя возможную выгоду с рисками.

О том, когда большие языковые модели займут уверенную позицию и достигнут пика своих мощностей, рассуждает Валерий Ковальский, СЕО AI-лаборатории Neuraldeep.tech (входит в группу компаний red_mad_robot)

📸: Nikolas Kokovlis / NurPhoto / Reuters
🔥10
Любое обновление ОС и железа последний год:
😁14
This media is not supported in your browser
VIEW IN TELEGRAM
Самое замечательное, что через несколько лет мы вступим в эпоху, когда все ваши личные фотографии, важные для вас, будут оживать, как в Гарри Поттере. Какое чудесное время для жизни! 🥰
🔥15😁4
Я уверен что они лучшие в рекламе и в безопасности
😁16🔥5👎1
Бустаните канал если вы сможете

https://t.iss.one/boost/neuraldeep

Хочу навалить кастомных реакции
С вами на связи @Vakovalskii

И я давно провожу большое кол-во экспериментов с LLM и GenAI но только сейчас дошли руки начать оформлять это все в записи, и так начнем

Я хочу говорить с LLM в реальном времени через браузер или по телефону.
Проблема? В целом, да
В чем? Во времени ответа!


До сих пор OpenAI не выпустила функцию общения с Omni.

А в сети есть какой-то стартап, где ребята обучили мультимодальную LLM, но она несет дикую дичь.

Что имею я в своем арсенале? Доступ к 10+ репозиториям для открытого использования сервисов:
- STT (речь в текст)
- LLM (можно сказать, GPT-3.5)
- TTS (текст в речь)

А дальше что?

Попробуем все собрать в какую-то архитектуру. Получил 6-8 секунд на ответ (ну здорово, такого на GitHub около 20-30 репозиториев).

А дальше что?

Я понял, что записывать все, что слышит микрофон, как-то дико, и нужно что-то придумать!

Обратившись к документации, я понял, что все используют сервисы VAD (voice activity detection). Они определяют, есть ли в текущих звуках вокруг речь, и делают это достаточно быстро (спойлер: домашние ассистенты используют эти библиотеки на борту).

LLM надо квантовать и сделать легче (готово взяли llama3-4bit)

Надо найти самы быстрый STT
Найдо найти и протестировать самый быстрый TTS
И родилась новая архитектура. (рис1)

На ней есть все по кругу и с задержками, что я замерил. Самое главное, что я взял сервер, который ближе всего ко мне, почти локально в серверной москвы.

Ну что я получил на выходе?
0.2 секунды на распознавание речи
0.5 секунд на RAG + LLM
0.3 секунды на то, что LLM начнет мне стримить свой вывод, как бы печатать
0.2 секунды на озвучку речи по чанкам

Итого 1.2 секунды, и если взять сеть, то 1.5-2 секунды от момента, когда я закончил говорить, до момента, когда я услышу первый звук от своих колонок.

В следующих версиях я хочу научить систему понимать, что я её хочу прервать, и заставить её позвонить мне на телефон.

Но самое интересное что клиент уже находится не локально а общается по API со всеми сервисами

Тесты мои
Текст мой
Голос мой
=)
🔥16
Вылил в свет своего бота по транкрибации аудио/видео контента
Это тюн whisper под русский язык

Датасет для трейна https://huggingface.co/datasets/mozilla-foundation/common_voice_17_0
200к записей трейн 11к записей тест
60 часов на А100
Тюн запущен в боте дошел до 6.3 WER на русском

Так же обновил функционал бота по транскрибу аудио (ограничение там 19мб и примерно 20-30минут аудио)

Что нового!

Cаммари делает 4o-mini
Переработал кнопки вывода и добавил функции

- Скачиваня результата
- Саммари
- Вывода результата в чат с ботом

Еще реализовал закрепление ботом каждой таски(так можно вернутся к аудио и его результату)
🔥12
Апдейт
По мимо загрузки
- Голосовых
- Файлов аудио (примерно все форматы так как там ffmpeg под капотом для конвертации)

Можно теперь загрузить видео
+ Появилась возможность разделить по ролям
+ Теперь есть два разных интерфейса (для групп он упрощенный)
+ Для работы в лс с ботом расширенный


Мне кажется это единственный бесплатный бот в телеграм который поддерживает и разделение по ролям и любой тип файлов до 2000 мегабайт! https://t.iss.one/daisytranscribe_bot
🔥8👍2