Forwarded from red_mad_robot
Помните, как мы пообещали начать разбираться в LLM вместе с вами и пропали на три недели? А потом выложили один и тот же пост дважды.
Поймите наше упорство — просто очень хотим быть точными в вопросе сложных технологий и нигде не соврать. Мы пересмотрели несколько часов лекций светил науки, замучили экспертов из NDT by red_mad_robot своими вопросами и наконец нашли формат, который действительно расставил в наших головах базовые понятия об LLM по полочкам. Им оказалось видео с дипфейковым Райаном Гослингом, доступно объясняющим принцип работы больших языковых моделей.
Если по каким-то необъяснимым причинам вы не хотите восемь минут смотреть на Райана Гослинга, рассказываем в карточках.
А в следующий раз обещаем рассказать про эмбеддинги, механизм внимания и другие термины, от которых иногда голова идёт кругом. Не переключайтесь.
#GenAI_101
Поймите наше упорство — просто очень хотим быть точными в вопросе сложных технологий и нигде не соврать. Мы пересмотрели несколько часов лекций светил науки, замучили экспертов из NDT by red_mad_robot своими вопросами и наконец нашли формат, который действительно расставил в наших головах базовые понятия об LLM по полочкам. Им оказалось видео с дипфейковым Райаном Гослингом, доступно объясняющим принцип работы больших языковых моделей.
Если по каким-то необъяснимым причинам вы не хотите восемь минут смотреть на Райана Гослинга, рассказываем в карточках.
А в следующий раз обещаем рассказать про эмбеддинги, механизм внимания и другие термины, от которых иногда голова идёт кругом. Не переключайтесь.
#GenAI_101
🔥6👍3❤2
This media is not supported in your browser
VIEW IN TELEGRAM
Энтузиасты из сообщества Twitter создали инфографику, отображающую изменения в рейтинге популярных чат-ботов, которые составляют так называемую ChatBot Arena, за последний год.
ChatBot GPT по-прежнему удерживает лидирующие позиции, однако конкуренты активно набирают обороты и оказывают давление. Сфера конкуренции в данной области набирает обороты, и все с интересом ожидают, какие еще инновационные решения сможет предложить компания ClosedAI.
Для получения дополнительной информации о том, что представляет собой ChatBot Arena, обратитесь по указанной ссылке.
@neuraldeep
ChatBot GPT по-прежнему удерживает лидирующие позиции, однако конкуренты активно набирают обороты и оказывают давление. Сфера конкуренции в данной области набирает обороты, и все с интересом ожидают, какие еще инновационные решения сможет предложить компания ClosedAI.
Для получения дополнительной информации о том, что представляет собой ChatBot Arena, обратитесь по указанной ссылке.
@neuraldeep
👍5❤2🔥2
Forwarded from Forbes Russia
С момента появления ChatGPT прошло полтора года, и, преодолев все стадии от скепсиса до восторга, бизнес столкнулся с непониманием того, как использовать LLM (Large Language Models, большие языковые модели) в своих процессах и какой реальный бизнес-эффект они дают?
Постепенно рынок осознает, что внедрение генеративного ИИ требует дополнительных инвестиций — как в компетенции, так и в ресурсы, — и двигается осторожно, соизмеряя возможную выгоду с рисками.
О том, когда большие языковые модели займут уверенную позицию и достигнут пика своих мощностей, рассуждает Валерий Ковальский, СЕО AI-лаборатории Neuraldeep.tech (входит в группу компаний red_mad_robot)
📸: Nikolas Kokovlis / NurPhoto / Reuters
Постепенно рынок осознает, что внедрение генеративного ИИ требует дополнительных инвестиций — как в компетенции, так и в ресурсы, — и двигается осторожно, соизмеряя возможную выгоду с рисками.
О том, когда большие языковые модели займут уверенную позицию и достигнут пика своих мощностей, рассуждает Валерий Ковальский, СЕО AI-лаборатории Neuraldeep.tech (входит в группу компаний red_mad_robot)
📸: Nikolas Kokovlis / NurPhoto / Reuters
🔥10
This media is not supported in your browser
VIEW IN TELEGRAM
Самое замечательное, что через несколько лет мы вступим в эпоху, когда все ваши личные фотографии, важные для вас, будут оживать, как в Гарри Поттере. Какое чудесное время для жизни! 🥰
🔥15😁4
С вами на связи @Vakovalskii
И я давно провожу большое кол-во экспериментов с LLM и GenAI но только сейчас дошли руки начать оформлять это все в записи, и так начнем
Я хочу говорить с LLM в реальном времени через браузер или по телефону.
Проблема? В целом, да
В чем? Во времени ответа!
До сих пор OpenAI не выпустила функцию общения с Omni.
А в сети есть какой-то стартап, где ребята обучили мультимодальную LLM, но она несет дикую дичь.
Что имею я в своем арсенале? Доступ к 10+ репозиториям для открытого использования сервисов:
- STT (речь в текст)
- LLM (можно сказать, GPT-3.5)
- TTS (текст в речь)
А дальше что?
Попробуем все собрать в какую-то архитектуру. Получил 6-8 секунд на ответ (ну здорово, такого на GitHub около 20-30 репозиториев).
А дальше что?
Я понял, что записывать все, что слышит микрофон, как-то дико, и нужно что-то придумать!
Обратившись к документации, я понял, что все используют сервисы VAD (voice activity detection). Они определяют, есть ли в текущих звуках вокруг речь, и делают это достаточно быстро (спойлер: домашние ассистенты используют эти библиотеки на борту).
LLM надо квантовать и сделать легче (готово взяли llama3-4bit)
Надо найти самы быстрый STT
Найдо найти и протестировать самый быстрый TTS
И родилась новая архитектура. (рис1)
На ней есть все по кругу и с задержками, что я замерил. Самое главное, что я взял сервер, который ближе всего ко мне, почти локально в серверной москвы.
Ну что я получил на выходе?
0.2 секунды на распознавание речи
0.5 секунд на RAG + LLM
0.3 секунды на то, что LLM начнет мне стримить свой вывод, как бы печатать
0.2 секунды на озвучку речи по чанкам
Итого 1.2 секунды, и если взять сеть, то 1.5-2 секунды от момента, когда я закончил говорить, до момента, когда я услышу первый звук от своих колонок.
В следующих версиях я хочу научить систему понимать, что я её хочу прервать, и заставить её позвонить мне на телефон.
Но самое интересное что клиент уже находится не локально а общается по API со всеми сервисами
Тесты мои
Текст мой
Голос мой
=)
И я давно провожу большое кол-во экспериментов с LLM и GenAI но только сейчас дошли руки начать оформлять это все в записи, и так начнем
Я хочу говорить с LLM в реальном времени через браузер или по телефону.
Проблема? В целом, да
В чем? Во времени ответа!
До сих пор OpenAI не выпустила функцию общения с Omni.
А в сети есть какой-то стартап, где ребята обучили мультимодальную LLM, но она несет дикую дичь.
Что имею я в своем арсенале? Доступ к 10+ репозиториям для открытого использования сервисов:
- STT (речь в текст)
- LLM (можно сказать, GPT-3.5)
- TTS (текст в речь)
А дальше что?
Попробуем все собрать в какую-то архитектуру. Получил 6-8 секунд на ответ (ну здорово, такого на GitHub около 20-30 репозиториев).
А дальше что?
Я понял, что записывать все, что слышит микрофон, как-то дико, и нужно что-то придумать!
Обратившись к документации, я понял, что все используют сервисы VAD (voice activity detection). Они определяют, есть ли в текущих звуках вокруг речь, и делают это достаточно быстро (спойлер: домашние ассистенты используют эти библиотеки на борту).
LLM надо квантовать и сделать легче (готово взяли llama3-4bit)
Надо найти самы быстрый STT
Найдо найти и протестировать самый быстрый TTS
И родилась новая архитектура. (рис1)
На ней есть все по кругу и с задержками, что я замерил. Самое главное, что я взял сервер, который ближе всего ко мне, почти локально в серверной москвы.
Ну что я получил на выходе?
0.2 секунды на распознавание речи
0.5 секунд на RAG + LLM
0.3 секунды на то, что LLM начнет мне стримить свой вывод, как бы печатать
0.2 секунды на озвучку речи по чанкам
Итого 1.2 секунды, и если взять сеть, то 1.5-2 секунды от момента, когда я закончил говорить, до момента, когда я услышу первый звук от своих колонок.
В следующих версиях я хочу научить систему понимать, что я её хочу прервать, и заставить её позвонить мне на телефон.
Но самое интересное что клиент уже находится не локально а общается по API со всеми сервисами
Тесты мои
Текст мой
Голос мой
=)
🔥16
Вылил в свет своего бота по транкрибации аудио/видео контента
Это тюн whisper под русский язык
Датасет для трейна https://huggingface.co/datasets/mozilla-foundation/common_voice_17_0
200к записей трейн 11к записей тест
60 часов на А100
Тюн запущен в боте дошел до 6.3 WER на русском
Так же обновил функционал бота по транскрибу аудио (ограничение там 19мб и примерно 20-30минут аудио)
Что нового!
Cаммари делает 4o-mini
Переработал кнопки вывода и добавил функции
- Скачиваня результата
- Саммари
- Вывода результата в чат с ботом
Еще реализовал закрепление ботом каждой таски(так можно вернутся к аудио и его результату)
Это тюн whisper под русский язык
Датасет для трейна https://huggingface.co/datasets/mozilla-foundation/common_voice_17_0
200к записей трейн 11к записей тест
60 часов на А100
Тюн запущен в боте дошел до 6.3 WER на русском
Так же обновил функционал бота по транскрибу аудио (ограничение там 19мб и примерно 20-30минут аудио)
Что нового!
Cаммари делает 4o-mini
Переработал кнопки вывода и добавил функции
- Скачиваня результата
- Саммари
- Вывода результата в чат с ботом
Еще реализовал закрепление ботом каждой таски(так можно вернутся к аудио и его результату)
🔥12
Апдейт
По мимо загрузки
- Голосовых
- Файлов аудио (примерно все форматы так как там ffmpeg под капотом для конвертации)
Можно теперь загрузить видео
+ Появилась возможность разделить по ролям
+ Теперь есть два разных интерфейса (для групп он упрощенный)
+ Для работы в лс с ботом расширенный
Мне кажется это единственный бесплатный бот в телеграм который поддерживает и разделение по ролям и любой тип файлов до 2000 мегабайт! https://t.iss.one/daisytranscribe_bot
По мимо загрузки
- Голосовых
- Файлов аудио (примерно все форматы так как там ffmpeg под капотом для конвертации)
Можно теперь загрузить видео
+ Появилась возможность разделить по ролям
+ Теперь есть два разных интерфейса (для групп он упрощенный)
+ Для работы в лс с ботом расширенный
Мне кажется это единственный бесплатный бот в телеграм который поддерживает и разделение по ролям и любой тип файлов до 2000 мегабайт! https://t.iss.one/daisytranscribe_bot
🔥8👍2
Всем привет чтиво на ночь!
В тему предыдущего поста про моего STT бота
Хочу грузить файлы больших размеров в телеграм бота для работы с ними. Проблема? Да!
Если детальнее, в чем заключается проблема
Изначально Telegram боты имели ограничение на загрузку файлов размером до 50 мегабайт. Но потом и это понерфили, сделав 20 мегабайт. Это реально создает значительные трудности для моей задачи, а именно работать с большими файлами, аудио или видео более 200, 300, 400 мегабайт.
Но есть решение!
Телеграм предлагает развернуть свой локальный сервер Bot API. Круто? Да! Это позволило мне обойти ограничение на размер загружаемых файлов и значительно улучшить производительность бота.
Я использовал репозиторий от телеграм telegram-bot-api для развертывания локального сервера Bot API.
Проблемы со сборкой
Сборка и настройка сервера потребовали значительных усилий. Особенно сложно было разобраться с библиотекой
После нескольких попыток и изучения документации, мы с Артемом нашли, как же все-таки нужно импортировать системные указатели и удалось успешно развернуть сервер + бота.
Успех
После развертывания локального сервера Bot API я смог:
- Загружать и обрабатывать файлы размером до 2000 МБ.
- Значительно улучшить производительность бота за счет уменьшения задержек при передаче данных.
- Увеличить количество одновременных подключений вебхуков до 100000.
Тесты
Я провел серию тестов, чтобы убедиться в работоспособности решения:
- Загружал аудио и видео различных размеров, включая файлы более 20 МБ.
- Проверял скорость обработки и передачи данных.
2 часовое аудио из записи zoom обработалось за 15 минут + я получил отличное саммари через gpt-4o-mini!
В целом я остался доволен результатом!
Как это работает?
На схеме показано, как взаимодействуют различные компоненты системы:
1. Telegram клиент (телефон пользователя) отправляет запросы на сервер Telegram через MTProto.
2. Telegram серверы обрабатывают запросы и передают их на API Telegram.
3. API Telegram взаимодействует с локальным сервером Bot API через MTProto.
4. Локальный сервер Bot API (tdlib) обрабатывает запросы и передает их на машины, где хостятся боты, через HTTP.
Вывод
Для меня развертывание локального сервера Bot API оказалось эффективным для работы с большими файлами в ботах. Это позволило обойти ограничения на размер файлов И все эксперименты скоро я начну выкладывать в открытый репозиторий!
В тему предыдущего поста про моего STT бота
Хочу грузить файлы больших размеров в телеграм бота для работы с ними. Проблема? Да!
Если детальнее, в чем заключается проблема
Изначально Telegram боты имели ограничение на загрузку файлов размером до 50 мегабайт. Но потом и это понерфили, сделав 20 мегабайт. Это реально создает значительные трудности для моей задачи, а именно работать с большими файлами, аудио или видео более 200, 300, 400 мегабайт.
Но есть решение!
Телеграм предлагает развернуть свой локальный сервер Bot API. Круто? Да! Это позволило мне обойти ограничение на размер загружаемых файлов и значительно улучшить производительность бота.
Я использовал репозиторий от телеграм telegram-bot-api для развертывания локального сервера Bot API.
Проблемы со сборкой
Сборка и настройка сервера потребовали значительных усилий. Особенно сложно было разобраться с библиотекой
telebot
, так как во всей документации явно не указано, как импортировать нужные API helpers для интеграции в асинхронном подходе. Плюс, не понятно, как сходу обеспечить доступность файлов на уровне бот + локальный API сервер. К счастью, Артем помог мне с этим, что значительно сократило время на поиск решения. Оказалось, что для асинхронного подхода нужно использовать:from telebot import asyncio_helper
После нескольких попыток и изучения документации, мы с Артемом нашли, как же все-таки нужно импортировать системные указатели и удалось успешно развернуть сервер + бота.
Успех
После развертывания локального сервера Bot API я смог:
- Загружать и обрабатывать файлы размером до 2000 МБ.
- Значительно улучшить производительность бота за счет уменьшения задержек при передаче данных.
- Увеличить количество одновременных подключений вебхуков до 100000.
Тесты
Я провел серию тестов, чтобы убедиться в работоспособности решения:
- Загружал аудио и видео различных размеров, включая файлы более 20 МБ.
- Проверял скорость обработки и передачи данных.
2 часовое аудио из записи zoom обработалось за 15 минут + я получил отличное саммари через gpt-4o-mini!
В целом я остался доволен результатом!
Как это работает?
На схеме показано, как взаимодействуют различные компоненты системы:
1. Telegram клиент (телефон пользователя) отправляет запросы на сервер Telegram через MTProto.
2. Telegram серверы обрабатывают запросы и передают их на API Telegram.
3. API Telegram взаимодействует с локальным сервером Bot API через MTProto.
4. Локальный сервер Bot API (tdlib) обрабатывает запросы и передает их на машины, где хостятся боты, через HTTP.
Вывод
Для меня развертывание локального сервера Bot API оказалось эффективным для работы с большими файлами в ботах. Это позволило обойти ограничения на размер файлов И все эксперименты скоро я начну выкладывать в открытый репозиторий!
🔥12👍1