Как эволюционировали технологии распознавания речи?
Завтра, 26 февраля, в 12:00 об этом расскажет Виктор Загускин — ML-руководитель платформы речевых технологий в MTS AI.
В эфире обсудим:
🟣 переход от классических подходов (HMM, Kaldi) к end-to-end моделям (CTC, RNN-T, Whisper, TDT);
🟣 вызовы сценариев поточного распознавания, диаризации и интерактивного общения;
🟣 перспективы полнодуплексных LLM и мультимодального взаимодействия.
Подключайтесь и задавайте вопросы Виктору! Их можно оставить в чате на YouTube или в комментариях к этому посту.
Завтра, 26 февраля, в 12:00 об этом расскажет Виктор Загускин — ML-руководитель платформы речевых технологий в MTS AI.
В эфире обсудим:
Подключайтесь и задавайте вопросы Виктору! Их можно оставить в чате на YouTube или в комментариях к этому посту.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9
Anthropic выпустила инструмент Claude Code — агента разработчика, который работает терминале. Он умеет разбираться во всем коде (code base) и помогает кодить быстрее через команды на обычном языке. Кажется это первый агент-разработчик напрямую от производителей LLM?
Ключевые возможности:
• Пишет код, исправляет баги
• Отвечает на вопросы об архитектуре и логике кода
• Запускает и исправляет тесты
• Работает с git: история, конфликты, коммиты и PR
Особенности:
• Работает прямо в терминале
• Понимает контекст всего проекта
• Выполняет реальные действия с кодом
• Прямое API-соединение без промежуточных серверов
Пока в бета-версии как research preview. Установка через npm: npm install -g @anthropic-ai/claude-code
Анонсируют, что пригодится для изучения незнакомого кода, автоматизации git-операций и интеллектуального редактирования.
UPD
Пока только waitlist, так что ждем
Ключевые возможности:
• Пишет код, исправляет баги
• Отвечает на вопросы об архитектуре и логике кода
• Запускает и исправляет тесты
• Работает с git: история, конфликты, коммиты и PR
Особенности:
• Работает прямо в терминале
• Понимает контекст всего проекта
• Выполняет реальные действия с кодом
• Прямое API-соединение без промежуточных серверов
Пока в бета-версии как research preview. Установка через npm: npm install -g @anthropic-ai/claude-code
Анонсируют, что пригодится для изучения незнакомого кода, автоматизации git-операций и интеллектуального редактирования.
UPD
Пока только waitlist, так что ждем
Anthropic
Claude Code overview - Anthropic
Learn about Claude Code, Anthropic's agentic coding tool that lives in your terminal and helps you turn ideas into code faster than ever before.
❤7👍4🔥1
Ведущие европейские разработчики LLM Mistral выпустили "Mistral OCR" - модель, которая может поспособствовать развитию RAG-пайплайнов.
По заявлениям производителя это самая мощная модель для распознавания документов, при этом она может работать локально... но к сожалению не Open Source.
Умеет распознавать мультимодальные (текст, таблицы, pdf, презентации, формулы типа LaTeX и изображения) документы. Есть API, т.е. интегрируется в любые пайплайны (например в RAG). Точность на русском (и еще на десятке языков) языке выше 99%, т.е. выше, чем у Google Doс AI, Azure OCR или Gemini.
Локальное развертывание: можно использовать на собственных серверах для защиты чувствительной информации (повторюсь, но не open source). Высокая скорость обработки: до 2000 страниц в минуту на одном узле + batch inference.
Уже можно попробовать бесплатно в Le Chat, попробовать API на платформе Mistral (La Plateforme). Подробнее на сайте Mistral.
По заявлениям производителя это самая мощная модель для распознавания документов, при этом она может работать локально... но к сожалению не Open Source.
Умеет распознавать мультимодальные (текст, таблицы, pdf, презентации, формулы типа LaTeX и изображения) документы. Есть API, т.е. интегрируется в любые пайплайны (например в RAG). Точность на русском (и еще на десятке языков) языке выше 99%, т.е. выше, чем у Google Doс AI, Azure OCR или Gemini.
Локальное развертывание: можно использовать на собственных серверах для защиты чувствительной информации (повторюсь, но не open source). Высокая скорость обработки: до 2000 страниц в минуту на одном узле + batch inference.
Уже можно попробовать бесплатно в Le Chat, попробовать API на платформе Mistral (La Plateforme). Подробнее на сайте Mistral.
mistral.ai
Mistral OCR | Mistral AI
Introducing the world’s best document understanding API.
👍4
Media is too big
VIEW IN TELEGRAM
Как внедрить искусственный интеллект в ваш веб-проект?
Миша Ларченко покажет три способа интеграции ИИ-моделей с помощью JavaScript. Вы узнаете, какой вариант лучше всего подойдет для ваших задач и как избежать подводных камней при работе с нейросетями в браузере.
⚡️ Миша Ларченко — опытный fullstack-разработчик, специализирующийся на backend и frontend с разными фреймворками. Работает с базами данных, облачными сервисами и архитектурами, увлекается блокчейном и LLM. Ведет одноименный YouTube-блог.
Запись трансляции доступна здесь и на других площадках:
➡️ YouTube
➡️ ВКонтакте
➡️ ЯндексМузыка
Миша Ларченко покажет три способа интеграции ИИ-моделей с помощью JavaScript. Вы узнаете, какой вариант лучше всего подойдет для ваших задач и как избежать подводных камней при работе с нейросетями в браузере.
Запись трансляции доступна здесь и на других площадках:
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9
Media is too big
VIEW IN TELEGRAM
"Почему люди создают ИИ?" — новая лекция доктора технических наук Владимира Крылова.
Разбираем:
🟠 принципы свободной энергии Фристона;
🟠 серендипность и экзаптацию как механизмы эволюции жизни и технологий;
🟠 ИИ как необходимый элемент системы гомеостаза нашей планеты.
Запись лекции доступна здесь и на других площадках:
➡️ YouTube
➡️ ВКонтакте
➡️ ЯндексМузыка
Разбираем:
Запись лекции доступна здесь и на других площадках:
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍3
Media is too big
VIEW IN TELEGRAM
Как эволюционировали технологии распознавания речи?
Рассказывает Виктор Загускин — ML-руководитель платформы речевых технологий в MTS AI.
В эфире разбираем:
🟠 переход от классических подходов (HMM, Kaldi) к end-to-end моделям (CTC, RNN-T, Whisper, TDT);
🟠 вызовы сценариев поточного распознавания, диаризации и интерактивного общения;
🟠 перспективы полнодуплексных LLM и мультимодального взаимодействия.
Запись лекции доступна здесь и на других площадках:
➡️ YouTube
➡️ ВКонтакте
➡️ ЯндексМузыка
Рассказывает Виктор Загускин — ML-руководитель платформы речевых технологий в MTS AI.
В эфире разбираем:
Запись лекции доступна здесь и на других площадках:
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤2
В этот четверг, 13 марта, в 16:00 доктор технических наук Владимир Крылов расскажет, зачем искусственный интеллект науке. Лектор предложит авторскую интерпретацию внутренних причин появления ИИ как результата научной деятельности человека, основываясь на теории Лавлока и принципе свободной энергии Фристона.
В эфире рассмотрим:
🟠 акселерацию процессов проникновения методов ИИ в науку;
🟠 возможности управления контролируемыми галлюцинациями, которые лежат в основе познания мира;
🟠 новые ИИ-инструменты исследований и их влияние на работу научных сотрудников и на современные формализации структуры науки.
Подключайтесь и задавайте вопросы лектору! Их можно оставить в чате на YouTube или в комментариях к этому посту.
В эфире рассмотрим:
Подключайтесь и задавайте вопросы лектору! Их можно оставить в чате на YouTube или в комментариях к этому посту.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤1
Сейчас есть множество разных AI-платформ для разработки, но какую выбрать для своих задач или для проектной команды? Разберемся вместе с Александром Медведевым — fullstack-разработчиком компании Just AI.
В эфире:
🟣 сравним ключевые AI-платформы;
🟣 посмотрим на сценарии их использования;
🟣 обсудим преимущества использования AI-платформ по сравнению с прямым обращением к LLM;
🟣 поговорим о трендах развития инструментов на базе AI в разработке.
⏰ Запускаем трансляцию в полдень 14 марта (пятница).
Подключайтесь и задавайте вопросы Александру! Их можно оставить в чате на YouTube или в комментариях к этому посту.
В эфире:
⏰ Запускаем трансляцию в полдень 14 марта (пятница).
Подключайтесь и задавайте вопросы Александру! Их можно оставить в чате на YouTube или в комментариях к этому посту.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤4
Сообщения о совершенствовании архитектур базовых моделей ИИ публикуются довольно часто и мы нередко задаемся вопросом об их перспективности. Ведь авторы и обозреватели нередко заявляют о радикальных преимуществах новых алгоритмов функционирования и скором вытеснении старых добрых трансформеров. Но несмотря на реальные преимущества тех или иных решений, они в целом пока не дают видимого экономического преимущества, добавляя единицы процентов к производительности моделей. Большинство новаторских моделей с трудом продвигаются в индустрию из академических исследований. Но вот недавняя публикация компании Inception сразу задела меня, заинтересовала многих с кем я говорил, и в надежде, что свершившееся заинтересует и многих читателей канала, публикую заметку по материалам упомянутой и последовавших за этим публикаций. Более того на нашем канале запланирована моя следующая лекция, посвященная детальному анализу предложенной авторами технологии и релизу готовых моделей на ее основе. Для начала о команде. Она впечатляет : "Нас основали профессора из Стэнфорда, Калифорнийского университета в Лос-Анджелесе и Корнелла — пионеры в области диффузионного моделирования и краеугольных технологий ИИ, включая Flash Attention, Decision Transformers и Direct Preference Optimization. В нашу инженерную команду входят ветераны из Google DeepMind, Microsoft, Meta, OpenAI и NVIDIA." Так в чем корень технологии? На настоящий момент известно два основных подхода к базовому принципу генеративного ИИ - это авторегрессионная модель и диффузионная модель. Позволю себе провести аналогию с двумя техниками работы скульптора, "генерирующего" свое произведение. Есть техника лепки, когда кусочек за кусочком добавляются к уже вылепленному, а есть техника высечения, когда из бесформенного в начале куска материала путем отделения кусок за куском формируется "генерируется" произведение. Так вот первая техника - это прямая аналогия работы авторегрессионных моделей GPT, а вторая техника - аналогия работы диффузионной модели. И что же сделали в Inception? Они соединили эти две технологии и сделали Diffusion LLM. теперь текст генерируется не токен за токеном, а фильтруется как из хаоса слов по группам токенов. Эффект в скорости составляет десятки раз! Наилучшие результаты по качеству получаются при генерации программного кода, поэтому свои первые модели разработчики ориентировали на работу с кодом. Так что встречайте и пробуйте (уже есть Playground) Mercury Coder Small и Mercury Coder Mini. https://www.inceptionlabs.ai/news
www.inceptionlabs.ai
Inception Labs
We are leveraging diffusion technology to develop a new generation of LLMs. Our dLLMs are much faster and more efficient than traditional auto-regressive LLMs. And diffusion models are more accurate, controllable, and performant on multimodal tasks.
👍5
Поднявшаяся с легкой руки Андрея Карпаты волна обсуждений vibe coding размывает многие догмы сегодняшнего понимания разработки программ. Но вот появляются и такие сообщения, на первый взгляд курьезные. В самый раз на выходные.
Сообщается, что известный помощник по программированию Cursor сказал пользователю под ником «janswist», что тот должен написать код самостоятельно, а не полагаться на то, что Cursor сделает это за него.
«Я не могу генерировать код для вас, так как это будет означать завершение вашей работы... вы должны разработать логику самостоятельно. Это гарантирует, что вы поймете систему и сможете ее правильно поддерживать», — сказал ему Курсор после того, как он провел час, «настраивая» код с помощью инструмента.
Итак, janswist подал отчет об ошибке на форуме продукта компании: «Cursor сказал мне, что мне следует изучить кодирование, а не просить его генерировать его», и приложил снимок экрана. Отчет об ошибке вскоре стал вирусным на Hacker News и был освещен Ars Technica.
Предполагается, что Cursor обучался на сайте Stack Overflow и он мог усвоить не только советы по кодированию, но и человеческий сарказм.
Сообщается, что известный помощник по программированию Cursor сказал пользователю под ником «janswist», что тот должен написать код самостоятельно, а не полагаться на то, что Cursor сделает это за него.
«Я не могу генерировать код для вас, так как это будет означать завершение вашей работы... вы должны разработать логику самостоятельно. Это гарантирует, что вы поймете систему и сможете ее правильно поддерживать», — сказал ему Курсор после того, как он провел час, «настраивая» код с помощью инструмента.
Итак, janswist подал отчет об ошибке на форуме продукта компании: «Cursor сказал мне, что мне следует изучить кодирование, а не просить его генерировать его», и приложил снимок экрана. Отчет об ошибке вскоре стал вирусным на Hacker News и был освещен Ars Technica.
Предполагается, что Cursor обучался на сайте Stack Overflow и он мог усвоить не только советы по кодированию, но и человеческий сарказм.
👍12😁11❤3🌚3
Как разработчики используют LLM: дайджест исследования
Прочитали за вас 40-страничное исследование от Университета Северной Каролины о влиянии языковых моделей на разработку ПО. Ключевые выводы:
-LLM повышают продуктивность за счёт сокращения рутины, упрощения поиска решений и создания шаблонного кода
-Лучше всего разбивать задачи на мелкие компоненты и итеративно уточнять промпты
-Для оценки кода эффективно использовать комбинацию ручной проверки и автоматизированного тестирования
-LLM особенно хороши в написании тестов и рефакторинге
Для организаций важно:
• Создавать библиотеки шаблонов промптов для сотрудников
• Обучать команды промпт-инжинирингу
• Использовать RAG для включения проектной документации в генерацию
Полный дайджест с инсайтами на Хабре.
Прочитали за вас 40-страничное исследование от Университета Северной Каролины о влиянии языковых моделей на разработку ПО. Ключевые выводы:
-LLM повышают продуктивность за счёт сокращения рутины, упрощения поиска решений и создания шаблонного кода
-Лучше всего разбивать задачи на мелкие компоненты и итеративно уточнять промпты
-Для оценки кода эффективно использовать комбинацию ручной проверки и автоматизированного тестирования
-LLM особенно хороши в написании тестов и рефакторинге
Для организаций важно:
• Создавать библиотеки шаблонов промптов для сотрудников
• Обучать команды промпт-инжинирингу
• Использовать RAG для включения проектной документации в генерацию
Полный дайджест с инсайтами на Хабре.
Хабр
Влияние LLM на людей, процессы, продукты и общество в разработке ПО: исследование с ранними пользователями
В начале марта вышло любопытное исследование от PhD студентов in Computer Science университета Северной Каролины: «Влияние больших языковых моделей на людей, процессы, продукты и общество в разработке...
👍9