Помните, мы все удивились новой китайской модели DeepSeek R1, которая сравнима с o1, но открытая? Ах, да, конечно помните, это же было неделю назад. Она основана на модели DeepSeek V3 (не рассуждающей). А теперь встречайте Tulu3-405B — американскую открытую модель, которая превосходит DeepSeek V3 по большинству бенчмарков (по крайней мере из тех, которые авторы указали в пресс-релизе).
Разработчик: некоммерческий институт AI2 (Сиэтл)
Параметры: 405B, обучение — 256 GPU
По HumanEval (популярный бенчмарк на программирование с проверкой заданий юнит тестами) превосходит DeepSeek, есть дистиллированные маленькие модели - кандидаты на локальную модель для программирования, по отзывам скорости на бытовом железе скромные.
На бенчмарках PopQA (вопросы по Википедии) и GSM8K (математика), обгоняя не только DeepSeek V3, но и GPT-4o с Llama 3.1.
Код доступен на GitHub, Hugging Face, протестировать можно в чат-боте AI2.
Рассуждать, правда, придётся самостоятельно — Tulu3 пока не умеет.
Более подробный обзор: TechCrunch
Разработчик: некоммерческий институт AI2 (Сиэтл)
Параметры: 405B, обучение — 256 GPU
По HumanEval (популярный бенчмарк на программирование с проверкой заданий юнит тестами) превосходит DeepSeek, есть дистиллированные маленькие модели - кандидаты на локальную модель для программирования, по отзывам скорости на бытовом железе скромные.
На бенчмарках PopQA (вопросы по Википедии) и GSM8K (математика), обгоняя не только DeepSeek V3, но и GPT-4o с Llama 3.1.
Код доступен на GitHub, Hugging Face, протестировать можно в чат-боте AI2.
Рассуждать, правда, придётся самостоятельно — Tulu3 пока не умеет.
Более подробный обзор: TechCrunch
👍6
А что, если совместить DeepSeek R1 и Claude?
Компания Asterisk (AI Security) выпустила open source интерфейс DeepClaude, который объединяет рассуждения R1 и креативность Claude. R1 используется как архитектор - сначала запрос попадает к этой модели, а Claude как редактор кода – финальная реализация в виде кода того, что придумала R1.
На бенчмарке Aider Polyglot такой подход показал интересные результаты:
1. Первое место, лучше чем DeepSeek R1, Claude и o1
2. В 14 раз дешевле, чем o1
На гитхабе:
https://github.com/getasterisk/deepclaude
https://deepclaude.com/ - на сайте есть deepclaude чат, но у меня он не работает. ☹️
Компания Asterisk (AI Security) выпустила open source интерфейс DeepClaude, который объединяет рассуждения R1 и креативность Claude. R1 используется как архитектор - сначала запрос попадает к этой модели, а Claude как редактор кода – финальная реализация в виде кода того, что придумала R1.
На бенчмарке Aider Polyglot такой подход показал интересные результаты:
1. Первое место, лучше чем DeepSeek R1, Claude и o1
2. В 14 раз дешевле, чем o1
На гитхабе:
https://github.com/getasterisk/deepclaude
https://deepclaude.com/ - на сайте есть deepclaude чат, но у меня он не работает. ☹️
👍8❤1
С 31 января 2025 года o3-mini стала доступна для подписчиков ChatGPT Plus. Вышли результаты на Livebench (это бенчмарк/платформа, которая постоянно обновляет набор задач, исключая возможность утечки решений и гарантируя, что задания остаются актуальными и интересными).
На кодинге модель уверенно опережает всех.
В среднем показывает лучшие результаты, чем Deep Seek R1 (за исключением математики).
Первоначальные показатели по математике оказались аномально низкими, но организаторы обнаружили ошибку и пересчитали средние баллы.
На кодинге модель уверенно опережает всех.
В среднем показывает лучшие результаты, чем Deep Seek R1 (за исключением математики).
Первоначальные показатели по математике оказались аномально низкими, но организаторы обнаружили ошибку и пересчитали средние баллы.
👍6
Media is too big
VIEW IN TELEGRAM
"Большие модели рассуждений. Ещё шаг в эпоху Новацена?" — новая лекция доктора технических наук Владимира Крылова.
Разбираем:
🟠 На что способны модели рассуждений вроде DeepSeek-R1?
🟠 Как правильно сконструировать промпт для них?
🟠 В чем состоят проблемы использования таких моделей?
🟠 Как модель рассуждений думает без слов и как все это связано с системами сознания Канемана?
Запись лекции доступна здесь и на других площадках:
➡️ YouTube
➡️ ВКонтакте
➡️ ЯндексМузыка
Разбираем:
Запись лекции доступна здесь и на других площадках:
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥1
Мы перевели статью "Windsurf vs Cursor IDE: выбираем AI-редактор кода?” и запостили ее на Хабре, она довольно подробная с картинками. Автор разбирает основные фичи двух самых популярных AI IDE. Рекомендуем так же заглянуть в комментарии, там много интересного: и про использование бесплатных IDE и локальных моделей vs Claude, и про YOLO mode (режим агента) в Cursor и даже про проблемы Cline с DeepSeek
Хабр
Windsurf vs Cursor IDE: кто лучший AI-редактор кода?
Две популярные IDE (среды разработки) с поддержкой искусственного интеллекта: Windsurf и Cursor . Оба инструмента заявляют, что ускорят процесс написания кода, но какой из них лучше подойдет именно...
🔥14❤5
Media is too big
VIEW IN TELEGRAM
Роман Куцев — founder LLM Arena, автор канала @roma_data и выпускник ВМК МГУ — у нас в гостях! В этом видео Роман рассказал о своем детище — открытой краудсорсинговой платформе для оценки моделей на русском языке. Эта платформа позволяет любому пользователю тестировать и сравнивать LLM бесплатно.
В видео узнаете:
🟣 Как работает бенчмарк LLM Arena?
🟣 Как формируется рейтинг на аренах? Насколько он справедлив?
🟣 Чем LLM Arena лучше для русскоговорящего пользователя, чем LMSYS Chatbot Arena?
🟣 Как не дать моделям обвести себя вокруг пальца?
🟣 Как подобрать лучшую модель для своих задач?
Сейчас на платформе доступны 49 российских и зарубежных ИИ-моделей, можете опробовать их хоть прямо сейчас!
А Роман готов ответить на ваши вопросы в комментариях⬇️
В видео узнаете:
Сейчас на платформе доступны 49 российских и зарубежных ИИ-моделей, можете опробовать их хоть прямо сейчас!
А Роман готов ответить на ваши вопросы в комментариях
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥7❤1
Как внедрить искусственный интеллект в ваш веб-проект?
Сегодня в 13:00 Миша Ларченко покажет три способа интеграции ИИ-моделей с помощью JavaScript, разберет их плюсы и минусы, а также расскажет, какие ограничения могут возникнуть. Вы узнаете, какой вариант лучше всего подойдет для ваших задач и как избежать подводных камней при работе с нейросетями в браузере.
Миша Ларченко — опытный Fullstack-разработчик, специализирующийся на backend и frontend с разными фреймворками. Работает с базами данных, облачными сервисами и архитектурами, увлекается блокчейном и LLM. Автор одноименного YouTube-блога.
Подключайтесь и задавайте вопросы спикеру! Их можно оставить в чате на YouTube или в комментариях к этому посту.
Сегодня в 13:00 Миша Ларченко покажет три способа интеграции ИИ-моделей с помощью JavaScript, разберет их плюсы и минусы, а также расскажет, какие ограничения могут возникнуть. Вы узнаете, какой вариант лучше всего подойдет для ваших задач и как избежать подводных камней при работе с нейросетями в браузере.
Миша Ларченко — опытный Fullstack-разработчик, специализирующийся на backend и frontend с разными фреймворками. Работает с базами данных, облачными сервисами и архитектурами, увлекается блокчейном и LLM. Автор одноименного YouTube-блога.
Подключайтесь и задавайте вопросы спикеру! Их можно оставить в чате на YouTube или в комментариях к этому посту.
👍12
В этот четверг, 20 февраля, в 12:00 доктор технических наук Владимир Крылов расскажет, почему люди создают искусственный интеллект. Зачем тратить столько ресурсов, работая над все более совершенными моделями, которые способны решать проблемы ментальными способами?
На лекции рассмотрим:
🟠 принципы свободной энергии Фристона;
🟠 серендипность и экзаптацию как механизмы эволюции жизни и технологий;
🟠 ИИ как необходимый элемент системы гомеостаза нашей планеты.
Подключайтесь и задавайте вопросы спикеру! Их можно оставить в чате на YouTube или в комментариях к этому посту.
На лекции рассмотрим:
Подключайтесь и задавайте вопросы спикеру! Их можно оставить в чате на YouTube или в комментариях к этому посту.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13❤1
Как эволюционировали технологии распознавания речи?
Завтра, 26 февраля, в 12:00 об этом расскажет Виктор Загускин — ML-руководитель платформы речевых технологий в MTS AI.
В эфире обсудим:
🟣 переход от классических подходов (HMM, Kaldi) к end-to-end моделям (CTC, RNN-T, Whisper, TDT);
🟣 вызовы сценариев поточного распознавания, диаризации и интерактивного общения;
🟣 перспективы полнодуплексных LLM и мультимодального взаимодействия.
Подключайтесь и задавайте вопросы Виктору! Их можно оставить в чате на YouTube или в комментариях к этому посту.
Завтра, 26 февраля, в 12:00 об этом расскажет Виктор Загускин — ML-руководитель платформы речевых технологий в MTS AI.
В эфире обсудим:
Подключайтесь и задавайте вопросы Виктору! Их можно оставить в чате на YouTube или в комментариях к этому посту.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9
Anthropic выпустила инструмент Claude Code — агента разработчика, который работает терминале. Он умеет разбираться во всем коде (code base) и помогает кодить быстрее через команды на обычном языке. Кажется это первый агент-разработчик напрямую от производителей LLM?
Ключевые возможности:
• Пишет код, исправляет баги
• Отвечает на вопросы об архитектуре и логике кода
• Запускает и исправляет тесты
• Работает с git: история, конфликты, коммиты и PR
Особенности:
• Работает прямо в терминале
• Понимает контекст всего проекта
• Выполняет реальные действия с кодом
• Прямое API-соединение без промежуточных серверов
Пока в бета-версии как research preview. Установка через npm: npm install -g @anthropic-ai/claude-code
Анонсируют, что пригодится для изучения незнакомого кода, автоматизации git-операций и интеллектуального редактирования.
UPD
Пока только waitlist, так что ждем
Ключевые возможности:
• Пишет код, исправляет баги
• Отвечает на вопросы об архитектуре и логике кода
• Запускает и исправляет тесты
• Работает с git: история, конфликты, коммиты и PR
Особенности:
• Работает прямо в терминале
• Понимает контекст всего проекта
• Выполняет реальные действия с кодом
• Прямое API-соединение без промежуточных серверов
Пока в бета-версии как research preview. Установка через npm: npm install -g @anthropic-ai/claude-code
Анонсируют, что пригодится для изучения незнакомого кода, автоматизации git-операций и интеллектуального редактирования.
UPD
Пока только waitlist, так что ждем
Anthropic
Claude Code overview - Anthropic
Learn about Claude Code, Anthropic's agentic coding tool that lives in your terminal and helps you turn ideas into code faster than ever before.
❤7👍4🔥1
Ведущие европейские разработчики LLM Mistral выпустили "Mistral OCR" - модель, которая может поспособствовать развитию RAG-пайплайнов.
По заявлениям производителя это самая мощная модель для распознавания документов, при этом она может работать локально... но к сожалению не Open Source.
Умеет распознавать мультимодальные (текст, таблицы, pdf, презентации, формулы типа LaTeX и изображения) документы. Есть API, т.е. интегрируется в любые пайплайны (например в RAG). Точность на русском (и еще на десятке языков) языке выше 99%, т.е. выше, чем у Google Doс AI, Azure OCR или Gemini.
Локальное развертывание: можно использовать на собственных серверах для защиты чувствительной информации (повторюсь, но не open source). Высокая скорость обработки: до 2000 страниц в минуту на одном узле + batch inference.
Уже можно попробовать бесплатно в Le Chat, попробовать API на платформе Mistral (La Plateforme). Подробнее на сайте Mistral.
По заявлениям производителя это самая мощная модель для распознавания документов, при этом она может работать локально... но к сожалению не Open Source.
Умеет распознавать мультимодальные (текст, таблицы, pdf, презентации, формулы типа LaTeX и изображения) документы. Есть API, т.е. интегрируется в любые пайплайны (например в RAG). Точность на русском (и еще на десятке языков) языке выше 99%, т.е. выше, чем у Google Doс AI, Azure OCR или Gemini.
Локальное развертывание: можно использовать на собственных серверах для защиты чувствительной информации (повторюсь, но не open source). Высокая скорость обработки: до 2000 страниц в минуту на одном узле + batch inference.
Уже можно попробовать бесплатно в Le Chat, попробовать API на платформе Mistral (La Plateforme). Подробнее на сайте Mistral.
mistral.ai
Mistral OCR | Mistral AI
Introducing the world’s best document understanding API.
👍4
Media is too big
VIEW IN TELEGRAM
Как внедрить искусственный интеллект в ваш веб-проект?
Миша Ларченко покажет три способа интеграции ИИ-моделей с помощью JavaScript. Вы узнаете, какой вариант лучше всего подойдет для ваших задач и как избежать подводных камней при работе с нейросетями в браузере.
⚡️ Миша Ларченко — опытный fullstack-разработчик, специализирующийся на backend и frontend с разными фреймворками. Работает с базами данных, облачными сервисами и архитектурами, увлекается блокчейном и LLM. Ведет одноименный YouTube-блог.
Запись трансляции доступна здесь и на других площадках:
➡️ YouTube
➡️ ВКонтакте
➡️ ЯндексМузыка
Миша Ларченко покажет три способа интеграции ИИ-моделей с помощью JavaScript. Вы узнаете, какой вариант лучше всего подойдет для ваших задач и как избежать подводных камней при работе с нейросетями в браузере.
Запись трансляции доступна здесь и на других площадках:
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9
Media is too big
VIEW IN TELEGRAM
"Почему люди создают ИИ?" — новая лекция доктора технических наук Владимира Крылова.
Разбираем:
🟠 принципы свободной энергии Фристона;
🟠 серендипность и экзаптацию как механизмы эволюции жизни и технологий;
🟠 ИИ как необходимый элемент системы гомеостаза нашей планеты.
Запись лекции доступна здесь и на других площадках:
➡️ YouTube
➡️ ВКонтакте
➡️ ЯндексМузыка
Разбираем:
Запись лекции доступна здесь и на других площадках:
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍3