AI4Dev — AI for Development
3.75K subscribers
107 photos
24 videos
5 files
212 links
Что надо знать, чтобы остаться востребованным ИТ специалистом в мире с LLM?

• Обзоры продуктов, фреймворков и способы взаимодействия с LLM для разработки софта

• Реальные кейсы, pet и бизнес проекты с LLM

• Публичные лекции

В будущее берут не всех!
Download Telegram
Live stream started
Live stream finished (1 hour)
2025ый год только начался, а за последние три дня произошло два очень существенных события в индустрии LLM, которые собираются в одну картинку.

1. Вышла модель китайской компании DeepSeek R1. Если еще в июне 24го мы писали, что модель от DeepSeek в узких областях (например кодинг по некоторым бенчмаркам) приближается к ведущим производителям типа Mistral, то сегодня DeepSeek (судя по анонсированным бенчмаркам) уже не уступает общей ведущей модели o1 от OpenAI, при этом стоит в разы меньше и даже выложена в открытый доступ! Тут можно попробовать (нажимайте на кнопку Deep Think).

2. Словно ответ на DeepSeek сегодня Трамп объявил о создании в в США Stargate – инвестиционного проекта в 500 миллиардов долларов по созданию инфраструктуры для искусственного интеллекта. Партнером от мира ИИ в Stargate является Open AI.

Что это значит для разработки? Гонка не только не останавливается, но наоборот ускоряется, впереди нас ждут все более умные модели, которые смогут еще больше. Определенно пора учиться использовать ИИ в работе, если вы еще не начинали.

Китайские модели начали показывать очень достойные результаты, при этом они Open Source и есть уменьшенные (distilled) версии, которые можно запустить на разумном объеме железа. Проектировать закрытые решения для бизнеса на базе QWEN и DeepSeek видимо было хорошей идеей - их качество стремительно улучшается, а модели пока продолжают выкладывать в открытый доступ.

Мы снова видим, как меняются лидеры в отрасли, но в этот раз похоже уже наметились претенденты на топ-позиции. Вопрос вычислительных мощностей является ключевым и его не компенсировать даже гениальными алгоритмами или идеями. То что Google и Anthropic не позвали в Stargate – кажется тревожный для них звоночек (не говоря уже о европейских Mistral и других производителях). Например, российским решениям вроде GigaChat и YandexGPT вряд ли удастся побороться за лидерство: $500 млрд — это сравнимо со стоимостью всего Сбербанка или 50 «Яндексов». Впрочем остаются нишевые задачи: дообучение компактных моделей для специализированных целей — кажется все еще трендомом, где найдётся место многим игрокам.

PS
Пока писал этот пост вышла новость, что на этой неделе OpenAI выпустят Operator - ИИ приложение агента, которое может выполнять за вас работу за компьютером, двигать мышкой, открывать окна, вбивать информацию в формы и т.д. при этом самостоятельно выполняя заранее заданную цель. Где-то занервничали создатели RPA-платформ.
👍5🔥5🌚1
Только что Open AI представили Operator — агента, работающего в облаке, где он управляет браузером для выполнения задач: от ввода капчи до покупок, с возможностью перехвата управления пользователем. На демо Operator заказывал столик в ресторане, еду по списку, пицу c доставкой, билеты на концерт, бронировали теннисный корт. Оптимизирован для популярных сайтов но может со всем. Пока доступен в США но вскоре для всех подписчиков Plus и других регионов. API для разработчиков обещают через две недели.

По моим ощущениям RPA-компаниям (Robotic Process Automation - софт для автоматизации рутинных офисных задач) можно начинать нервничать, т.к. качество оператора уже на уровне и явно будет расти с выпуском новых моделей. Полное демо на youtube. Есть у нас подписчики из RPA, выглядит как кардинальная смена технологии?
🔥9👍2🍌1🏆1
В этот четверг, 30 января, в 12:00 доктор технических наук Владимир Крылов расскажет о моделях рассуждений (таких как DeepSeek R1, o1, o3), основанных на больших языковых моделях.

На лекции обсудим:
🟠На что способны модели рассуждений?
🟠Как правильно сконструировать промпт для них?
🟠В чем состоят проблемы использования таких моделей?
🟠Как модель рассуждений думает без слов и как все это связано с системами сознания Канемана?

Хотите узнать, как появление говорящих и рассуждающих моделей вписывается в концепцию перехода Земли от эпохи Антропоцена в эпоху Новацена? Подключайтесь!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥6👀1
Live stream started
Live stream finished (1 hour)
Помните, мы все удивились новой китайской модели DeepSeek R1, которая сравнима с o1, но открытая? Ах, да, конечно помните, это же было неделю назад. Она основана на модели DeepSeek V3 (не рассуждающей). А теперь встречайте Tulu3-405B — американскую открытую модель, которая превосходит DeepSeek V3 по большинству бенчмарков (по крайней мере из тех, которые авторы указали в пресс-релизе).

Разработчик: некоммерческий институт AI2 (Сиэтл)
Параметры: 405B, обучение — 256 GPU

По HumanEval (популярный бенчмарк на программирование с проверкой заданий юнит тестами) превосходит DeepSeek, есть дистиллированные маленькие модели - кандидаты на локальную модель для программирования, по отзывам скорости на бытовом железе скромные.

На бенчмарках PopQA (вопросы по Википедии) и GSM8K (математика), обгоняя не только DeepSeek V3, но и GPT-4o с Llama 3.1.

Код доступен на GitHub, Hugging Face, протестировать можно в чат-боте AI2.
Рассуждать, правда, придётся самостоятельно — Tulu3 пока не умеет.

Более подробный обзор: TechCrunch
👍6
А что, если совместить DeepSeek R1 и Claude?

Компания Asterisk (AI Security) выпустила open source интерфейс DeepClaude, который объединяет рассуждения R1 и креативность Claude. R1 используется как архитектор - сначала запрос попадает к этой модели, а Claude как редактор кода – финальная реализация в виде кода того, что придумала R1.

На бенчмарке Aider Polyglot такой подход показал интересные результаты:

1. Первое место, лучше чем DeepSeek R1, Claude и o1
2. В 14 раз дешевле, чем o1

На гитхабе:
https://github.com/getasterisk/deepclaude
https://deepclaude.com/ - на сайте есть deepclaude чат, но у меня он не работает. ☹️
👍81
С 31 января 2025 года o3-mini стала доступна для подписчиков ChatGPT Plus. Вышли результаты на Livebench (это бенчмарк/платформа, которая постоянно обновляет набор задач, исключая возможность утечки решений и гарантируя, что задания остаются актуальными и интересными).

На кодинге модель уверенно опережает всех.
В среднем показывает лучшие результаты, чем Deep Seek R1 (за исключением математики).

Первоначальные показатели по математике оказались аномально низкими, но организаторы обнаружили ошибку и пересчитали средние баллы.
👍6
Media is too big
VIEW IN TELEGRAM
"Большие модели рассуждений. Ещё шаг в эпоху Новацена?" — новая лекция доктора технических наук Владимира Крылова.

Разбираем:
🟠На что способны модели рассуждений вроде DeepSeek-R1?
🟠Как правильно сконструировать промпт для них?
🟠В чем состоят проблемы использования таких моделей?
🟠Как модель рассуждений думает без слов и как все это связано с системами сознания Канемана?

Запись лекции доступна здесь и на других площадках:

➡️ YouTube
➡️ ВКонтакте
➡️ ЯндексМузыка
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥1
Мы перевели статью "Windsurf vs Cursor IDE: выбираем AI-редактор кода?” и запостили ее на Хабре, она довольно подробная с картинками. Автор разбирает основные фичи двух самых популярных AI IDE. Рекомендуем так же заглянуть в комментарии, там много интересного: и про использование бесплатных IDE и локальных моделей vs Claude, и про YOLO mode (режим агента) в Cursor и даже про проблемы Cline с DeepSeek
🔥145
Media is too big
VIEW IN TELEGRAM
Роман Куцев — founder LLM Arena, автор канала @roma_data и выпускник ВМК МГУ — у нас в гостях! В этом видео Роман рассказал о своем детище — открытой краудсорсинговой платформе для оценки моделей на русском языке. Эта платформа позволяет любому пользователю тестировать и сравнивать LLM бесплатно.

В видео узнаете:
🟣 Как работает бенчмарк LLM Arena?
🟣 Как формируется рейтинг на аренах? Насколько он справедлив?
🟣 Чем LLM Arena лучше для русскоговорящего пользователя, чем LMSYS Chatbot Arena?
🟣 Как не дать моделям обвести себя вокруг пальца?
🟣 Как подобрать лучшую модель для своих задач?

Сейчас на платформе доступны 49 российских и зарубежных ИИ-моделей, можете опробовать их хоть прямо сейчас!

А Роман готов ответить на ваши вопросы в комментариях⬇️
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥71
Как внедрить искусственный интеллект в ваш веб-проект?
Сегодня в 13:00 Миша Ларченко покажет три способа интеграции ИИ-моделей с помощью JavaScript, разберет их плюсы и минусы, а также расскажет, какие ограничения могут возникнуть. Вы узнаете, какой вариант лучше всего подойдет для ваших задач и как избежать подводных камней при работе с нейросетями в браузере.

Миша Ларченко — опытный Fullstack-разработчик, специализирующийся на backend и frontend с разными фреймворками. Работает с базами данных, облачными сервисами и архитектурами, увлекается блокчейном и LLM. Автор одноименного YouTube-блога.

Подключайтесь и задавайте вопросы спикеру! Их можно оставить в чате на YouTube или в комментариях к этому посту.
👍12
Live stream started
Live stream finished (1 hour)
В этот четверг, 20 февраля, в 12:00 доктор технических наук Владимир Крылов расскажет, почему люди создают искусственный интеллект. Зачем тратить столько ресурсов, работая над все более совершенными моделями, которые способны решать проблемы ментальными способами?

На лекции рассмотрим:
🟠принципы свободной энергии Фристона;
🟠серендипность и экзаптацию как механизмы эволюции жизни и технологий;
🟠ИИ как необходимый элемент системы гомеостаза нашей планеты.

Подключайтесь и задавайте вопросы спикеру! Их можно оставить в чате на YouTube или в комментариях к этому посту.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍131
Live stream started