Мы провели небольшое исследование в Jet Brains Marketplace (среде разработки IDE) по популярности Copilot и AI autocomplete плагинов. В таблице все что больше 500 000 скачиваний. Из интересного:
1. Суммарно по всем плагинам больше 30млн скачиваний
2. Из топа все в активной разработке, обновлялось не больше чем 1-2 месяца назад
3. У основных игроков рейтинг не так уж и высок.
Кажется, что чем больше охват, тем меньше лояльность пользователей, что в целом логично. Tabnine и TONGYI Lingma выделяются на этом фоне, ну и Amazon Q тоже.
1. Суммарно по всем плагинам больше 30млн скачиваний
2. Из топа все в активной разработке, обновлялось не больше чем 1-2 месяца назад
3. У основных игроков рейтинг не так уж и высок.
Кажется, что чем больше охват, тем меньше лояльность пользователей, что в целом логично. Tabnine и TONGYI Lingma выделяются на этом фоне, ну и Amazon Q тоже.
👍4
Пару дней назад OpenAI выпустила SWE Bench Verified. Мы уже писали об SWE Engineer из Принстона, который умеет закрывать баги git-hub. Тренировка и оценка этого AI агента происходила на основе SWE bench – набора решенных задач с гитхаба, т.е. по сути пар: 1) таск с описанием задачи и 2) pull request в котором код исправлений и юнит тесты. И вот теперь Open AI в коллабе с SWE выпустили улучшенный отфильтрованный вариант этого набора данных. Что исправили:
• Прилагаемые юнит тесты в задачах очень специфичны и проверяют что-то помимо решаемой проблемы. Из-за этого при правильном решении юнит тест не проходит и задача записывается как нерешенная;
• Неполное описание проблемы, двусмысленность;
• Юнит тесты устроены так, что для них требуется слишком сложная настройка окружения, с которой не справляется AI агент.
Проблемы вполне понятны, когда мы делали обзор на SWE agent я как раз столкнулся с тем, что один и тот же баг с подробным описанием агент пофиксил, а с коротким нет. Встает вопрос, если мы соревнуемся с живыми разработчиками, то зачем упрощать задания? Баги из датасета были закрыты, значит живые люди с ними разобрались. Я предположу, что дело в том, что часть коммуникаций по задаче могла пройти за кадром, не оставив следов в таск трекере, обсудили на звонке, или разработчик сам себе завел таск, уже зная в чем проблема. Еще часть задач могла быть закрыта, например, с невыполненными юнит тестами. Итого оценивать по ним AI не совсем корректно. Кстати соревнуется не только AI с человеком, но и AI с AI.
Что показал этот новый отфильтрованный датасет? Если лидер (Amazon Q Developer Agent) в SWE bench решал 19.5% задач, то лидер в SWE Bench Verified (тоже, кстати, Amazon Q) решает уже 38.8% задач.
Посмотреть внимательнее на рейтинг на сайте swebench. Почитать про участие в этом датасете Open AI тут.
• Прилагаемые юнит тесты в задачах очень специфичны и проверяют что-то помимо решаемой проблемы. Из-за этого при правильном решении юнит тест не проходит и задача записывается как нерешенная;
• Неполное описание проблемы, двусмысленность;
• Юнит тесты устроены так, что для них требуется слишком сложная настройка окружения, с которой не справляется AI агент.
Проблемы вполне понятны, когда мы делали обзор на SWE agent я как раз столкнулся с тем, что один и тот же баг с подробным описанием агент пофиксил, а с коротким нет. Встает вопрос, если мы соревнуемся с живыми разработчиками, то зачем упрощать задания? Баги из датасета были закрыты, значит живые люди с ними разобрались. Я предположу, что дело в том, что часть коммуникаций по задаче могла пройти за кадром, не оставив следов в таск трекере, обсудили на звонке, или разработчик сам себе завел таск, уже зная в чем проблема. Еще часть задач могла быть закрыта, например, с невыполненными юнит тестами. Итого оценивать по ним AI не совсем корректно. Кстати соревнуется не только AI с человеком, но и AI с AI.
Что показал этот новый отфильтрованный датасет? Если лидер (Amazon Q Developer Agent) в SWE bench решал 19.5% задач, то лидер в SWE Bench Verified (тоже, кстати, Amazon Q) решает уже 38.8% задач.
Посмотреть внимательнее на рейтинг на сайте swebench. Почитать про участие в этом датасете Open AI тут.
👍1
Forwarded from Сергей Булаев AI 🤖
С помощью простого ✋ open-source фреймворка CopilotKit вы можете добавить ИИ-функционал в любое react приложение за несколько минут 😐 .
Берём любое приложение на реакте. Определяем действия и контекст, к которым вы хотите предоставить доступ вашему копилоту. Добавляем useCopilotActionable и useCopilotReadable из CopilotKit к этим функциям, чтобы копилот мог взаимодействовать с ними.👮♀️
Теперь ваше приложение будет иметь встроенного ассистента, который сможет выполнять действия и отвечать на вопросы внутри вашего приложения на основе запросов пользователя.🥇
Разбор на youtube
Пример todo списка со встроенным асисстентом. Вот исходники.
Сергей Булаев AI 🤖 - об AI и не только
Берём любое приложение на реакте. Определяем действия и контекст, к которым вы хотите предоставить доступ вашему копилоту. Добавляем useCopilotActionable и useCopilotReadable из CopilotKit к этим функциям, чтобы копилот мог взаимодействовать с ними.
Теперь ваше приложение будет иметь встроенного ассистента, который сможет выполнять действия и отвечать на вопросы внутри вашего приложения на основе запросов пользователя.
Разбор на youtube
Пример todo списка со встроенным асисстентом. Вот исходники.
Сергей Булаев AI 🤖 - об AI и не только
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Для тех, кто достиг высшего AI dev maturity level хорошая подборка от разработчика из Meta
Forwarded from эйай ньюз
Принёс вам подборку ресурсов о внутренностях ML фреймворков
Autodidax - туториал который проведёт вас сквозь имплементацию ядра Jax - библиотеки от Google, которая пришла на смену Tensorflow. Сейчас Jax это основной конкурент PyTorch и доминирует в RL сфере. В основном это из-за DeepMind, но ещё на Jax возможно делать симуляцию окружения для ИИ агентов с безумной скоростью. За пределами RL - XAI и Midjourney полностью на Jax, многие компании вроде Apple используют преимущественно Jax (модели для Apple Intelligence тренировались при помощи AXLearn, который работает поверх Jax).
Если autodidax кажется вам сложным - у Андрея Карпатого есть туториал о создании micrograd. Он хорошо объясняет как работает бэкпроп и библиотеки для создания нейронок.
А настоящие хардкорщики могут покопаться в tinygrad - полностью функционирующем ML фреймворке в менее чем 9000 строк кода. Несмотря на небольшую кодбазу фреймворк запускается на видяхах Nvidia, AMD, Intel, Qualcomm и Apple. Вот небольшой курс статей объясняющих внутренне устройство фреймворка (им несколько месяцев, так что некоторые части успели поменяться, но в целом хорошо объясняют суть). А начать знакомство с внутренностями стоит наверное с этого файла.
Если хочется разобраться во всей тематике поглубже, то есть университетский курс о компиляции нейронок от автора Apache TVM (.
Желаю вам приятного начала рабочей недели!
#ликбез
@ai_newz
Autodidax - туториал который проведёт вас сквозь имплементацию ядра Jax - библиотеки от Google, которая пришла на смену Tensorflow. Сейчас Jax это основной конкурент PyTorch и доминирует в RL сфере. В основном это из-за DeepMind, но ещё на Jax возможно делать симуляцию окружения для ИИ агентов с безумной скоростью. За пределами RL - XAI и Midjourney полностью на Jax, многие компании вроде Apple используют преимущественно Jax (модели для Apple Intelligence тренировались при помощи AXLearn, который работает поверх Jax).
Если autodidax кажется вам сложным - у Андрея Карпатого есть туториал о создании micrograd. Он хорошо объясняет как работает бэкпроп и библиотеки для создания нейронок.
А настоящие хардкорщики могут покопаться в tinygrad - полностью функционирующем ML фреймворке в менее чем 9000 строк кода. Несмотря на небольшую кодбазу фреймворк запускается на видяхах Nvidia, AMD, Intel, Qualcomm и Apple. Вот небольшой курс статей объясняющих внутренне устройство фреймворка (им несколько месяцев, так что некоторые части успели поменяться, но в целом хорошо объясняют суть). А начать знакомство с внутренностями стоит наверное с этого файла.
Если хочется разобраться во всей тематике поглубже, то есть университетский курс о компиляции нейронок от автора Apache TVM (.
Желаю вам приятного начала рабочей недели!
#ликбез
@ai_newz
Посмотрите, что может сделать 8 летняя девочка в Cursor за 45 минут. И это её вторая попытка кодинга в жизни. Всего лишь работающего чат бота в вебе. Она отцентрировала div за 2 минуты. Многие разработчики не могут сделать это и с 2 годами опыта.
👍3
22 августа в 12:00 Михаил Ларченко выступит с лекцией «Node.js & ИИ: как программировать эффективнее?»
Михаил — разработчик ПО с сильной страстью к решению сложных задач. Его экспертиза охватывает как фронтенд, так и бэкенд-разработку с акцентом на надежную архитектуру и интуитивно понятные интерфейсы.
В нашей студии Михаил поделится своим опытом использования нейросетей в программировании: как они помогают автоматизировать задачи, генерировать код и оптимизировать рабочие процессы.
Смотрите трансляцию на YouTube-канале AI4Dev и задавайте вопросы в чате — ответим сразу после лекции в прямом эфире!
Михаил — разработчик ПО с сильной страстью к решению сложных задач. Его экспертиза охватывает как фронтенд, так и бэкенд-разработку с акцентом на надежную архитектуру и интуитивно понятные интерфейсы.
В нашей студии Михаил поделится своим опытом использования нейросетей в программировании: как они помогают автоматизировать задачи, генерировать код и оптимизировать рабочие процессы.
Смотрите трансляцию на YouTube-канале AI4Dev и задавайте вопросы в чате — ответим сразу после лекции в прямом эфире!
👍6
При принятии решения о развитии продукта важный процесс - User Interview . Вместо опроса реальных юзеров можно поговорить с LLM попросив ее выступить в роли специфического виртуального пользователя. Интересно, можно ли теперь применить User Interview с виртуальным юзером на этапе , когда продукт существует тоже виртуально, в головах разработчиков?
👍3
Forwarded from Denis Sexy IT 🤖
Как и обещал, собрал свой эксперимент с User Interview в виде GPT:
1. Описываете ей свой продукт — что он делает, какой идеальный профайл клиента
2. GPT сама генерирует профиль пользователя и уточняет подойдет ли вам этот профиль пользователя (можете подправить)
3. Дальше вы чатитесь будто бы с юзером вашего продукта – можете показывать скриншоты, описывать фичи и спрашивать что нравится и не нравится в продукте и тп
4. Profit
Как всегда, поддерживает все языки:
https://chatgpt.com/g/g-WsvyELC1L-user-interview-gpt
🔬
1. Описываете ей свой продукт — что он делает, какой идеальный профайл клиента
2. GPT сама генерирует профиль пользователя и уточняет подойдет ли вам этот профиль пользователя (можете подправить)
3. Дальше вы чатитесь будто бы с юзером вашего продукта – можете показывать скриншоты, описывать фичи и спрашивать что нравится и не нравится в продукте и тп
4. Profit
Как всегда, поддерживает все языки:
https://chatgpt.com/g/g-WsvyELC1L-user-interview-gpt
Please open Telegram to view this post
VIEW IN TELEGRAM
ChatGPT
ChatGPT - User Interview GPT
Sent your product description to it and follow the rest of the instructions
👍3
Президент и гендир Amazon Энди Джасси во вчерашнем посте рассказал о результатах внедрения ИИ-ассистента AmazonQ для решения задачи обновления корпоративных приложений до Java 17 .
• Раньше программистам компании требовалось на обновление 1 (одного!) приложения порядка 50 человеко-дней работы.
Теперь это занимает несколько человеко-часов.
• С учетом огромного числа используемых компанией приложений, экономия составила 4500 человеко-лет (!) работы программистов.

Andy Jassy
Andy Jassy является участником Influencer
One of the most tedious (but critical tasks) for software development teams is updating foundational software. It’s not new feature work, and it doesn’t feel like you’re moving the experience forward. As a result, this work is either dreaded or put off for more exciting work—or both.
Amazon Q, our GenAI assistant for software development, is trying to bring some light to this heaviness. We have a new code transformation capability, and here’s what we found when we integrated it into our internal systems and applied it to our needed Java upgrades:
- The average time to upgrade an application to Java 17 plummeted from what’s typically 50 developer-days to just a few hours. We estimate this has saved us the equivalent of 4,500 developer-years of work (yes, that number is crazy but, real).
- In under six months, we've been able to upgrade more than 50% of our production Java systems to modernized Java versions at a fraction of the usual time and effort. And, our developers shipped 79% of the auto-generated code reviews without any additional changes.
- The benefits go beyond how much effort we’ve saved developers. The upgrades have enhanced security and reduced infrastructure costs, providing an estimated $260M in annualized efficiency gains.
This is a great example of how large-scale enterprises can gain significant efficiencies in foundational software hygiene work by leveraging Amazon Q. It’s been a game changer for us, and not only do our Amazon teams plan to use this transformation capability more, but our Q team plans to add more transformations for developers to leverage
• Раньше программистам компании требовалось на обновление 1 (одного!) приложения порядка 50 человеко-дней работы.
Теперь это занимает несколько человеко-часов.
• С учетом огромного числа используемых компанией приложений, экономия составила 4500 человеко-лет (!) работы программистов.

Andy Jassy
Andy Jassy является участником Influencer
One of the most tedious (but critical tasks) for software development teams is updating foundational software. It’s not new feature work, and it doesn’t feel like you’re moving the experience forward. As a result, this work is either dreaded or put off for more exciting work—or both.
Amazon Q, our GenAI assistant for software development, is trying to bring some light to this heaviness. We have a new code transformation capability, and here’s what we found when we integrated it into our internal systems and applied it to our needed Java upgrades:
- The average time to upgrade an application to Java 17 plummeted from what’s typically 50 developer-days to just a few hours. We estimate this has saved us the equivalent of 4,500 developer-years of work (yes, that number is crazy but, real).
- In under six months, we've been able to upgrade more than 50% of our production Java systems to modernized Java versions at a fraction of the usual time and effort. And, our developers shipped 79% of the auto-generated code reviews without any additional changes.
- The benefits go beyond how much effort we’ve saved developers. The upgrades have enhanced security and reduced infrastructure costs, providing an estimated $260M in annualized efficiency gains.
This is a great example of how large-scale enterprises can gain significant efficiencies in foundational software hygiene work by leveraging Amazon Q. It’s been a game changer for us, and not only do our Amazon teams plan to use this transformation capability more, but our Q team plans to add more transformations for developers to leverage
🔥9
28 августа в 12:00 Кирилл Серов, технический директор компании PIX Robotics, расскажет о том, как искусственный интеллект поменял автоматизацию бизнес-процессов.
На лекции обсудим:
🔸 как встроить процесс внедрения ИИ в разработку IT-продукта;
▪️ проблемы и возможности применения ИИ в автоматизации деятельности пользователей;
🔸 как создать дополнительную ценность продукта при помощи ИИ;
▪️ ограничения и преимущества использования Open Source LLM;
🔸 кейсы реализации.
Смотрите трансляцию на YouTube-канале AI4Dev и задавайте вопросы в чате — ответим сразу после лекции в прямом эфире!
На лекции обсудим:
Смотрите трансляцию на YouTube-канале AI4Dev и задавайте вопросы в чате — ответим сразу после лекции в прямом эфире!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥2
Андрей Карпаты (один из ведущих мировых разработчиков из мира нейросетей - основатель Open AI, Head of AI Tesla и т.д.) в январе 2023го написал в своих соц. сетях: "The hottest new programming language is English / Самый популярный новый язык программирования – английский"! Этот пост до сих пор висит у него в закреплённых.
А вот его пост три дня назад:
«Программирование меняется так быстро... Я пробую VS Code Cursor + Sonnet 3.5 вместо GitHub Copilot, и Cursor побеждает. За последние несколько дней большая часть моего «программирования» была на английском (промптинг, а затем просмотр и редактирование сгенерированного кода) и «полукодирования», когда вы пишете первый фрагмент кода, который вам нужен, может быть, немного комментируете его, чтобы LLM поняла задумку, а затем tab-tab-tab - автодополнение. И вот готов 100-строчный кусок кода который корректно работает, на что раньше уходило не меньше 10 минут.
Я все еще не привык к этому новому подходу. Я как будто заново учусь программировать, но я уже не могу себе представить, что вернусь к классическому «самостоятельному» программированию, что было единственной возможностью всего три года назад.»
Кстати, курс по prompt engineering от Anthropics можно найти здесь
А вот его пост три дня назад:
«Программирование меняется так быстро... Я пробую VS Code Cursor + Sonnet 3.5 вместо GitHub Copilot, и Cursor побеждает. За последние несколько дней большая часть моего «программирования» была на английском (промптинг, а затем просмотр и редактирование сгенерированного кода) и «полукодирования», когда вы пишете первый фрагмент кода, который вам нужен, может быть, немного комментируете его, чтобы LLM поняла задумку, а затем tab-tab-tab - автодополнение. И вот готов 100-строчный кусок кода который корректно работает, на что раньше уходило не меньше 10 минут.
Я все еще не привык к этому новому подходу. Я как будто заново учусь программировать, но я уже не могу себе представить, что вернусь к классическому «самостоятельному» программированию, что было единственной возможностью всего три года назад.»
Кстати, курс по prompt engineering от Anthropics можно найти здесь
👍4❤1
Перевели статью об автоматизации Code Review с LLM. В большой продуктовой компании LLM автоматически проверяет общие требования для каждого pull request - заголовки, описания, покрытие тестами, стили.
Полный лонгрид (на 7 мин) о том как это работает на Хабре.
Полный лонгрид (на 7 мин) о том как это работает на Хабре.
👍7
Компания Magic (работает над вычислениями с длинным контекстом для создания безопасного AGI в области кода) представила модель LTM-2-Mini (LTM - Long-Term Memory) с контекстным окном 100 миллионов токенов, это 10 миллионов строчек кода. По словам разработчиков, модель имеет большой потенциал для применения в разработке ПО. Например, для синтеза кода. Модели можно передать в контексте весь массив данных проекта: и уже готовый код, и документацию и библиотеки.
Кроме размера, Magic используют принципиально новый подход для оценки эффективности и обучения модели - HashHop. Вместо классической «иголки в стоге сена» - в большой текст (контекст) добавляют случайный факт («иглу») и просят модель найти его, в Magic настраивают модель на поиск пар случайных хешей или даже цепочек последовательностей хешей (Лайкните если интересно - сделаем статью, как это работает). В итоге (по утверждению Magic) модель способна к более сложным рассуждениям и удерживанию внимания в нескольких точках контекста по сравнению с традиционными моделями.
Magic заявляют, что получили $465 млн инвестиций и партнерство с Google Cloud и NVIDA. Не исключено, что учебники по RAG скоро можно будет сдать в макулатуру (такую цифровую макулатуру, где устаревшие PDF перерабатывают в байты для новых знаний). Ваш проект поместится в 10 млн. строчек кода?
Кроме размера, Magic используют принципиально новый подход для оценки эффективности и обучения модели - HashHop. Вместо классической «иголки в стоге сена» - в большой текст (контекст) добавляют случайный факт («иглу») и просят модель найти его, в Magic настраивают модель на поиск пар случайных хешей или даже цепочек последовательностей хешей (Лайкните если интересно - сделаем статью, как это работает). В итоге (по утверждению Magic) модель способна к более сложным рассуждениям и удерживанию внимания в нескольких точках контекста по сравнению с традиционными моделями.
Magic заявляют, что получили $465 млн инвестиций и партнерство с Google Cloud и NVIDA. Не исключено, что учебники по RAG скоро можно будет сдать в макулатуру (такую цифровую макулатуру, где устаревшие PDF перерабатывают в байты для новых знаний). Ваш проект поместится в 10 млн. строчек кода?
❤8🔥1
YouTube
Токенизация данных: зачем и как?
29 августа в 12:00 по МСК Владимир Крылов, доктор технических наук и научный консультант по применению ИИ в разработке ПО, рассказал о важной ступени конвейера обработки данных в генеративных предобученных трансформерных моделях – преобразования последовательности…
"Токенизация данных: зачем и как" — новая лекция доктора технических наук Владимира Крылова на нашем YouTube-канале. Есть и в виде подкаста.
Из лекции вы узнаете:
▪️ что такое токены и как работает токенизатор;
▪️ почему входной поток данных трансформера перед эмбеддингом представляют токенами, а не символами или словами;
▪️ как конструируются токены в больших мультимодальных моделях, работающих с изображениями и аудиопотоками.
Вы всегда можете задать вопрос в комментариях!
Из лекции вы узнаете:
Вы всегда можете задать вопрос в комментариях!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9
YouTube
Зачем нужен MLOps в вашем проекте?
30 августа в 12:00 по МСК Михаил Коротеев, заведующий кафедрой искусственного интеллекта в Финансовом университете при правительстве РФ, рассказал о роли MLOps в ИИ-проектах.
Из лекции узнаете:
- почему DevOps не работает в ИИ-проектах;
- три главных…
Из лекции узнаете:
- почему DevOps не работает в ИИ-проектах;
- три главных…
Михаил Коротеев, заведующий кафедрой искусственного интеллекта в Финансовом университете при правительстве РФ, рассказал о роли MLOps в ИИ-проектах.
В лекции:
▪️ почему DevOps не работает в ИИ-проектах;
▪️ три главных аспекта ML-инженерии;
▪️ жизненный цикл ИИ-проектов;
▪️ модели интеграции ИИ с прикладными приложениями;
▪️ модель зрелости ML-инфраструктуры.
Если неудобно смотреть, включайте наш подкаст!
В лекции:
Если неудобно смотреть, включайте наш подкаст!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
Разобрал в небольшой статье на Habr как работает HashHop (бенчмарк для тренировки внимания LLM на всю информацию в контекстном окне, альтернатива «иголки в стоге сена»). При более внимательном рассмотрении анонс Magic.dev про их модель на 100 млн. токенов (был пост на прошлой неделе), увы, звучит не очень убедительно, но буду рад, если я ошибаюсь.
Хабр
Новый метод оценки HashHop вместо «иголка в стоге сена», RULER и 100 млн. токенов контекста
Посмотрим на анонс LLM с новым алгоритмом внимания, в контекстное окно которой можно поместить проект по разработке ПО целиком с библиотеками и документацией. Обсудим почему пока...
👍3