Интересное что-то
525 subscribers
2.72K photos
253 videos
140 files
4.54K links
Материалы и мысли, понадерганные отовсюду
Блог: https://t.iss.one/asisakov_channel
Чат: https://t.iss.one/youknowds_chat
Download Telegram
Forwarded from max.sh
🔷Лекции от топовых лаб про агентные мультимодальные системы

Все видео и слайды в свободном доступе, можно найти здесь.

У университета Берлки недавно завершилась лекционная часть весеннего MOOC курса про LLM агентов (сейчас в самом разгаре онлайн хакатон с разными треками).

Назвать это полноценным курсом сложно. Скорее набор независимых лекций от разных исследовательских групп (как университетов, так и больших компаний типа DeepMind, Meta) про рисерч, которым они занимаются. Контент адаптирован под более-менее широкую аудиторию с крутыми слайдами и интересными спикерами. Лучше всего воспринимать каждую лекцию, как литературный обзор одной конкретной темы.

Сам посмотрел несколько лекций на интересные для себя темы и остался доволен:

⚫️Multimodal Autonomous AI Agents от CMU, по большом счету экскурс в последние работы про веб-агентов

⚫️Abstraction and Discovery with Large Language Model Agents от UT Austin, тут про AlphaProof и системы для построения формальных математических доказательств - может быть полезно тем, кто копается в AlphaEvolve


У курса, кстати, две части. Прошлогодний запуск можно найти тут.

Happy Learning!

#образование

@max_dot_sh
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from max.sh
❤️ Вайбкодим сайт-портфолио

Заголовок кликбейтный да и слово "вайбкодинг" не люблю, но все так и есть. Собрал лендинг для портфолио, написав 5-6 строк на TypeScript. В остальном наблюдал, что делает AI и корректировал.

Давно хотел попробовать lovable.dev, продукт шведского early stage стартапа. Команда делает платформу, где в пару кликов можно собрать web-приложение с фронтендом, бэкендом, интеграциями с бд (по крайней мере так команда продает себя) и все задеплоить. Подумал, что хорошая возможность сделать себе сайт-визитку и посмотреть, как их сервис работает на практике.

🔘Результат - maxsh.live. Статический сайт на react с базовыми анимациями и cсылками на разные профили в соц сетях.
🔘Цена - 5$ (за домен на год), сама разработка - бесплатно (детали ниже)
🔘Время - 1 час 15 минут, четверть ушла на деплой.

📌Процесс создания

1️⃣Создал бесплатный аккаунт на lovable.dev, дал доступ к своему гитхабу. В бесплатной подписке дается всего 5 кредитов в день на их сервис. Не густо. А платить 25$ не хочется.

2️⃣По максимум запихнул в первый кредит все ожидания от сайта. Закинул картинку своего блога в тг, дал инструкций:
* I'm looking to create a portfolio website inspired by the logo of my personal blog (attached in the image)

* The site should have a visually appealing design.

* The "max.sh" panel should feature a 3D hover effect, allowing it to move interactively when hovered over.
...

3️⃣Он сверстал сразу в целом неплохой вариант. 80% работы было сделано. Остались те самые 20%, где нужно подкрутить пару деталей в каждом блоке, уточняя, как именно все расположить. К слову, в платформу встроен удобный редактор: можно выделить конкретную секцию, div, и описать что именно с ней сделать.

4️⃣Кредиты моментально закончились. Я синхронизировал промежуточный результат с гитхабом. Далее склонировал репозиторий локально. Открыл Windsurf Editor (это примерно как Cursor. Свой редактор, fork vscode-а, в который встроен UI для взаимодействия с агентом). У Windsurf-а за бесплатно можно получить адекватные лимиты на Claude 3.7. Чем я и воспользовался.

5️⃣До-вайбкодил локально вместе с Windsurf-ом. Где-то агент упорно отказывался делать простую вещь, пришлось открыть скрипт самому и по старой доброй традиции зарешать вместе с stackoverflow. Вышло 6 строк. Локально сайт был готов. Осталось задеплоить.

6️⃣Через lovable.dev доступен автодеплой с помощью Netlify (площадка для деплоя react-приложений). Но только в платной подписке. Извините, но я и сам могу так. Бесплатно.

7️⃣Создал аккаунт на Netlify. Купил через них доменное имя для сайта. Дал доступ на чтение в репозиторий проекта на гитхатбе, нажал автодеплой

8️⃣Ждем пока обновятся DNS записи для домена и подцепится сертификат. Все готово.

9️⃣Теперь можно в таком же режиме вайбкодить остальные секции страницы. Чем и займусь. Когда-нибудь.

📌Итоги и впечатления

🔘вся ценность lovable.dev в том, что с пары запросов дает визуально удовлетворительное первое впечатление от сайта. Скорее всего это достигается за счет тулзов у их агента, адаптированных под шаблоны реакта. Другой плюс, то что есть визуальный редактор, где можно выделить конкретный элемент, который хочется пофиксить. Для прикола попробовал с нуля сделать все тоже самое через windsurf редактор, но получил кривую версию, которую бы редактировал вайбкодом точно еще несколько часов.
🔘Цена в 25$ за подписку, где есть 100 кредитов на месяц, возможность создавать приватные проекты и автодеплоить - сомнительно. Платить не готов, учитывая что все равно тут и там нужно дошлифовывать.
🔘Что lovable.dev, что агенты общего назначения для кодинга типа windusrf все еще с трудом делают сложную логику. Например, я хотел на бэкраунд себе красивую матрицу из мерцающих огоньков (типа как тут). Но 4 попытки не увенчались успехом, становилось только хуже. В конечном итоге Claude 3.7 сам себя сломал. Вмешательство и фиксы нужны регулярно.

Накидайте 🔥❤️ если откликается такой тип контента в канале в стиле DIY, и рады были бы почитать в будущем еще 😃

И делитесь в комментариях своими поделками ☺️

#проекты

@max_dot_sh
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from max.sh
🔊 Chatterbox TTS —Yet Another Opensource TTS SoTA

Компания resemble.ai выложили в опенсоурс Chatterbox TTS. 0.5B модель на основе LLama3 backbone, обучена на 0.5M часов чистых данных. Данные высокого качества и разной природы. Модель поддерживает контроль экспрессивности синтеза через гипер-параметры (выкручивание exaggeration приводит к ускорению речи, понижение — к большей драме).

Репортят latency в 200ms, что делает модель довольно удобной для интерактивных голосовых приложений, real time ассистентов.

Наконец, пишут, что модель - SoTA. За бейзлайн берут решение от 11Labs и сообщают, что в side-by-side Chatterbox TTS strongly preffered. К слову, впервые вижу, что честно выкладывают все детали evaluation репорта и дают на него ссылку. A/B Тест слишком скромный (больше выглядит как черри пик честно), по 8 сэмплов на систему. В тесте просят асессоров оценить zero-shot сэмплы длиной от 7 до 20 секунд на предмет Naturalness и общего качества.

Попробовал в Gradio на HF. Нравится, что хорошо берет дыхание и паузы. Клонирование тембра с дефолтными настройками на моем голосе не очень. Скорее сказал бы, что это плохой voice clone. У Llasa-3B из опенсоурсных гораздо лучше. На реддите пишут, что при некоторых значениях параметров модель сходит с ума.

Cводка:

🔘Лицензия - MIT
🔘GitHub - тут
🔘Веса - тут
🔘Онлайн Демо поиграться самому - тут
🔘Реддит тред с мнениями по модели - тут
🔘Языки - пока только английский, обещают добавить файн-тюн для других языков в скором времени

@max_dot_sh
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from max.sh
Модель с контекстом 100M токенов от стартапа Magic 🔮

Сегодня новых историй от подписчиков про собесы нет (а форма есть здесь), поэтому рассказываю историю сам.

Речь ппойдет про стартап magic.dev. По описанию стартап занимается:
frontier code models to automate software engineering and research

Cтартапов с таким описанием наберется куча. А вот то, что за вторую половину 2024 года, компания в двадцать с лишним человек подняла примерно полмиллиарда долларов инвестиций (цифры немного разнятся, но источники TechCrunch и блог самой компании) от разных инвесторов и фондов (среди них и Nvidia, и Google) — это интересно.

Наверное, ребята делают что-то большое и прорывное. И судя по блогу компании — это действительно так. В сентябре прошлого года анонсировали, что обучили первую модель с длиной контекста 100M токенов (почитать немного подробностей можно тут, но если коротко то используют reasoning над хэшами).

В демо делают упор на способность модели без дополнительных инструментов, RAG-ов и прочего агентного скаффолдинга (что это, разбираю тут), только за счет того, что в контекст подается весь исходный код GUI фрэймворка, написать интерфейс для... калькулятора.

Пример не сложный, но демонстрация, что модель "на лету" может выучить фреймворк на сотни тысяч строк и строго использовать знания о нем в существующей кодовой базе впечатляет.

И вот после этого анонса следует новость — magic.dev коллаборируется с Google Cloud, чтобы построить мегакластер на кучу тысяч H100 GPU, чтобы обучать вторую итерацию моделей.

Дальше новостей вроде как нет. Тишина.

Но на самом деле они очень активно нанимают. Недавно со мной связывался рекрутер. Предлагают разнообразные роли: от рисерчера до performance инженера на оптимизацию CUDA kernel-ов. Помогают с релокацией в Штаты (SF, New York). Так как мне сейчас географию менять не хочется, то я отказался. А вот мой хороший коллега, с огромным опытом в оптимизации моделей и 14 годами опыта с железом (участвовал в разработке чипов Inferentia 1 и 2 для AWS) решил, что это может быть новым вызовом. И начал процесс.

Ниже то, что я запомнил из его рассказа про интервью:

🔘 Нанимают на роль Software Engineer - Supercomputing Platform & Infrastructure - короче говоря скейлить и учить модели на огромных кластерах
🔘Техчническое интервью с бывшим лидом из OpenAI. Весь разговор был построен вокруг темы параллелизации вычислений: почему FSDP плох, в чем tensor parallelism имеет недостатки, как реализовывать Pipeline Parallelism. По отзыву, довольно глубокая беседа о том, что важно на практике.
🔘Home work assignment. Дали доступ к своей кодовой базе и кластеру на несколько GPU. В коде намеренно оставили разные несовершенства: от неэффективностей в использовании торча до выбора неэффективных кернелов. Так как пишут свои кастомные кернелы, то дали доступ еще и к своей библиотеке, где были спрятаны самые большие боттлнеки. Коллега говорит, что словил чистый кайф от домашки и не заметил, как потратил на ее решение 30 часов (то есть буквально решал всю неделю, бесплатно).
🔘Виртуальный онсайт с разбором домашки. Так же к онсайту просили сделать разбор актуальных работ по теме long context и подготовить презентацию.
🔘Дальше, судя по рассказу, вроде бы были готовы двинуться к офферу. Но как говорит коллега, предложили не очень убедительный total comp, и если бы он переезжал из Лондона в Сиэттл с Амазоном по внутреннему трансферу, то было бы выгоднее. Укажу, что в вакансии пишут, что вилка на такого инженера $100K - $550K и сверху equity.

Такая пятничная история. От меня следующие мысли:

1) Про параллелизм и скелйинг моделей можно хорошо послушать в свежем курсе по LLM от Стэнфорда в лекции тут

2) Компания мне кажется мутной. Cмотрю на фаундеров и не доверяю им. Но кто я такой, чтобы судить, если вливают столько денег, может что-то там и есть.

3) Очень нравится, как устроен найм в стартапы: глубокие технические разговоры, домашки, через которые можно прокачать свои навыки. Еще одна мотивация для меня дописать лонгрид про Детали интервью в стартапы и почему стоит идти в них поработать 🔥

@max_dot_sh
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from max.sh
🧑‍💻 Mistral Code - AI-powered coding assistant

Блогпост

Пару недель назад Mistral выложили в опенсоурс модель Devstral адаптированную под кодинг агентов (писал тут), а сегодня анонсируют ассистента.

Выглядит это как расширение, которое можно добавить в VSCode или JetBrains IDE. Пока что private beta, поэтому самим потрогать нельзя.

Само расширение разработано на основе опен-соурсного проекта Continue и представляет собой UI, в котором можно общаться с AI агентом и просить его что-то закодить за вас. Поддерживается чат, поиск по коду, и много других полезных tools для агентов.

В общем-то ничего нового. Тот же Cursor или Windsurf.

Но. Выпуск Mistral Code является финальным кусочком в мозаике инструментов для coding ассисентов от Мистраля. Теперь у них есть вся линейка — и свой copilot для автокомплита Сodestral, и эмбеддинг модель для rag-ов и семантических поисков Codestral Embed, и модель для кодинга Devstral, ну и наконец UI, чтобы все это подружить и сделать самого ассистента — Mistral Code.

Все инструменты от одного провайдера, да еще и опенсуорсные, так, что можно развернуть у себя в облаке, оn-prem, полностью на своем железе, без риска утечки чувствительных данных третьим лицам — то, как Mistral продает и позиционирует свои инструменты на рынке AI помощников для кода. И это действительно веский аргумент для крупных компаний, потому что они могут развернуть у себя всю необходимую инфру.

Mistral в анонсе пишут, что уже договорились с одним из Испанских банков, что те развернут в своем облаке всю инфраструктуру и позволят применять решение на приватных репозиториях своим разрабам.

Выглядит сильно. Подождем официального релиза. И больше новостей про кастомеров.

___

Если хочется разобраться как именно работают такие кодинг-ассистенты, то советую глянуть бесплатный мини-курс тут. Он про Windsurf, но ребята делятся и тем, какие сложности решали, как учили свою эмбеддинг модель, как делали кастомный RAG. Познавательно.


@max_dot_sh
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from max.sh
Как работает Cursor ?

В блоге Programmatic Engineer вышел классный технический разбор про начинку Курсора. Автора блога, вроде как, пообщался лично с техническим кофаундером стартапа Anysphere (оценка $10B) и расписал по частям интересные детали: от стека до скейла. Почитать тут.

В бесплатной версии доступна только половина статьи (а за фулл платить 10$ в месяц на подписку 🥲), но и в таком варианте полно интересных моментов. Читается легко, как будто старая добрая книга Alex Xu по System Design. Самое то, если у вас вдруг собес в подобную компанию AI кодогенерации.

Работает примерно так.

1️⃣Проект пользователя сначала индексируется. Это значит следующее.

🔘Во-первых, каждый файл разбивается на кусочки (чанки) кода небольшого размера. Чанки улетают на сервер, где запускается эмбеддер модель компании. Модель эмбеддит чанки в вектора для последующего векторного поиска. Курсор говорит, что не хранит код на своих серверах, только эмбеддинги (но кто знает, что там происходит, код то вы свой все равно уже отправили им свой код 🙂). Извлечение эмбеддингов - довольно ресурснозатратный процесс, поэтому компания держит кластер GPU для инференса (думаю, что это капля в море по сравнению с стоимостью инференса LLM-ов).

Чтобы не просрать слить свои ключи и другую чувстивтельную инфу, обязательно заполняйте .gitignore и .cursorignore, чтобы исключить какие-то ресурсы из индексации


🔘Во-вторых, курсор так же хранит структуру проекта пользователя в виде дерева. Конкретно используется Merkle Tree - дерево, где каждый лист - это хэш файла, а узлы - комбинация хэшей узлов-детей. Такое дерево хранится как локально, так и на серверах Курсора, и каждый раз, когда делается изменение в коде пользователя, локальные хэши сверяются с теми, что на сервере, и если есть различие, то они пересчитываются, а следовательно и обновляются некоторые эмбеддинги чанков.


2️⃣Теперь, когда индекс построен, можно пользоваться всеми фичами. Например, становится доступным чат с Курсором, где вы можете попросить курсор объяснить, как работает какая-то функция в вашем коде или попросить Курсор что-нибудь реализовать. В этом случае Курсор просканирует индекс, найдет релевантные ID чанков кода с помощью векторного поиска, заберет исходнй код чанков с вашего проекта, и пойдет в LLM просить рассуждать и генерировать план действий. Ну а дальше все это интерактивно будет отображаться в IDE. Курсор может ваш код и не хранит, а вот LLM-провайдеры – может быть.

3️⃣ Автокомплит, или tab-подсказки (это когда вы пишите комментарий или сигнатуру функции, а Курсор предлагает ее реализацию), работает чуть проще из-за чувствительности к latency. Здесь просто локальный контекст уходит в LLM и та генерирует автокомплит.

4️⃣ По стеку используется Turbopuffer для векторного хранилища эмбеддингов чанков и дерева файловой системы. Rust для высоконагруженной части на сервере, TypeScript для клиента IDE.

Другие цифры и детали можно найти в самом блоге. У автора еще выходит регулярно подкаст с техническими людьми так же на тему систем дизайна – рекомендую.

Happy Learning!

@max_dot_sh
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from max.sh
Опен Соурсный ответ Claude Code

Компания All Hands AI релизунла CLI инструмент для кодинга - OpenHands CLI.

Твит с релизом.

Поставить можно через pip install openhands-ai.

Функционал аналогичен Claude Code – агент может редактировать код, запускать команды, делать навигацию по файловой системе, ходить в веб, делать API вызовы, взаимодействовать с MCP серверами, работать в автономном режиме.

При желании можно развернуть свою LLM и подключить ее, а не провайдера.

Лицензия MIT. Все есть на гитхабе. Можно расширить под свои нужды как хочется.

Еще добавили микро гайд про Prompting Best Practises для кодинг агентов. Читать тут

TL;DR Нужно быть как можно конкретным и локальным в запросах к агенту, чтобы он ничего не додумывал. Хотите пофиксить баг – локализуйте файл и строчку кода, где возникает проблема или дайте указатель на функцию и опишите ожидаемое поведение:
Fix the TypeError in frontend/src/components/UserProfile.tsx occurring on line 42. The error suggests we’re trying to access a property of undefined.


В анонсе пишут, что Has top accuracy (similar to Claude Code). Буду тестировать в ближайшее время.

@max_dot_sh
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Dealer.AI
Как взять LLM за RAG'а.pptx
14 MB
+ Запись выступления.
👇👇👇👇
Forwarded from DLStories
Смотрите, что сделали в Стенфорде: STORM — утилита для генерации научных репортов на заданную тему (бесплатно)

Работает очень просто: вы задаете тему (например, "Challenges and open questions in the topic of Uncertainty Estimation"), STORM идет в интернет, находит статьи, код и другие ссылки с информацией по этой теме, и в итоге собирает все в один большой репорт. Репорт во многом похож на survey статью по этой теме, но в более свободном формате: скорее, как очень подробный и тщательно собранный репорт в Notion. Есть ссылки на все источники.

По сути, это такая обертка над LLM, которая позволяет без подбора просптов генерить достаточно точные, достоверные и обстоятельные обзоры. У STORM есть статья и код. В статье описывается, как строилась утилита и приводятся метрики. В частности, пишут, что при моделировании процесса сборки репорта фокусировались на следующих вещах:
- рассмотрение различных точек зрения при исследовании заданной темы (это вот про академию/индустрию и т.п.)
- моделирование бесед, в которых авторы, представляющие разные точки зрения, задают вопросы эксперту по заданной теме. Эксперт при этом основывается на надежных интернет-источниках
- отбор собранной информации для создания плана репорта.
Если нажать на кнопку "See BrainSTORMing Process", там как раз будет видно, что сборка итогового репорта основана на использовании LLM с разными промптами от лица разного типа юзеров (academic/ubdustry/etc).

Ссылки:
- попробовать STORM (он бесплатный. Ну, по крайней мере, пока что)
- статья
- код

P.S. Нашла STORM в посте из Твиттера, и там было написано "STORM writes research papers like a PhD". Но репорты по теме — это не любая PhD статья, так что с таким заявлением не соглашусь, имхо оно вводит в заблуждение