Интересное что-то
517 subscribers
2.71K photos
252 videos
138 files
4.51K links
Материалы и мысли, понадерганные отовсюду
Блог: https://t.iss.one/asisakov_channel
Чат: https://t.iss.one/youknowds_chat
Download Telegram
⚡️Бум MCP!

Я немного отвлекся и зазевался, а тут MCP развивается семимильными шагами. Теперь LLM все больше и больше могут взаимодействовать со сторонними сервисами!

Зацените подборку существующих решений https://mcpmarket.com/server и обратите внимание на количество звезд! Звезды - это оценки пользователей на Гитхабе. Чем больше звезд, тем популярнее и круче решение.

Пока копался в этой подборке, в голове вспыхнула куча идей, что с чем можно поженить.

Вообще, я углубился в тему MCP, т.к. возникла очередная острая потребность в фиксации задач. Ну реально надоело, что часть их них пропадает и заветривается.

Сейчас я настроил связку Клод-Asana (трекер задач и сервис для совместной работы). Все заводится без шаманств, т.к. у Клода уже преднастроена интеграция. Теперь Клод за меня управляет задачами: ставит их, дополняет, перемещает по доске. Посмотрим, насколько по факту это окажется рабочей связкой. Может быть придется вытащить Асану в телеграм, чтобы голосовыми кидать задачи без всяких впн.

В ходе ресёча встретил следующие популярные решения, которые попроще Асаны: todoist.com , ticktick.com , weeek.net (РФ) - но интеграция напрямую с Клодом у них отсутствует, надо или свое поднимать, либо на Асане останавливаться.

Делитесь, кто как РЕАЛЬНО облегчает жизнь с MCP!
Please open Telegram to view this post
VIEW IN TELEGRAM
Давно хотел поделиться тем, что происходит под капотом LLM Platform, которую мы строим внутри ТБанка.
Пост на грани NDA.

В какой-то момент мы осознали, что без цельного платформенного слоя любые инициативы с GenAI будут буксовать. На схеме — как раз тот каркас, который у нас сложился и который мы продолжаем развивать.
И если ещё год назад мы спорили об отдельных «кубиках», то сегодня то, что мы строим, — де-факто канонический GenAI-стек. (вот тут ещё интересная статья)

Из чего он состоит на высоком уровне:

LLM API Gateway — единая точка доступа до внутренних (qwen?) и внешних (deepseek?) моделей,
RAG Platform — конвейер для превращения любых данных в пайплайн Retrieval-Augmented Generation,
Observability Platform — прозрачность всех LLM-процессов в реальном времени,
Orchestration & automation — набор инструментов построения произвольных GenAI-пайплайнов с минимум кода,
LLM Sec — модули безопасности, политик и аудирования,
Assistant Runtime Platform — среда выполнения произвольных AI-ассистентов.

И если LLM Gateway — это нифига себе высоконагруженный модуль, на базе которого построены как внутренние, так и внешние продукты, то вот как конкретно построить единый Tools Registry, мы всё ещё размышляем и экспериментируем.
Forwarded from Nikita
Привет! Я накидал библиотеку архитектурных компонентов для Excalidraw, которых мне всегда не хватало. Делюсь, и буду рад обратной связи

https://github.com/DeKinci/sysdeslib
Forwarded from DeepSchool
VLM для детекции объектов на изображении

У традиционных детекторов есть серьёзное ограничение: набор классов определён обучающей выборкой (Closed-set Object Detection). В попытках обойти его, создали новый класс детекторов, Open Vocabulary Object Detection (OVOD), для детекции произвольных объектов. В новой статье мы привели обзор таких OVOD-моделей, основанных на Vision Language Model (VLM).

Из статьи вы узнаете:
- какие есть подходы для применения VLM к задаче Object Detection
- какие результаты сравнения моделей на бенчмарках для Closed-Set и Open Vocabulary детекций
- почему идеи CLIP всё ещё актуальны

Читайте новую статью по ссылке!
Приветствую, дорогие друзья! 👋

Давно у нас с вами не было рубрики полезностей для вопрошающих, #какворватьсяваналитику .
Их, как и всегда, есть у меня!
В связи с чем, рада поделиться своими недавними изысканиями:

- весьма любопытный ресурс с весьма понятным и незатейливым интерфейсом (а то иногда без бутылки не разберешься)

Что понравилось?
Да все.

Тут и Python,
и прикладные задачи анализа данных, и даже машинное обучение от небезызвестного Евгения Соколова.

Словом, категорически агитирую вас к ознакомлению!

Еще из интересного - наткнулась на вот такой подробный разбор решения задачки про нахождение паттернов трафика на одном из самых высоконагруженных шоссе в США. Туториал очень годный, так что рекомендую к просмотру.

На сим откланиваюсь и прошу вас стряхнуть пыль со своих резюме. Новый сезон #прожарки резюме стартует уже совсем скоро!
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Concise Research (Sergey Kastryulin)
Step1X-Edit: A Practical Framework for General Image Editing
[моделька + код, отдельно GEdit бенч]

Недавние обновления моделей GPT-4o и Gemini привнесли функциональность редактирования изображений на основе пользовательских инстрактов. В академической среде тоже выпускали подобные модели (AnyEdit, OmniEdit), но они по качеству отстают от проприетарных.

Авторы этой работы стремятся уменьшить разрыв между академией и индустрией, предлагая полный набор необходимых компонентов: модель, схему сбора данных, методику замера.

Данные
Проблема задачи редактирования в том что это не одна задача, а несколько. Из-за этого первым делом нужно провести категоризацию всех задач и только потом приступить к сбору данных.

Авторы выделили 11 категорий на основе парсинга интернета. У них получилось, что наиболее частые запросы: добавление, удаление, замена и перемещение объектов, а также всяческие стилизации.

Далее для каждой категории генерится синтетика на основе некоторых исходных картинок и инстрактов, которые получаются хитрым многостадийным промторгом VLM’ки. Для каждой категории пайплайн генерации свой и включает несколько моделей. Например, задачи удаления и добавления объекта сводятся к инпейнтингу, поэтому пайплайн состоит из сегментации SAM2 и инпейнта Flux-Fill.

К сожалению, сам датасет не выложили, только код его подготовки.

Модель
Подход авторов очень похож на вышедший на днях Qwen-Image (подробный разбор в КПД): замороженный Qwen-VL в качестве энкодера + трансформерный денойзер. Основная разница в архитектуре: тут DiT против MMDiT в Qwen-Image. Интересно, что в других работах, например Nexus-Gen (разбор) VLM размораживают и как эффективнее пока не ясно.

Замеры
Для замера собирают и фильтруют промты по всем 11 категориям, отбирают 606 лучших, балансируют категории на свое усмотрение, проводят анонимизацию лиц. Из спорного — большое количество промтов на модификацию текста + использование китайского нужно не всем 🌚

Результаты
Уверенно обходят AnyEdit и OmniEdit, приближаются к проприетарным моделям, причем не только на своем, но и на ImgEdit-Full + Complex-Edit бенчмарках. Мне не хватило сравнения с BAGEL, Nexus-Gen и другими вышедшими в последнее время мультимодалками. Скорее всего, авторы из не рассматривали просто потому что учили editing-only модель и считают такое сравнение не совсем честным.
Forwarded from Onigiri
Какими нейросетями я пользуюсь?

Начну с моделей от OpenAI:

gpt-4o - в основном для простых общих вопросов

gpt-4.5 - одна из лучших моделей в для написания красивого текста и переводов на другие языки. 14 июля ее закроют 😒
Говорят, что gemeni 2.5 pro такая же в написании текстов, а может и лучше, но я ей пока не пользовался

gpt-4.1 - использую больше для несложных технических вопросов

o3 - для сложных вопросов. Например, для решения математических задач, для продумывания архитектуры кода, для улучшения и переписывания кода, где я сам не знаю, как это сделать

o4-mini-high - сначала не обращал внимания на эту модель, но в последнее время все чаще использую вместо o3. Работает быстрее, на некоторые вопросы отвечает лучше, но не всегда. Поэтому можно один вопрос отправлять сразу и в o3, и в o4-mini-high, так еще лучше

Картинки:

gpt-image-1
- заменила для меня почти все другие генераторы картинок. Вроде как это и есть gpt-4o, которая благодаря своей мультимодальности делает изображения, но часто ее называют отдельной моделью. Это та, которая генерирует картинки в chatgpt. Но через chatgpt она генерирует их часто по 1 штуке и в неверном соотношении сторон. Гораздо удобнее ей пользоваться через их же отдельный сайт sora.com

Раньше еще пользовался Midjourney и локальным Stable Diffusion, но с появлением gpt-image-1 использую почти только его. Хотя иногда еще пользуюсь:

Photoshop - по текущим меркам встроенная модель уже так себе, но зато ей можно быстро и удобно что-то поправить

Illustartor - да, в нем тоже есть генерация картинок, да еще и векторных, что иногда бывает нужно

Вайбкодинг:

Github copilot - большую часть кода пишет за меня. Начал пользоваться им еще с бета версии и остался на нем. Еще из популярных существуют Cursor и Windsurf, у них даже многие фичи появляются раньше, но в целом, сейчас они довольно похожи.
В самом копайлоте обычно использую claude-4 - это наверно самая оптимальная на данный момент модель для кода. Реже использую gpt-4.1 для простых задач

А какими вы пользуетесь?
Please open Telegram to view this post
VIEW IN TELEGRAM
Почему технологический moat больше не работает, и что такое Levered Beta 🌊

🤝 Недавно общались с бизнес-ангелом, и он спросил, какой у нас в Aesty moat. Я, конечно, начала рассказывать про технологию и наш движок, на что он ответил:
- Нет, погоди. В технологический moat я больше не верю. Что у вас есть еще?

Тогда я быстро переключилась и рассказала ему про другие аспекты: данные, партнерства и понятный путь к быстрому acquisition-циклу. Но все равно ощущение, что мой ответ получился слегка разобранным и я почувствовала, что чего-то не хватает 👎

Недавно @bogdanisssimo скинул мне статью Levered beta is all you need, которая хорошо структурировала мои мысли. Делюсь с вами 😎

Раньше стартапы охотились за так называемым Alpha. Но сейчас куда важнее Levered Beta 😐

Откуда вообще эти термины - Alpha, Beta и Levered Beta?

📍 Alpha - это твое уникальное преимущество за счет инсайта, технологии, опыта или патентов. Alpha — это как раз тот самый moat, о котором мы привыкли говорить в стартапах. Это то, что пытается построить каждый основатель, когда пишет в деке слово revolutionizing 🧠

📍 Beta - это просто корреляция с рынком. Если рынок вырос на 10%, твой портфель с beta=1 тоже вырос на 10%. Никакого уникального вклада, но ты все равно едешь на волне 🤵

📍 Levered Beta - это beta на стероидах. Ты не просто следуешь за рынком, а делаешь агрессивную ставку, занимая категорию первым. Если рынок растет на 10%, твоя ставка на 50%, потому что ты раньше и "громче" всех оседлал волну. Правда, и падать ты будешь так же быстро, но это проблема для future you 🤭


В стартапах вокруг AI это особенно видно. Бигтех каждые 6–9 месяцев выкатывает новую модель, которая автоматически улучшает твой продукт. GPT-4.1 за полгода стала на 26% дешевле и быстрее. Твой дорогой технологический moat легко обесценивается за один релиз openai (😎всем кто смотрел недавнюю трансляцию привет)

🙂 как пример - стартапы в AI sales. Они часто пишут ужасные имейлы, churn огромный, UX слабый. И тем не менее, они подняли десятки миллионов долларов и сделали миллионы выручки просто потому, что заняли категорию раньше и "громче" остальных. Это и есть Levered Beta в действии, они выигрывают не потому, что лучше, а потому что первыми встали на волну 🏄

Используя Levered Beta:

1️⃣ Ты бесплатно получаешь прирост качества от больших платформ
OpenAI и Google постоянно обновляют модели, твой продукт улучшается сам собой

2️⃣ Большие игроки сами валидируют рынок
Если раньше никто не понимал, зачем нужен AI-гардероб, то теперь Google и Snapchat уже научили рынок, и тебе остается просто предложить более персонализированное решение. Как раз чуть выше есть пост про это

3️⃣ Твой бренд становится moat-ом вместо технологии
Когда технология выравнивается, выигрывает тот, кто раньше занял место в голове пользователя. Тут, кстати, сразу вспоминается Cursor


Получается теперь в стартапах главное не первым собрать продукт, а первым залить его на Product Hunt с заголовком 'We're disrupting disruption' 😁

@neural_prosecco
Please open Telegram to view this post
VIEW IN TELEGRAM
Scaling LLM training to hundreds of GPUs: a playbook from HuggingFace research.

Available as a book for pro subscription users at https://huggingface.co/nanotron, or for free (less formatted, not polished visuals) https://huggingface.co/spaces/nanotron/ultrascale-playbook/resolve/main/The_Ultra-Scale_Playbook_Training_LLMs_on_GPU_Clusters.pdf