Интересное что-то
517 subscribers
2.72K photos
253 videos
138 files
4.51K links
Материалы и мысли, понадерганные отовсюду
Блог: https://t.iss.one/asisakov_channel
Чат: https://t.iss.one/youknowds_chat
Download Telegram
Forwarded from Nikita
Привет! Я накидал библиотеку архитектурных компонентов для Excalidraw, которых мне всегда не хватало. Делюсь, и буду рад обратной связи

https://github.com/DeKinci/sysdeslib
Forwarded from DeepSchool
VLM для детекции объектов на изображении

У традиционных детекторов есть серьёзное ограничение: набор классов определён обучающей выборкой (Closed-set Object Detection). В попытках обойти его, создали новый класс детекторов, Open Vocabulary Object Detection (OVOD), для детекции произвольных объектов. В новой статье мы привели обзор таких OVOD-моделей, основанных на Vision Language Model (VLM).

Из статьи вы узнаете:
- какие есть подходы для применения VLM к задаче Object Detection
- какие результаты сравнения моделей на бенчмарках для Closed-Set и Open Vocabulary детекций
- почему идеи CLIP всё ещё актуальны

Читайте новую статью по ссылке!
Приветствую, дорогие друзья! 👋

Давно у нас с вами не было рубрики полезностей для вопрошающих, #какворватьсяваналитику .
Их, как и всегда, есть у меня!
В связи с чем, рада поделиться своими недавними изысканиями:

- весьма любопытный ресурс с весьма понятным и незатейливым интерфейсом (а то иногда без бутылки не разберешься)

Что понравилось?
Да все.

Тут и Python,
и прикладные задачи анализа данных, и даже машинное обучение от небезызвестного Евгения Соколова.

Словом, категорически агитирую вас к ознакомлению!

Еще из интересного - наткнулась на вот такой подробный разбор решения задачки про нахождение паттернов трафика на одном из самых высоконагруженных шоссе в США. Туториал очень годный, так что рекомендую к просмотру.

На сим откланиваюсь и прошу вас стряхнуть пыль со своих резюме. Новый сезон #прожарки резюме стартует уже совсем скоро!
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Concise Research (Sergey Kastryulin)
Step1X-Edit: A Practical Framework for General Image Editing
[моделька + код, отдельно GEdit бенч]

Недавние обновления моделей GPT-4o и Gemini привнесли функциональность редактирования изображений на основе пользовательских инстрактов. В академической среде тоже выпускали подобные модели (AnyEdit, OmniEdit), но они по качеству отстают от проприетарных.

Авторы этой работы стремятся уменьшить разрыв между академией и индустрией, предлагая полный набор необходимых компонентов: модель, схему сбора данных, методику замера.

Данные
Проблема задачи редактирования в том что это не одна задача, а несколько. Из-за этого первым делом нужно провести категоризацию всех задач и только потом приступить к сбору данных.

Авторы выделили 11 категорий на основе парсинга интернета. У них получилось, что наиболее частые запросы: добавление, удаление, замена и перемещение объектов, а также всяческие стилизации.

Далее для каждой категории генерится синтетика на основе некоторых исходных картинок и инстрактов, которые получаются хитрым многостадийным промторгом VLM’ки. Для каждой категории пайплайн генерации свой и включает несколько моделей. Например, задачи удаления и добавления объекта сводятся к инпейнтингу, поэтому пайплайн состоит из сегментации SAM2 и инпейнта Flux-Fill.

К сожалению, сам датасет не выложили, только код его подготовки.

Модель
Подход авторов очень похож на вышедший на днях Qwen-Image (подробный разбор в КПД): замороженный Qwen-VL в качестве энкодера + трансформерный денойзер. Основная разница в архитектуре: тут DiT против MMDiT в Qwen-Image. Интересно, что в других работах, например Nexus-Gen (разбор) VLM размораживают и как эффективнее пока не ясно.

Замеры
Для замера собирают и фильтруют промты по всем 11 категориям, отбирают 606 лучших, балансируют категории на свое усмотрение, проводят анонимизацию лиц. Из спорного — большое количество промтов на модификацию текста + использование китайского нужно не всем 🌚

Результаты
Уверенно обходят AnyEdit и OmniEdit, приближаются к проприетарным моделям, причем не только на своем, но и на ImgEdit-Full + Complex-Edit бенчмарках. Мне не хватило сравнения с BAGEL, Nexus-Gen и другими вышедшими в последнее время мультимодалками. Скорее всего, авторы из не рассматривали просто потому что учили editing-only модель и считают такое сравнение не совсем честным.
Forwarded from Onigiri
Какими нейросетями я пользуюсь?

Начну с моделей от OpenAI:

gpt-4o - в основном для простых общих вопросов

gpt-4.5 - одна из лучших моделей в для написания красивого текста и переводов на другие языки. 14 июля ее закроют 😒
Говорят, что gemeni 2.5 pro такая же в написании текстов, а может и лучше, но я ей пока не пользовался

gpt-4.1 - использую больше для несложных технических вопросов

o3 - для сложных вопросов. Например, для решения математических задач, для продумывания архитектуры кода, для улучшения и переписывания кода, где я сам не знаю, как это сделать

o4-mini-high - сначала не обращал внимания на эту модель, но в последнее время все чаще использую вместо o3. Работает быстрее, на некоторые вопросы отвечает лучше, но не всегда. Поэтому можно один вопрос отправлять сразу и в o3, и в o4-mini-high, так еще лучше

Картинки:

gpt-image-1
- заменила для меня почти все другие генераторы картинок. Вроде как это и есть gpt-4o, которая благодаря своей мультимодальности делает изображения, но часто ее называют отдельной моделью. Это та, которая генерирует картинки в chatgpt. Но через chatgpt она генерирует их часто по 1 штуке и в неверном соотношении сторон. Гораздо удобнее ей пользоваться через их же отдельный сайт sora.com

Раньше еще пользовался Midjourney и локальным Stable Diffusion, но с появлением gpt-image-1 использую почти только его. Хотя иногда еще пользуюсь:

Photoshop - по текущим меркам встроенная модель уже так себе, но зато ей можно быстро и удобно что-то поправить

Illustartor - да, в нем тоже есть генерация картинок, да еще и векторных, что иногда бывает нужно

Вайбкодинг:

Github copilot - большую часть кода пишет за меня. Начал пользоваться им еще с бета версии и остался на нем. Еще из популярных существуют Cursor и Windsurf, у них даже многие фичи появляются раньше, но в целом, сейчас они довольно похожи.
В самом копайлоте обычно использую claude-4 - это наверно самая оптимальная на данный момент модель для кода. Реже использую gpt-4.1 для простых задач

А какими вы пользуетесь?
Please open Telegram to view this post
VIEW IN TELEGRAM
Почему технологический moat больше не работает, и что такое Levered Beta 🌊

🤝 Недавно общались с бизнес-ангелом, и он спросил, какой у нас в Aesty moat. Я, конечно, начала рассказывать про технологию и наш движок, на что он ответил:
- Нет, погоди. В технологический moat я больше не верю. Что у вас есть еще?

Тогда я быстро переключилась и рассказала ему про другие аспекты: данные, партнерства и понятный путь к быстрому acquisition-циклу. Но все равно ощущение, что мой ответ получился слегка разобранным и я почувствовала, что чего-то не хватает 👎

Недавно @bogdanisssimo скинул мне статью Levered beta is all you need, которая хорошо структурировала мои мысли. Делюсь с вами 😎

Раньше стартапы охотились за так называемым Alpha. Но сейчас куда важнее Levered Beta 😐

Откуда вообще эти термины - Alpha, Beta и Levered Beta?

📍 Alpha - это твое уникальное преимущество за счет инсайта, технологии, опыта или патентов. Alpha — это как раз тот самый moat, о котором мы привыкли говорить в стартапах. Это то, что пытается построить каждый основатель, когда пишет в деке слово revolutionizing 🧠

📍 Beta - это просто корреляция с рынком. Если рынок вырос на 10%, твой портфель с beta=1 тоже вырос на 10%. Никакого уникального вклада, но ты все равно едешь на волне 🤵

📍 Levered Beta - это beta на стероидах. Ты не просто следуешь за рынком, а делаешь агрессивную ставку, занимая категорию первым. Если рынок растет на 10%, твоя ставка на 50%, потому что ты раньше и "громче" всех оседлал волну. Правда, и падать ты будешь так же быстро, но это проблема для future you 🤭


В стартапах вокруг AI это особенно видно. Бигтех каждые 6–9 месяцев выкатывает новую модель, которая автоматически улучшает твой продукт. GPT-4.1 за полгода стала на 26% дешевле и быстрее. Твой дорогой технологический moat легко обесценивается за один релиз openai (😎всем кто смотрел недавнюю трансляцию привет)

🙂 как пример - стартапы в AI sales. Они часто пишут ужасные имейлы, churn огромный, UX слабый. И тем не менее, они подняли десятки миллионов долларов и сделали миллионы выручки просто потому, что заняли категорию раньше и "громче" остальных. Это и есть Levered Beta в действии, они выигрывают не потому, что лучше, а потому что первыми встали на волну 🏄

Используя Levered Beta:

1️⃣ Ты бесплатно получаешь прирост качества от больших платформ
OpenAI и Google постоянно обновляют модели, твой продукт улучшается сам собой

2️⃣ Большие игроки сами валидируют рынок
Если раньше никто не понимал, зачем нужен AI-гардероб, то теперь Google и Snapchat уже научили рынок, и тебе остается просто предложить более персонализированное решение. Как раз чуть выше есть пост про это

3️⃣ Твой бренд становится moat-ом вместо технологии
Когда технология выравнивается, выигрывает тот, кто раньше занял место в голове пользователя. Тут, кстати, сразу вспоминается Cursor


Получается теперь в стартапах главное не первым собрать продукт, а первым залить его на Product Hunt с заголовком 'We're disrupting disruption' 😁

@neural_prosecco
Please open Telegram to view this post
VIEW IN TELEGRAM
Scaling LLM training to hundreds of GPUs: a playbook from HuggingFace research.

Available as a book for pro subscription users at https://huggingface.co/nanotron, or for free (less formatted, not polished visuals) https://huggingface.co/spaces/nanotron/ultrascale-playbook/resolve/main/The_Ultra-Scale_Playbook_Training_LLMs_on_GPU_Clusters.pdf
Linear Algebra for Data Science by Prof. Wanmo Kang and Prof. Kyunghyun Cho

Authors have been discussing over the past few years how they should teach linear algebra to students in this new era of data science and artificial intelligence.

Over these discussions, which also led to some research collaboration as well, they realized that (one of the central concepts from linear algebra that is used frequently in practice, if not every day, was) the central concepts from linear algebra invoked frequently in practice, if not every day, were projection, and consequently singular value decomposition (SVD) as well as even less frequently positive definiteness.

Unfortunately, they noticed that existing courses on linear algebra often focus much more on the invertibility (or lack thereof), to the point that many concepts are introduced not in the order of their practicality nor usefulness but in the order of the conveniences in mathematical derivations/introductions.

They began to wonder a lot whether they can introduce concepts and results in linear algebra in a radically different way.

So, here’s a new textbook on linear algebra, where they re-imagined how and in which order linear algebra could be taught.

Links:
- Site
- Book

Navigational hashtags: #armbooks
General hashtags: #math #mathematics #linearalgebra

@data_science_weekly
🕷Материалы интенсива по А/Б тестам от ШАДа

ШАД регулярно проводит классные активности – в этот раз ребята проводили бесплатный интенсив по А/Б тестированию. Если пропустили – не страшно, все материалы уже выложены, а к ним можно будет вернуться перед нужным собесом

Я рассказывал об интенсиве у себя в канале и предложил в комментах сделать отдельный чятик для участников моего канала. Не знал, будет ли такое от организаторов ☕️

Оказалось, у организаторов тоже был такой чатик, но чуть больше. В моменте в моем чате было 180 человек при 1400 в чате организаторов – офигенно большой процент (13%), хорошее здесь комьюнити собралось!!!

Ладно, что по материалам. Макс выложил большую подборку статей про а/б тесты от крупных компаний. Диля (лектор интенсива) тоже поделилась своей подборкой статей

Сами лекции и ссылки на них:

🐠 Лекция 1
Статистика для A/B‑тестов: важные на практике распределения, параметры и оценки, гипотезы и статистические критерии, t‑критерий Стьюдента

🐠 Лекция 2
Ошибки I и II рода, MDE. Одновыборочный критерий Колмогорова-Смирнова. Тест Шапиро-Уилка. Синтетические АА‑тесты для проверки валидности статистического критерия

🐠 Лекция 3
Сравнение распределения двух выборок: двухвыборочный критерий Колмогорова-Смирнова, тест Манна-Уитни. Метрики отношения. Мощность теста и сравнение критериев между собой (синтетические А/B‑тесты)

🐠 Лекция 4
Доверительные интервалы для метрик отношения, процентных изменений (uplift), персентилей. Методы повышения чувствительности метрик: работа с выбросами, CUPED

🐠 Лекция 5
Методы повышения чувствительности метрик: стратификация, постстратификация. Проблема множественного тестирования. Проблема подглядывания и групповой последовательный тест (GST). Альтернативный метод работы с данными – Байес. Флоу анализа A/B‑тестов

Сохраняйте пост и возвращайтесь к нему, когда захотите заботать или освежить в памяти а/б тесты. Делитесь впечатлениями об интенсиве в комментариях, если участвовали 😀

@tagir_analyzes
Please open Telegram to view this post
VIEW IN TELEGRAM