#conference
Прошел жаркий период мероприятий. За последние 2 недели их у меня было аж 4 штуки. Пора подводить итоги и выдыхать.
Немного про мероприятия:
1. Коллеги позвали на "прожарку AI". Там за готовкой мы с участниками South Hub обсуждали "горячие" темы в области AI. Формат необычный, но не без минусов. Отвлекаться чревато последствиями - я себе в первые 10 минут готовки палец порезал (впрочем, я очки опыта вкладывал в интеллект, а не в ловкость, может проблема в этом). Пообщаться было прикольно, да и формат был весьма камерным + уровень участников весьма хорош, редко удается пообщаться с таким количеством директоров разом ;)
2. Был наш ИИ Demo Day в рамках X5. Рассказали о последних достижениях подразделения, ответили на вопросы коллег, подняли понимание о том, что мы делаем и кто все эти люди (ну, я очень на это надеюсь). В общем, получилось полезно (а еще весьма лампово, что тоже важно).
3. Сходил на оба дня Aha'25. На одном даже выступил (фото как раз оттуда). После доклада еще продуктивно пообщался и ответил на вопросы, которые не успел задать после доклада. А еще допытывал коллег из Сбера на предмет бенмаркинга LLM (вероятно, даже немного задолбал околофилософскими вопросами "а как вообще набором цифр описать, насколько хорошо LLM работает и возможно ли это в принципе?".
4. Закончилось все днем X5 на DataFest. Было весьма немало народа (человек 300-400 по моим оценкам, может и побольше). Активно общался, много интересных тем поднималось в обсуждениях, что весьма приятно. На DataFest тоже выступил, доклад зашел (хоть это и повтор с митапа, но многие его не слышали, так что все ок).
Какие из всего этого выводы:
1. LLM - горячая тема практически везде. Не особо удивлен, хайп продолжается.
2. Клево, когда сообщество обменивается мнениями. Например, мой доклад на aha - скорее призыв к обсуждению в рамках сообщества, ибо одна голова - хорошо, а много голов -хтонический Лавкрафтианский монстр лучше.
3. Клевый мерч привлекает на стенд и позволяет "зацепить" человека еще и пообщаться (капитанский вывод, но работает же). Одним из факторов мотивации тусоваться на датафесте был еще и корпоративный мягкий енот (спойлер - я его получил и без приключений передал в руки дочки, она довольна).
4. Мероприятия - дело энергозатратное. Много общения, много эмоциональных сил затрачивается (если, конечно, хочешь делать хорошо). Потому сейчас буду немного "отмокать".
5. Личный бренд - штука рабочая. Меня (и моих коллег) уже узнают по прошлым докладам и материалам (в позитивном ключе, конечно). Одну мою коллегу даже специально искали на датафесте, чтобы пообщаться именно с ней, т.к. очень понравилось одно из предыдущих выступлений (вот ее канал с прикольным названием "LLM и гречка").
В общем, я весьма доволен, но устал. Потому пока буду восстанавливать силы, т.к. летом и осенью будут еще мероприятия, так что stay tuned, так сказать.
Прошел жаркий период мероприятий. За последние 2 недели их у меня было аж 4 штуки. Пора подводить итоги и выдыхать.
Немного про мероприятия:
1. Коллеги позвали на "прожарку AI". Там за готовкой мы с участниками South Hub обсуждали "горячие" темы в области AI. Формат необычный, но не без минусов. Отвлекаться чревато последствиями - я себе в первые 10 минут готовки палец порезал (впрочем, я очки опыта вкладывал в интеллект, а не в ловкость, может проблема в этом). Пообщаться было прикольно, да и формат был весьма камерным + уровень участников весьма хорош, редко удается пообщаться с таким количеством директоров разом ;)
2. Был наш ИИ Demo Day в рамках X5. Рассказали о последних достижениях подразделения, ответили на вопросы коллег, подняли понимание о том, что мы делаем и кто все эти люди (ну, я очень на это надеюсь). В общем, получилось полезно (а еще весьма лампово, что тоже важно).
3. Сходил на оба дня Aha'25. На одном даже выступил (фото как раз оттуда). После доклада еще продуктивно пообщался и ответил на вопросы, которые не успел задать после доклада. А еще допытывал коллег из Сбера на предмет бенмаркинга LLM (вероятно, даже немного задолбал околофилософскими вопросами "а как вообще набором цифр описать, насколько хорошо LLM работает и возможно ли это в принципе?".
4. Закончилось все днем X5 на DataFest. Было весьма немало народа (человек 300-400 по моим оценкам, может и побольше). Активно общался, много интересных тем поднималось в обсуждениях, что весьма приятно. На DataFest тоже выступил, доклад зашел (хоть это и повтор с митапа, но многие его не слышали, так что все ок).
Какие из всего этого выводы:
1. LLM - горячая тема практически везде. Не особо удивлен, хайп продолжается.
2. Клево, когда сообщество обменивается мнениями. Например, мой доклад на aha - скорее призыв к обсуждению в рамках сообщества, ибо одна голова - хорошо, а много голов -
3. Клевый мерч привлекает на стенд и позволяет "зацепить" человека еще и пообщаться (капитанский вывод, но работает же). Одним из факторов мотивации тусоваться на датафесте был еще и корпоративный мягкий енот (спойлер - я его получил и без приключений передал в руки дочки, она довольна).
4. Мероприятия - дело энергозатратное. Много общения, много эмоциональных сил затрачивается (если, конечно, хочешь делать хорошо). Потому сейчас буду немного "отмокать".
5. Личный бренд - штука рабочая. Меня (и моих коллег) уже узнают по прошлым докладам и материалам (в позитивном ключе, конечно). Одну мою коллегу даже специально искали на датафесте, чтобы пообщаться именно с ней, т.к. очень понравилось одно из предыдущих выступлений (вот ее канал с прикольным названием "LLM и гречка").
В общем, я весьма доволен, но устал. Потому пока буду восстанавливать силы, т.к. летом и осенью будут еще мероприятия, так что stay tuned, так сказать.
🔥7❤1👍1
Forwarded from Дата канальи — про «специалистов» в данных / ML / AI
Переслали мне корпоративную методичку по управлению продуктовым портфелем
Итак, если бы пожарную команду создавали по этой методичке:
1. Ideation (оценка идеи)
Варианты:
За месяц не произошло ни одного пожара, потенциальных клиентов нет — закрываем продукт (KILL)
или
Один пожар был, но с погорельцев особо ничего взять — MERGE с водовозами, водовозы — жизнеспособный продукт с устойчивой клиентской базой и выраженной сезонностью.
Но перед тушением пожара необходимо будет производить расчет эффекта от тушения и сравнение с прямыми продажами воды клиентам
Или
Было несколько пожаров — когда пришли опрашивать клиентов получили люлей как поджигатели, глаз подбит 🤕, но зерно есть — PIVOT. Будем дистанционно (чтобы снова не получить) продавать палатки жертвам пожаров
2. Concept Validation — подтвердить жизнеспособность концепции
Продуктовый комитет затребовал дорожную карту по тушению пожаров на следующий год
Необходимо рассчитать точное время и место пожаров, затраты на тушение, экономический эффект
Ок, провернули фокус из финала The Incredible Burt Wonderstone и прошли дальше
3. Prototype Development
Сделали пожарную машину на деньги, выделенные на этапе 2.
Машиной сложно назвать — поэтому скорее получилась пожарная тачка.
Комитет отправил нас на Technical Pivot, без доп финансирования конечно же
На остатки финансирования получилось сделать лейку-поливалку
А дальше пришла летняя жара , и пол-города сгорело вместе с продуктовым комитетом 😂😂😂
PS: для тех кто не в курсе — частная пожарная охрана есть и вполне благополучно работает (например) и в нашей стране и в других
PPS: у любого инструмента есть своя область применения, даже у продуктовых методичек, и вот уж методички неплохо бы начинать с описания к чему их следует применять
Итак, если бы пожарную команду создавали по этой методичке:
1. Ideation (оценка идеи)
Варианты:
За месяц не произошло ни одного пожара, потенциальных клиентов нет — закрываем продукт (KILL)
или
Один пожар был, но с погорельцев особо ничего взять — MERGE с водовозами, водовозы — жизнеспособный продукт с устойчивой клиентской базой и выраженной сезонностью.
Но перед тушением пожара необходимо будет производить расчет эффекта от тушения и сравнение с прямыми продажами воды клиентам
Или
Было несколько пожаров — когда пришли опрашивать клиентов получили люлей как поджигатели, глаз подбит 🤕, но зерно есть — PIVOT. Будем дистанционно (чтобы снова не получить) продавать палатки жертвам пожаров
2. Concept Validation — подтвердить жизнеспособность концепции
Продуктовый комитет затребовал дорожную карту по тушению пожаров на следующий год
Необходимо рассчитать точное время и место пожаров, затраты на тушение, экономический эффект
Ок, провернули фокус из финала The Incredible Burt Wonderstone и прошли дальше
3. Prototype Development
Сделали пожарную машину на деньги, выделенные на этапе 2.
Машиной сложно назвать — поэтому скорее получилась пожарная тачка.
Комитет отправил нас на Technical Pivot, без доп финансирования конечно же
На остатки финансирования получилось сделать лейку-поливалку
А дальше пришла летняя жара , и пол-города сгорело вместе с продуктовым комитетом 😂😂😂
PS: для тех кто не в курсе — частная пожарная охрана есть и вполне благополучно работает (например) и в нашей стране и в других
PPS: у любого инструмента есть своя область применения, даже у продуктовых методичек, и вот уж методички неплохо бы начинать с описания к чему их следует применять
❤8🤣6
#llm #paper
Прочитал на досуге статью "Beyond Benchmarking: A New Paradigm for Evaluation and Assessment of Large Language Models".
Достаточно короткая статья. Идея тоже обычная, но хорошо, что ее явно вытащили и прописали, т.к. часто вроде у всех это крутится где-то на границе сознания, а вот когда явно кто-то написал или проговорил - все становится на свои места.
Итак, в чем смысл стать? Авторы рассматривают типичный процесс бенчмаркинга LLM, а именно засилие "тестов" в бенчмарках. Что неплохо, но просто дает ряд циферок, но не отражает всей сложности процесса оценки и проверки качества работы LLM.
Потому авторы предлагают трехступенчатый процесс оценки LLM (Benchmarking-Evaluation-Assessment), который сравнивают с медицинским осмотром. Получается такой подход:
1. Benchmarking. Его мы не откладываем в сторону, но считаем первым шагом. Условно, оцениваем какие-то базовые параметры (как на осмотре - давление померить, общий анализ крови сделать и вот это все). По факту смотрим, где есть проблемы;
2. Evaluation. На основе выявленных проблемных зон делаем более глубокие исследования (медицинский аналог - более сложное исследование выписывается, например, УЗИ);
3. Assessment. Пытаемся интерпретировать результаты детальных исследований с помощью "модели-доктора", вместе с которой разрабатывается "план лечения" (то есть, направления и шаги по исправлению проблем на прошлых шагах).
В итогу, много где так и работает, просто это формально не фиксировали в таком процессе. Так что заслуга авторов тут, как я сказал, именно в том, что вытащили общую идею на свет и формально описали.
Но, на самом деле, есть и вопросы к такому формату:
1. А заметим ли мы важные проблемы на первом этапе (вроде в анализах все ок, а челу все хуже и хуже)?
2. Как подобрать эти более предметные исследования? Ок, модель на чем-то не очень хорошо справляется, но как мне набрать данные, чтобы более детально понять проблемы в работе LLM.
3. А судьи кто? Ок, человек может что-то попробовать понять (но с интерпретацией могут быть вопросики), а если использовать именно "модель-доктора", то на чем ее учить и как понять, что она корректно предлагает решение?
Итог.
Хорошо, что написали, но пока выглядит больше "за все хорошее и против всего плохого". Надеюсь, что авторы накинут в будущих работах еще деталей по пунктам, может тогда будет полезнее.
Прочитал на досуге статью "Beyond Benchmarking: A New Paradigm for Evaluation and Assessment of Large Language Models".
Достаточно короткая статья. Идея тоже обычная, но хорошо, что ее явно вытащили и прописали, т.к. часто вроде у всех это крутится где-то на границе сознания, а вот когда явно кто-то написал или проговорил - все становится на свои места.
Итак, в чем смысл стать? Авторы рассматривают типичный процесс бенчмаркинга LLM, а именно засилие "тестов" в бенчмарках. Что неплохо, но просто дает ряд циферок, но не отражает всей сложности процесса оценки и проверки качества работы LLM.
Потому авторы предлагают трехступенчатый процесс оценки LLM (Benchmarking-Evaluation-Assessment), который сравнивают с медицинским осмотром. Получается такой подход:
1. Benchmarking. Его мы не откладываем в сторону, но считаем первым шагом. Условно, оцениваем какие-то базовые параметры (как на осмотре - давление померить, общий анализ крови сделать и вот это все). По факту смотрим, где есть проблемы;
2. Evaluation. На основе выявленных проблемных зон делаем более глубокие исследования (медицинский аналог - более сложное исследование выписывается, например, УЗИ);
3. Assessment. Пытаемся интерпретировать результаты детальных исследований с помощью "модели-доктора", вместе с которой разрабатывается "план лечения" (то есть, направления и шаги по исправлению проблем на прошлых шагах).
В итогу, много где так и работает, просто это формально не фиксировали в таком процессе. Так что заслуга авторов тут, как я сказал, именно в том, что вытащили общую идею на свет и формально описали.
Но, на самом деле, есть и вопросы к такому формату:
1. А заметим ли мы важные проблемы на первом этапе (вроде в анализах все ок, а челу все хуже и хуже)?
2. Как подобрать эти более предметные исследования? Ок, модель на чем-то не очень хорошо справляется, но как мне набрать данные, чтобы более детально понять проблемы в работе LLM.
3. А судьи кто? Ок, человек может что-то попробовать понять (но с интерпретацией могут быть вопросики), а если использовать именно "модель-доктора", то на чем ее учить и как понять, что она корректно предлагает решение?
Итог.
Хорошо, что написали, но пока выглядит больше "за все хорошее и против всего плохого". Надеюсь, что авторы накинут в будущих работах еще деталей по пунктам, может тогда будет полезнее.
🔥3
Forwarded from Канал влияния
Недавно мы обещали рассказать вам, как оценивать эффекты, если воздействие непрерывное -- пришло время этой темы!
Обычно для оценки влияния политик или другого воздействия используется метод разность разностей (Difference-in-Differences, DiD), но он работает хорошо, когда можно разделить наблюдаемые единицы на две группы: тех, кто подвергся воздействию, и тех, кто нет
В реальности же воздействие часто имеет не бинарную, а непрерывную природу — то есть разную интенсивность (dose):
Во всех этих случаях вопрос звучит не "было ли воздействие?", а "насколько интенсивным оно было?"
Авторы переосмысливают классический DiD и показывают, что при непрерывном воздействии привычные методы могут давать некорректные оценки
Во многих прикладных работах исследователи используют стандартную модель с фиксированными эффектами (TWFE) и включают переменную интенсивности воздействия, умноженную на бинарную переменную пост-периода. Но такая оценка:
Авторы показывают, что даже в простой ситуации 2×2 DiD (две группы, два периода), коэффициент TWFE не имеет корректной причинной интерпретации, если интенсивность воздействия варьируется
Авторы вводят два типа причинных эффектов:
→ Позволяет идентифицировать уровневый эффект при заданной интенсивности
→ Необходимо для корректной оценки причинного отклика
Авторы статьи разработали R-пакет
contdid
. Это пока альфа-версия, но она уже поддерживает непрерывное воздействие, ступенчатое воздействие (staggered adoption), агрегации по интенсивности и времени 🔗 Документация пакета: Github и RD Packages
Заинтересованным в теме предлагаем также заглянуть в препринт (Zhang, 2025), где автор пытается решить похожую задачу с помощью double/debiased machine learning
#канал_обозревает
#канал_рекомендует
@causal_channel
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥4⚡1🤨1
#random
Пока ездил в Псков и Великий Новгород и ходил по музеям, мне в голову пришла забавная мысль. Средневековые художники часто не видели зверей из других частей света, которых рисовали в бестиариях, а только лишь слышали описания (причем, далеко не всегда точные описания и не всегда существующих животных). Потому я решил сделать симуляцию такого художника.
Итак:
1. Попросил perplexity собрать средневековые описания животных из книг (как настоящих, так и выдуманных);
2. Написал коротенький промпт для генерации изображения в средневековом стиле (пришлось тут поиграться с промптами, чтобы модель не вспоминала реальное животное, но она все равно вспоминает немного);
3. Сгенерировал изображения по описанию из бестиариев.
Кстати, будет еще забавнее, если при генерации текста LLM будет галлюцинировать. Это еще более подходящий опыт (но это оставлю самой LLM). Как будто средневековый автор что-то где-то еще читал и добавил эти обрывки воспоминаний в свой процесс рисования зверя в бестиарии.
Результаты в посте. Попробуйте отгадать, что за звери изображены. Ответы будут завтра.
P.S. На первой картинке справа мандрагора на дереве (а то мало ли, что тут кто навоображает).
Пока ездил в Псков и Великий Новгород и ходил по музеям, мне в голову пришла забавная мысль. Средневековые художники часто не видели зверей из других частей света, которых рисовали в бестиариях, а только лишь слышали описания (причем, далеко не всегда точные описания и не всегда существующих животных). Потому я решил сделать симуляцию такого художника.
Итак:
1. Попросил perplexity собрать средневековые описания животных из книг (как настоящих, так и выдуманных);
2. Написал коротенький промпт для генерации изображения в средневековом стиле (пришлось тут поиграться с промптами, чтобы модель не вспоминала реальное животное, но она все равно вспоминает немного);
3. Сгенерировал изображения по описанию из бестиариев.
Кстати, будет еще забавнее, если при генерации текста LLM будет галлюцинировать. Это еще более подходящий опыт (но это оставлю самой LLM). Как будто средневековый автор что-то где-то еще читал и добавил эти обрывки воспоминаний в свой процесс рисования зверя в бестиарии.
Результаты в посте. Попробуйте отгадать, что за звери изображены. Ответы будут завтра.
P.S. На первой картинке справа мандрагора на дереве (а то мало ли, что тут кто навоображает).
🔥10
#random
Продолжаем наше страдающее средневековье. Что же это были запокемоны фантастические (и не очень) звери?
1. Слон. Животное это очень велико. Имеют они живой ум и долгую память; ходят стадами; бегут от мыши; совокупляются спина к спине. Живут триста лет. Если хочет иметь сыновей, идет на восток, близ рая; там растет дерево, называемое мандрагора. Идет к нему со своей самкой, которая первая берет плод с дерева и дает своему самцу. Самец охраняет ее, пока она в родах, потому что у них есть враг - дракон.
2. Лев. Царь зверей. Имеет три главных свойства. Первое: когда ходит по дорогам и приходит к нему запах охотников, то хвостом своим заметает следы свои, чтобы охотники не нашли логова его. Второе: когда спит в пещере, бодрствуют очи его, ибо открыты они. Третье: когда львица рождает детеныша, мертвым рождает его, и охраняет детеныша, пока не придет отец. на третий день и не дунет в лицо ему и не пробудит его.
3. Единорог. Чудовище с ужасным ревом, телом коня, ногами как у слона и хвостом очень похожим на оленя.
4. Еж. Поросенок с шипами, скрипящий как телега. Когда созревает виноград, подползает к виноградной лозе и, трясясь, сбрасывает ягоды на землю, затем катается по ним, пока они не насадятся на иглы.
5. Олень. Плачет, объевшись ядовитых змей. Когда чувствует в себе болезнь от яда, бегут к источнику и пьют воду. Враждебен змеям, выгоняет их из нор дыханием через ноздри.
6. Кот. Представляет угрозу для мыши. Ловит предметы. Ловит мышей с помощью своего острого зрения. Способен видеть в полной тьме, без малейших проблесков света.
7. Дракон. Обвивает хвостом жертву и может убить даже слонов удушением. Подстерегает на тропах, по которым привыкли проходить слоны, опутывает их ноги узлами и убивает удушением.
8. Левкрота (есть такое мифическое животное). Величиной с осла, с задними частями оленя, грудью и ногами льва, головой лошади и ртом, разорванным до самых ушей.
Вот такой вот нейронный бестиарий вышел. Кто теперь ваше любимое животное из тех, что были на картинках?
Мне нравятся кот, еж, олень и мандрагора (она реально забавная). Львенок в пещере тоже мемный вышел.
Продолжаем наше страдающее средневековье. Что же это были за
1. Слон. Животное это очень велико. Имеют они живой ум и долгую память; ходят стадами; бегут от мыши; совокупляются спина к спине. Живут триста лет. Если хочет иметь сыновей, идет на восток, близ рая; там растет дерево, называемое мандрагора. Идет к нему со своей самкой, которая первая берет плод с дерева и дает своему самцу. Самец охраняет ее, пока она в родах, потому что у них есть враг - дракон.
2. Лев. Царь зверей. Имеет три главных свойства. Первое: когда ходит по дорогам и приходит к нему запах охотников, то хвостом своим заметает следы свои, чтобы охотники не нашли логова его. Второе: когда спит в пещере, бодрствуют очи его, ибо открыты они. Третье: когда львица рождает детеныша, мертвым рождает его, и охраняет детеныша, пока не придет отец. на третий день и не дунет в лицо ему и не пробудит его.
3. Единорог. Чудовище с ужасным ревом, телом коня, ногами как у слона и хвостом очень похожим на оленя.
4. Еж. Поросенок с шипами, скрипящий как телега. Когда созревает виноград, подползает к виноградной лозе и, трясясь, сбрасывает ягоды на землю, затем катается по ним, пока они не насадятся на иглы.
5. Олень. Плачет, объевшись ядовитых змей. Когда чувствует в себе болезнь от яда, бегут к источнику и пьют воду. Враждебен змеям, выгоняет их из нор дыханием через ноздри.
6. Кот. Представляет угрозу для мыши. Ловит предметы. Ловит мышей с помощью своего острого зрения. Способен видеть в полной тьме, без малейших проблесков света.
7. Дракон. Обвивает хвостом жертву и может убить даже слонов удушением. Подстерегает на тропах, по которым привыкли проходить слоны, опутывает их ноги узлами и убивает удушением.
8. Левкрота (есть такое мифическое животное). Величиной с осла, с задними частями оленя, грудью и ногами льва, головой лошади и ртом, разорванным до самых ушей.
Вот такой вот нейронный бестиарий вышел. Кто теперь ваше любимое животное из тех, что были на картинках?
Мне нравятся кот, еж, олень и мандрагора (она реально забавная). Львенок в пещере тоже мемный вышел.
👍4❤1
#music
А у меня тут вышел dark ambient альбом. Надеюсь, что любителям зайдет. Я туда даже добавил концептуальности в названия и порядок песен.
В общем, enjoy!
А у меня тут вышел dark ambient альбом. Надеюсь, что любителям зайдет. Я туда даже добавил концептуальности в названия и порядок песен.
В общем, enjoy!
Yandex Music
Neuroplastic Dystopia
Erebus Mechanism • Album • 2025
🔥12
А что тут у нас? Вышел мой хоррор-монолог в озвучке (называется "Колыбельная").
Послушать его (как и другие) можно по ссылке. При авторизации каждый день дают бонусы за вход, вот их можно как раз потратить на прослушивание ;)
В комментах пишите ваше мнение по поводу монолога и задавайте вопросы, если будут.
Послушать его (как и другие) можно по ссылке. При авторизации каждый день дают бонусы за вход, вот их можно как раз потратить на прослушивание ;)
В комментах пишите ваше мнение по поводу монолога и задавайте вопросы, если будут.
fabulanova.ru
Аудиосериал «Один на один со страхом» (Ужасы) - FabulaNova
Аудиосериалы и радиопостановки. Один на один со страхом.
❤🔥3⚡1👏1
Forwarded from FabulaNova Истории в звуке
This media is not supported in your browser
VIEW IN TELEGRAM
#конкурсхорроров #релиз #одиннаодинсострахом
А тепер работа из ТОП-3 нашего конкурса!
"Колыбельная"🤱💀 по сценарию Артёма Ерохина уже на Фабуле!
А тепер работа из ТОП-3 нашего конкурса!
"Колыбельная"🤱💀 по сценарию Артёма Ерохина уже на Фабуле!
❤2⚡2👍1