SAE-Reasoning
Коллаборация ученных из АИРИ, ВШЭ, Сколтеха, МТУСИ и Сбера, посвященная интерпретации больших языковых моделей с помощью SAE - разреженных автоэнкдеров. В репозитории находится код, демонстрирующий, как SAE могут выявлять и корректировать специфические признаки рассуждения внутри больших языковых моделей. Авторы анализируют активации модели при генерации цепочек рассуждений, используя специальную метрику ReasonScore, которая показывает, насколько конкретная латентная компонента связана с логическими словами и фразами. Далее исследователи показывают, как выборочно усиливать такие признаки в процессе генерации: при steering повышается склонность модели к пошаговым объяснениям, перепроверке вычислений и более глубокому анализу. Эксперименты на ряде задач (например, MATH-500) подтверждают, что подобная тонкая настройка увеличивает как количество промежуточных выводов, так и общее качество ответа. Код может быть полезен специалистам, занимающимся интерпретацией внутренних представлений LLM, DL-инженерам и DS-специалистам
статья | код
Коллаборация ученных из АИРИ, ВШЭ, Сколтеха, МТУСИ и Сбера, посвященная интерпретации больших языковых моделей с помощью SAE - разреженных автоэнкдеров. В репозитории находится код, демонстрирующий, как SAE могут выявлять и корректировать специфические признаки рассуждения внутри больших языковых моделей. Авторы анализируют активации модели при генерации цепочек рассуждений, используя специальную метрику ReasonScore, которая показывает, насколько конкретная латентная компонента связана с логическими словами и фразами. Далее исследователи показывают, как выборочно усиливать такие признаки в процессе генерации: при steering повышается склонность модели к пошаговым объяснениям, перепроверке вычислений и более глубокому анализу. Эксперименты на ряде задач (например, MATH-500) подтверждают, что подобная тонкая настройка увеличивает как количество промежуточных выводов, так и общее качество ответа. Код может быть полезен специалистам, занимающимся интерпретацией внутренних представлений LLM, DL-инженерам и DS-специалистам
статья | код
GitHub
GitHub - AIRI-Institute/SAE-Reasoning
Contribute to AIRI-Institute/SAE-Reasoning development by creating an account on GitHub.
🔥7
rapid-ao
В репозитории содержится код для воспроизведения экспериментов, описанных в работе про “Adaptive Divergence”, где ученные из лаборатории LAMBDA ФКН решают задачу быстрого согласования распределений в условиях дорогих симуляторов. Основная идея — использовать новое семейство «адаптивных расхождений», которое динамически регулирует мощность дискриминатора, переключаясь с «узких» моделей на «более сильные» лишь тогда, когда исходные распределения уже близки друг к другу. В частности, авторы демонстрируют, как это семейство ускоряет процедуру настройки высокоразмерных симуляторов с помощью чёрных ящиков. Репозиторий может быть полезен исследователям из физики, DL-инженерам и DS-специалистам
статья | код
В репозитории содержится код для воспроизведения экспериментов, описанных в работе про “Adaptive Divergence”, где ученные из лаборатории LAMBDA ФКН решают задачу быстрого согласования распределений в условиях дорогих симуляторов. Основная идея — использовать новое семейство «адаптивных расхождений», которое динамически регулирует мощность дискриминатора, переключаясь с «узких» моделей на «более сильные» лишь тогда, когда исходные распределения уже близки друг к другу. В частности, авторы демонстрируют, как это семейство ускоряет процедуру настройки высокоразмерных симуляторов с помощью чёрных ящиков. Репозиторий может быть полезен исследователям из физики, DL-инженерам и DS-специалистам
статья | код
GitHub
GitHub - HSE-LAMBDA/rapid-ao: Experiments from "Adaptive Divergence for Rapid Adversarial Optimization" paper.
Experiments from "Adaptive Divergence for Rapid Adversarial Optimization" paper. - HSE-LAMBDA/rapid-ao
🔥5❤2
digital-twin
В данном исследовании группа ученых из ВШЭ моделируют производительность систем хранения данных, используя вероятностный подход. Они рассматривают различные компоненты — кэш, SSD, HDD, — собирают показатели IOPS и задержки при разных конфигурациях и нагрузках, а затем обучают свои модели CatBoost и Normalizing Flow. Авторы демонстрируют, что этот подход не только предсказывает средние значения, но и охватывает всё распределение метрик, что особенно важно для оценки неопределенности и сценариев «цифрового двойника». Исследователи также проверяют надежность предсказаний с помощью известных зависимостей и отмечают, что полученные результаты тесно соответствуют реальным измерениям, превосходя простые методы вроде kNN. Данная методика может быть применена для анализа производительности, оптимизации настроек и предиктивного обслуживания систем хранения данных. Вклад авторов не ограничивается выбранным подходом: они также предоставляют открытый доступ к набору данных, использованному в исследовании. Найти его можно в репозитории с кодом. Работа может быть полезна ML-инженерам и DS-специалистам.
статья | код
В данном исследовании группа ученых из ВШЭ моделируют производительность систем хранения данных, используя вероятностный подход. Они рассматривают различные компоненты — кэш, SSD, HDD, — собирают показатели IOPS и задержки при разных конфигурациях и нагрузках, а затем обучают свои модели CatBoost и Normalizing Flow. Авторы демонстрируют, что этот подход не только предсказывает средние значения, но и охватывает всё распределение метрик, что особенно важно для оценки неопределенности и сценариев «цифрового двойника». Исследователи также проверяют надежность предсказаний с помощью известных зависимостей и отмечают, что полученные результаты тесно соответствуют реальным измерениям, превосходя простые методы вроде kNN. Данная методика может быть применена для анализа производительности, оптимизации настроек и предиктивного обслуживания систем хранения данных. Вклад авторов не ограничивается выбранным подходом: они также предоставляют открытый доступ к набору данных, использованному в исследовании. Найти его можно в репозитории с кодом. Работа может быть полезна ML-инженерам и DS-специалистам.
статья | код
GitHub
GitHub - HSE-LAMBDA/digital-twin: Performance Modeling of Data Storage Systems Using Generative Models, IEEE Access, vol. 13, pp.…
Performance Modeling of Data Storage Systems Using Generative Models, IEEE Access, vol. 13, pp. 49643-49658, 2025, doi: 10.1109/ACCESS.2025.3552409 - HSE-LAMBDA/digital-twin
❤6🔥4👍1🤔1
hogwild_llm
В репозитории содержится код для реализации и запуска параллельного инференса больших языковых моделей (LLM) по методу Hogwild! Inference — подхода, при котором несколько копий одной и той же модели выполняются параллельно и синхронизируются через общий attention-кэш. Вместо заранее заданной стратегии кооперации, модели сами решают, как разделить задачи, используя видимость токенов друг друга в общем KV-кэше и минимальную задержку при взаимодействии. Метод позволяет моделям в процессе инференса договариваться о стратегии: распределять подзадачи, исправлять ошибки других агентов, перепланировать ход решения. Для этого используются специальные конфигурации shared attention cache (contiguous, interleaved и combined), а также промптинг, стимулирующий модели проверять, не дублируют ли они работу друг друга. Эксперименты с открытыми LLM (например, QwQ-32B, DeepSeek-R1) показывают, что даже без дополнительного обучения модели способны обнаруживать дублирование, корректировать план решения и достигать сопоставимого или лучшего качества при меньшем количестве итераций. Кроме того, предложенная архитектура демонстрирует хорошее аппаратное ускорение за счёт снижения необходимости повторного вычисления attention-блоков. Код может быть полезен LLM-инженерам и исследователям, специалистам по агентам и DL исследователям.
статья | код
В репозитории содержится код для реализации и запуска параллельного инференса больших языковых моделей (LLM) по методу Hogwild! Inference — подхода, при котором несколько копий одной и той же модели выполняются параллельно и синхронизируются через общий attention-кэш. Вместо заранее заданной стратегии кооперации, модели сами решают, как разделить задачи, используя видимость токенов друг друга в общем KV-кэше и минимальную задержку при взаимодействии. Метод позволяет моделям в процессе инференса договариваться о стратегии: распределять подзадачи, исправлять ошибки других агентов, перепланировать ход решения. Для этого используются специальные конфигурации shared attention cache (contiguous, interleaved и combined), а также промптинг, стимулирующий модели проверять, не дублируют ли они работу друг друга. Эксперименты с открытыми LLM (например, QwQ-32B, DeepSeek-R1) показывают, что даже без дополнительного обучения модели способны обнаруживать дублирование, корректировать план решения и достигать сопоставимого или лучшего качества при меньшем количестве итераций. Кроме того, предложенная архитектура демонстрирует хорошее аппаратное ускорение за счёт снижения необходимости повторного вычисления attention-блоков. Код может быть полезен LLM-инженерам и исследователям, специалистам по агентам и DL исследователям.
статья | код
GitHub
GitHub - eqimp/hogwild_llm: Official PyTorch implementation for Hogwild! Inference: Parallel LLM Generation with a Concurrent Attention…
Official PyTorch implementation for Hogwild! Inference: Parallel LLM Generation with a Concurrent Attention Cache - eqimp/hogwild_llm
❤7🔥7😍1
MIGTF
В репозитории содержится код для воспроизведения результатов работы по дополнению пропущенных связей в knowledge graph с использованием новой модели факторизации тензоров со смешанной геометрией (MIG-TF). Авторы предлагают подход, комбинирующий евклидову геометрию, через Tucker-разложение, и гиперболическую геометрию, через введённый гиперболический тернарный член взаимодействия TPTF. Такая конструкция позволяет более точно моделировать структурные особенности реальных knowledge graph, где распределение связей зачастую лишь частично следует иерархической структуре. В экспериментах показано, что предложенная модель превосходит по качеству как чисто евклидовые, так и чисто гиперболические модели, достигая state-of-the-art результатов на стандартных датасетах FB15k-237, YAGO3-10 и WN18RR при меньшем числе параметров. Особенно заметно улучшение на графах с нарушенной иерархией (например, FB15k-237). Кроме того, авторы изучают влияние кривизны гиперболической компоненты, вводят регуляризацию через ортогонализацию и анализируют робастность модели к зашумлённости обучающих данных. Работа может быть полезна исследователям в области factorization-based подходов к knowledge graph completion, а также специалистам, занимающимся построением компактных и эффективных моделей для анализа графовых данных со смешанной структурой.
статья | код
В репозитории содержится код для воспроизведения результатов работы по дополнению пропущенных связей в knowledge graph с использованием новой модели факторизации тензоров со смешанной геометрией (MIG-TF). Авторы предлагают подход, комбинирующий евклидову геометрию, через Tucker-разложение, и гиперболическую геометрию, через введённый гиперболический тернарный член взаимодействия TPTF. Такая конструкция позволяет более точно моделировать структурные особенности реальных knowledge graph, где распределение связей зачастую лишь частично следует иерархической структуре. В экспериментах показано, что предложенная модель превосходит по качеству как чисто евклидовые, так и чисто гиперболические модели, достигая state-of-the-art результатов на стандартных датасетах FB15k-237, YAGO3-10 и WN18RR при меньшем числе параметров. Особенно заметно улучшение на графах с нарушенной иерархией (например, FB15k-237). Кроме того, авторы изучают влияние кривизны гиперболической компоненты, вводят регуляризацию через ортогонализацию и анализируют робастность модели к зашумлённости обучающих данных. Работа может быть полезна исследователям в области factorization-based подходов к knowledge graph completion, а также специалистам, занимающимся построением компактных и эффективных моделей для анализа графовых данных со смешанной структурой.
статья | код
GitHub
GitHub - hse-cs/MIGTF
Contribute to hse-cs/MIGTF development by creating an account on GitHub.
🔥8❤1
Forwarded from Научный опенсорс
В канун Первомая выпустили статью на Хабре, где рассказываем о деталях реализации нашего проекта OSA — "улучшателя" научных репозиториев на базе LLM.
https://habr.com/ru/companies/spbifmo/articles/906018/
Также в статье поделились примерами использования OSA и обратной связью от коллег, попробовавших проект на своих репозиториях. В их числе — сотрудники лаборатории КТ ИТМО, ФКН ВШЭ и бразильского Universidade Federal de Juiz de Fora.
Приятного чтения!
P.S. Попробовать Осу можно здесь. Будем рады вашим звёздочкам.
https://habr.com/ru/companies/spbifmo/articles/906018/
Также в статье поделились примерами использования OSA и обратной связью от коллег, попробовавших проект на своих репозиториях. В их числе — сотрудники лаборатории КТ ИТМО, ФКН ВШЭ и бразильского Universidade Federal de Juiz de Fora.
Приятного чтения!
P.S. Попробовать Осу можно здесь. Будем рады вашим звёздочкам.
🔥6❤1👍1
invertible-cd
В репозитории содержится код для реализации метода Invertible Consistency Distillation (iCD) — нового подхода к ускоренному текстово-ориентированному редактированию изображений с возможностью точной инверсии входного изображения. Исследователи из Яндекса и ВШЭ демонстрируют, что iCD позволяет выполнять как генерацию по текстовому описанию, так и обратное кодирование реального изображения в латентное пространство за 3–4 итерации, что делает метод пригодным для быстрой и реалистичной генерации и правок. Ключевым элементом является модифицированная схема consistency distillation с разделением на прямую и обратную модели, поддерживающими многопроходную инверсию. Дополнительно используется динамическое управление шкалой classifier-free guidance, что улучшает качество реконструкции без увеличения вычислительных затрат. Эксперименты на моделях SD1.5 и SDXL показывают, что iCD превосходит или сравним по качеству с SOTA-методами, такими как NTI, InfEdit, ReNoise, но работает в несколько раз быстрее: 8 шагов против 50–150 у конкурентов. Работа может быть полезна разработчикам инструментов для редактирования изображений, исследователям в области дистилляции диффузионных моделей и тем, кто разрабатывает быстрые пайплайны генерации и редактирования в условиях ограниченных ресурсов.
статья | код
В репозитории содержится код для реализации метода Invertible Consistency Distillation (iCD) — нового подхода к ускоренному текстово-ориентированному редактированию изображений с возможностью точной инверсии входного изображения. Исследователи из Яндекса и ВШЭ демонстрируют, что iCD позволяет выполнять как генерацию по текстовому описанию, так и обратное кодирование реального изображения в латентное пространство за 3–4 итерации, что делает метод пригодным для быстрой и реалистичной генерации и правок. Ключевым элементом является модифицированная схема consistency distillation с разделением на прямую и обратную модели, поддерживающими многопроходную инверсию. Дополнительно используется динамическое управление шкалой classifier-free guidance, что улучшает качество реконструкции без увеличения вычислительных затрат. Эксперименты на моделях SD1.5 и SDXL показывают, что iCD превосходит или сравним по качеству с SOTA-методами, такими как NTI, InfEdit, ReNoise, но работает в несколько раз быстрее: 8 шагов против 50–150 у конкурентов. Работа может быть полезна разработчикам инструментов для редактирования изображений, исследователям в области дистилляции диффузионных моделей и тем, кто разрабатывает быстрые пайплайны генерации и редактирования в условиях ограниченных ресурсов.
статья | код
GitHub
GitHub - yandex-research/invertible-cd: [NeurIPS'2024] Invertible Consistency Distillation for Text-Guided Image Editing in Around…
[NeurIPS'2024] Invertible Consistency Distillation for Text-Guided Image Editing in Around 7 Steps - yandex-research/invertible-cd
🔥6👍2
Forwarded from ФКН НИУ ВШЭ
SmartMLOps — платформа для превращения изобретений в полноценные сервисы
Специалисты Вышки создали MLOps-платформу для исследователей и студентов ВШЭ в области искусственного интеллекта, которые хотели бы превратить своё изобретение в полноценный сервис.
В чём преимущества платформы?
✅ сокращает затраты времени и ресурсов для получения продуктовых сервисов
✅ обеспечивает необходимый уровень надёжности, безопасности и прозрачности использования ИИ-технологий
✅ позволяет разработчикам экономить на непрофильной деятельности, такой как системное администрирование, DevOps и CI/CD
⭐️ Чтобы воспользоваться платформой, нужно оставить заявку и дождаться её согласования. До конца 2025 года все желающие могут принять участие в опытной эксплуатации системы SmartMLOps.
— рассказал Сергей Лебедев, руководитель департамента программной инженерии, доцент💻 💻 💻
#новости #ии
Специалисты Вышки создали MLOps-платформу для исследователей и студентов ВШЭ в области искусственного интеллекта, которые хотели бы превратить своё изобретение в полноценный сервис.
В чём преимущества платформы?
«Разработка такого интересного и перспективного инфраструктурного проекта стала существенным вызовом и назревшей необходимостью для университета. Нам удалось сформировать уникальную команду профессионалов, привлечь к работе студентов и стажёров-исследователей»,
— рассказал Сергей Лебедев, руководитель департамента программной инженерии, доцент
#новости #ии
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8👍1
🎉 Стартует конкурс проектов с открытым кодом для студентов ФКН НИУ ВШЭ! 🎉
Приглашаем вас принять участие в первом конкурсе проектов с открытым исходным кодом. Это отличный шанс прокачать свои навыки, сделать вклад в open-source сообщество и выиграть призы!
📌 Цель конкурса
– Популяризировать открытые проекты среди студентов ФКН НИУ ВШЭ.
– Поощрить создание и публикацию собственных разработок с открытым исходным кодом.
👥 Кто может участвовать
– Аспиранты и студенты всех курсов и направлений подготовки ФКН.
– Индивидуальные авторы и команды.
Принимаются проекты любых форматов:
* Результаты курсовых работ (КР)
* Выпускные квалификационные работы (ВКР)
* Любые другие инициативные разработки
🚀 Что вас ждет 🚀
- Прокачка навыков🤔
- Наставничество от экспертов из партнёрских организаций🤑
- Интеграция в мировое open-source сообщество👏
- Подарки и награды победителям конкурса💰
📝 Как стать участником
1) Заполните заявку на сайте конкурса
2) Прикрепите ссылку на репозиторий вашего проекта (GitHub/GitLab/GitVerse)
Дедлайн — 8 июня
Приглашаем вас принять участие в первом конкурсе проектов с открытым исходным кодом. Это отличный шанс прокачать свои навыки, сделать вклад в open-source сообщество и выиграть призы!
📌 Цель конкурса
– Популяризировать открытые проекты среди студентов ФКН НИУ ВШЭ.
– Поощрить создание и публикацию собственных разработок с открытым исходным кодом.
👥 Кто может участвовать
– Аспиранты и студенты всех курсов и направлений подготовки ФКН.
– Индивидуальные авторы и команды.
Принимаются проекты любых форматов:
* Результаты курсовых работ (КР)
* Выпускные квалификационные работы (ВКР)
* Любые другие инициативные разработки
🚀 Что вас ждет 🚀
- Прокачка навыков
- Наставничество от экспертов из партнёрских организаций
- Интеграция в мировое open-source сообщество
- Подарки и награды победителям конкурса
📝 Как стать участником
1) Заполните заявку на сайте конкурса
2) Прикрепите ссылку на репозиторий вашего проекта (GitHub/GitLab/GitVerse)
Дедлайн — 8 июня
Please open Telegram to view this post
VIEW IN TELEGRAM
cs.hse.ru
Национальный исследовательский университет «Высшая школа экономики»
🔥6👍3😍1
Открытый код ФКН ВШЭ pinned «🎉 Стартует конкурс проектов с открытым кодом для студентов ФКН НИУ ВШЭ! 🎉 Приглашаем вас принять участие в первом конкурсе проектов с открытым исходным кодом. Это отличный шанс прокачать свои навыки, сделать вклад в open-source сообщество и выиграть призы!…»
Forwarded from ФКН НИУ ВШЭ
Kotlin-митапы снова в игре
💻 💻 💻 совместно с российской группой пользователей Kotlin открывают серию митапов, посвящённых разным аспектам разработки на Kotlin и экосистемы языка. Митап подойдёт как новичкам, так и бывалым котлиновцам.
В программе:
⤵️ 18:00 — Открытие митапа
🎙️ Александр Нозик, лидер Kotlin-сообщества
⤵️ 18:10 — Доклад «Горячие и холодные потоки в Kotlin Flow»
🎙️ Яна Седова, специалист по автоматизации технических процессов в Яндекс Крауд
⤵️ 19:10 — Доклад «Пополнение в семье kotlinx: зачем нам этот ваш kotlinx.fuzz?»
🎙️ Александр Соколинский, Яндекс Go, Android Architect
📆 Когда: 30 мая в 18:00
🗺️ Где: Покровский бульвар, 11
Участие бесплатное по регистрации🐭
#анонсы #разработка
В программе:
Участие бесплатное по регистрации
#анонсы #разработка
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥5❤3👍2
Forwarded from Yandex for Developers
Подводим итоги программы поддержки независимых разработчиков от Yandex Open Source. Нам прислали 120 проектов в трёх категориях: обработка и хранение данных, машинное обучение и разработка. Забавный и поучительный факт: один участник отправил заявку 15 марта в 23:59 — в последнюю минуту подачи. И победил!
Подписывайтесь:
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5❤🔥2
Forwarded from Научный опенсорс (Nikolay Nikitin)
Мы тут вместе с учебно-научной лабораторией ИТМО LISA организовали мини-семинар по разборке удачных и неудачных реализаций студенческих репозиториев. Заодно обсудим опыт улучшения некоторых из них с помощью нашего ИИ-инструмента OSA (про который недавно писали на Хабре).
С нашей стороны в роли эксперта участвует Андрей Гетманов - исследователь из NSS Lab, руководитель разработки OSA и активный участник соообщества ITMO OpenSource.
Если интересно послушать - подключиться можно тут в зуме, вот как раз начинаем.
С нашей стороны в роли эксперта участвует Андрей Гетманов - исследователь из NSS Lab, руководитель разработки OSA и активный участник соообщества ITMO OpenSource.
Если интересно послушать - подключиться можно тут в зуме, вот как раз начинаем.
🔥7❤4👍2
tencdm
В репозитории содержится код для воспроизведения экспериментов по генерации текста методом TEncDM (Text Encoding Diffusion Model) — диффузионной модели, работающей в пространстве выходных представлений предобученной языковой модели, а не в embedding-пространстве, как в большинстве предыдущих работ. Авторы демонстрируют, что использование таких представлений, содержащих контекстную информацию, существенно упрощает задачу денойзинга и повышает качество генерации. Ключевая особенность TEncDM — декодер, специально обученный восстанавливать текст из зашумленных латентных представлений, что позволяет компенсировать ошибки на этапах диффузии. Также авторы подробно исследуют влияние self-conditioning и scheduler’ов шума на качество модели. Предложен новый scheduler (tan-d), равномерно распределяющий сложность по всем шагам денойзинга. В экспериментах показано, что при использовании таких компонентов модель превосходит существующие SOTA подходы (DiffuSeq, AR-Diffusion и др.) на задачах перефразирования, суммаризации и упрощения текста (QQP, XSum, Wiki-Auto). Репозиторий предоставляет полный пайплайн: тренировка диффузионной модели в пространстве энкодингов, обучение декодера с corrupt-стратегией, настройка self-conditioning и различных схем шумов. Код открытый, реализован на PyTorch и включает запуск на множестве датасетов (ROCStories, Wikipedia и др.), поддерживая генерацию в условиях как с условием (conditional), так и без него. Работа может быть полезна исследователям в области генерации текста, особенно тем, кто занимается развитием диффузионных моделей, а также разработчикам, ищущим более интерпретируемые и мощные альтернативы автокорреляционным языковым моделям.
статья | код
В репозитории содержится код для воспроизведения экспериментов по генерации текста методом TEncDM (Text Encoding Diffusion Model) — диффузионной модели, работающей в пространстве выходных представлений предобученной языковой модели, а не в embedding-пространстве, как в большинстве предыдущих работ. Авторы демонстрируют, что использование таких представлений, содержащих контекстную информацию, существенно упрощает задачу денойзинга и повышает качество генерации. Ключевая особенность TEncDM — декодер, специально обученный восстанавливать текст из зашумленных латентных представлений, что позволяет компенсировать ошибки на этапах диффузии. Также авторы подробно исследуют влияние self-conditioning и scheduler’ов шума на качество модели. Предложен новый scheduler (tan-d), равномерно распределяющий сложность по всем шагам денойзинга. В экспериментах показано, что при использовании таких компонентов модель превосходит существующие SOTA подходы (DiffuSeq, AR-Diffusion и др.) на задачах перефразирования, суммаризации и упрощения текста (QQP, XSum, Wiki-Auto). Репозиторий предоставляет полный пайплайн: тренировка диффузионной модели в пространстве энкодингов, обучение декодера с corrupt-стратегией, настройка self-conditioning и различных схем шумов. Код открытый, реализован на PyTorch и включает запуск на множестве датасетов (ROCStories, Wikipedia и др.), поддерживая генерацию в условиях как с условием (conditional), так и без него. Работа может быть полезна исследователям в области генерации текста, особенно тем, кто занимается развитием диффузионных моделей, а также разработчикам, ищущим более интерпретируемые и мощные альтернативы автокорреляционным языковым моделям.
статья | код
GitHub
GitHub - M0RJIQUE/tencdm
Contribute to M0RJIQUE/tencdm development by creating an account on GitHub.
❤9🔥6👍2😍2
PersonGenSampler
В репозитории представлен код для воспроизведения результатов работы по критическому анализу стратегий семплирования в text-to-image генерации с использованием диффузионных моделей. Авторы подробно рассматривают различные подходы: Mixed, Switching, Multi-stage, Masked sampling, а также сравнивают их с существующими решениями. В частности, предлагается использовать смешение траекторий генерации между концептом и его суперклассом, а также различные способы комбинирования guidance сигналов. В серии экспериментов на датасетах Dreambooth и различных бэкбонах (SD-2, SD-XL, PixArt-alpha) показано, что грамотно выбранная стратегия семплирования может заметно повысить соответствие изображе. Отдельное внимание уделено анализу вычислительных затрат различных методов. Результаты обобщены в виде практического фреймворка для выбора стратегии в зависимости от приоритетов. Работа будет полезна исследователям и инженерам, занимающимся генеративными моделями, а также разработчикам приложений в креативных индустриях и автоматизации контента.
статья | код
В репозитории представлен код для воспроизведения результатов работы по критическому анализу стратегий семплирования в text-to-image генерации с использованием диффузионных моделей. Авторы подробно рассматривают различные подходы: Mixed, Switching, Multi-stage, Masked sampling, а также сравнивают их с существующими решениями. В частности, предлагается использовать смешение траекторий генерации между концептом и его суперклассом, а также различные способы комбинирования guidance сигналов. В серии экспериментов на датасетах Dreambooth и различных бэкбонах (SD-2, SD-XL, PixArt-alpha) показано, что грамотно выбранная стратегия семплирования может заметно повысить соответствие изображе. Отдельное внимание уделено анализу вычислительных затрат различных методов. Результаты обобщены в виде практического фреймворка для выбора стратегии в зависимости от приоритетов. Работа будет полезна исследователям и инженерам, занимающимся генеративными моделями, а также разработчикам приложений в креативных индустриях и автоматизации контента.
статья | код
GitHub
GitHub - ControlGenAI/PersonGenSampler: This is the official implementation of "Beyond Fine-Tuning: A Systematic Study of Sampling…
This is the official implementation of "Beyond Fine-Tuning: A Systematic Study of Sampling Techniques in Personalized Image Generation" - ControlGenAI/PersonGenSampler
❤4🤔1
Challenges-on-generating-structurally-diverse-graphs
В репозитории опубликован код для воспроизведения результатов работы по генерации структурно разнообразных графов. Авторы впервые формализуют и системно исследуют задачу построения наборов графов с максимальным структурным разнообразием — задача, критически важная для тестирования алгоритмов на графах, оценки нейросетевых приближений и построения бенчмарков. В работе подробно анализируется, как определить меру разнообразия для множества графов и почему задача не сводится к стандартным генераторам случайных графов. Введён показатель diversity на основе агрегирования попарных расстояний между графами (Energy), обладающий важными теоретическими свойствами, как монотонность и уникальность. Экспериментально исследованы и сравниваются различные алгоритмы генерации: жадный отбор из большого пула, генетические алгоритмы, локальная оптимизация и нейросетевые генеративные модели. Показано, что предлагаемые методы существенно превосходят классические случайные модели, например, Erdős–Rényi, GraphWorld, по мере diversity, позволяя получать выборки графов с сильно отличающимися характеристиками. Исследование также даёт новые инсайты о свойствах различных метрик расстояния между графами. Работа будет полезна исследователям в области графов, алгоритмистам, а также разработчикам бенчмарков и тестовых наборов для графовых задач.
статья | код
В репозитории опубликован код для воспроизведения результатов работы по генерации структурно разнообразных графов. Авторы впервые формализуют и системно исследуют задачу построения наборов графов с максимальным структурным разнообразием — задача, критически важная для тестирования алгоритмов на графах, оценки нейросетевых приближений и построения бенчмарков. В работе подробно анализируется, как определить меру разнообразия для множества графов и почему задача не сводится к стандартным генераторам случайных графов. Введён показатель diversity на основе агрегирования попарных расстояний между графами (Energy), обладающий важными теоретическими свойствами, как монотонность и уникальность. Экспериментально исследованы и сравниваются различные алгоритмы генерации: жадный отбор из большого пула, генетические алгоритмы, локальная оптимизация и нейросетевые генеративные модели. Показано, что предлагаемые методы существенно превосходят классические случайные модели, например, Erdős–Rényi, GraphWorld, по мере diversity, позволяя получать выборки графов с сильно отличающимися характеристиками. Исследование также даёт новые инсайты о свойствах различных метрик расстояния между графами. Работа будет полезна исследователям в области графов, алгоритмистам, а также разработчикам бенчмарков и тестовых наборов для графовых задач.
статья | код
GitHub
GitHub - Abusagit/Challenges-on-generating-structurally-diverse-graphs: Official repository of our NeurIPS-2024 publication
Official repository of our NeurIPS-2024 publication - Abusagit/Challenges-on-generating-structurally-diverse-graphs
❤5🔥2👍1
Исследователь Yandex Research, Младший научный сотрудник Научно-учебной лаборатории компании Яндекс
Аннотация: В развитие эмпирической науки про глубокое обучение существенную роль играет open-source (в широком смысле - открытый код, данные, идеи и воспроизводимые исследования). В последнее время эту идею разделяют не все. Поговорим про то насколько открытость важна со стороны науки, и что для ее продвижения можно делать. Так как я занимаюсь глубинным обучением на табличных данных – какое-то количество примеров будет из этой области, а не из мира LLM.
Место: Zoom
Идентификатор конференции: 884 0765 6151
Код доступа: 655748
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7👍3🐳3🤔1😍1
DVAR
В репозитории опубликован код для воспроизведения результатов работы по ускорению персонализации text-to-image моделей при помощи нового критерия ранней остановки обучения. Авторы анализируют динамику тренировки популярных методов кастомизации, таких как Textual Inversion, DreamBooth и Custom Diffusion, и показывают, что стандартные метрики сходимости не отражают реальный прогресс и часто неинформативны. Ключевой вклад работы — введение критерия Deterministic VARiance Evaluation (DVAR), который позволяет автоматически и гораздо раньше завершать обучение без потери качества результатов. DVAR оценивает стабилизацию детерминированной версии loss на фиксированном наборе данных, что позволяет сократить время обучения до 8 раз. Авторы демонстрируют эффективность подхода на 48 концептах и трёх популярных personalization-методах. Эксперименты показывают, что ранняя остановка по DVAR почти не снижает качество генерации, а также предотвращает переобучение и экономит вычислительные ресурсы. Работа будет полезна исследователям и инженерам, работающим с кастомизацией diffusion-моделей, а также разработчикам инструментов для креативных и промышленных задач генерации изображений.
статья | код
В репозитории опубликован код для воспроизведения результатов работы по ускорению персонализации text-to-image моделей при помощи нового критерия ранней остановки обучения. Авторы анализируют динамику тренировки популярных методов кастомизации, таких как Textual Inversion, DreamBooth и Custom Diffusion, и показывают, что стандартные метрики сходимости не отражают реальный прогресс и часто неинформативны. Ключевой вклад работы — введение критерия Deterministic VARiance Evaluation (DVAR), который позволяет автоматически и гораздо раньше завершать обучение без потери качества результатов. DVAR оценивает стабилизацию детерминированной версии loss на фиксированном наборе данных, что позволяет сократить время обучения до 8 раз. Авторы демонстрируют эффективность подхода на 48 концептах и трёх популярных personalization-методах. Эксперименты показывают, что ранняя остановка по DVAR почти не снижает качество генерации, а также предотвращает переобучение и экономит вычислительные ресурсы. Работа будет полезна исследователям и инженерам, работающим с кастомизацией diffusion-моделей, а также разработчикам инструментов для креативных и промышленных задач генерации изображений.
статья | код
GitHub
GitHub - yandex-research/DVAR: Official implementation of "Is This Loss Informative? Faster Text-to-Image Customization by Tracking…
Official implementation of "Is This Loss Informative? Faster Text-to-Image Customization by Tracking Objective Dynamics" (NeurIPS 2023) - yandex-research/DVAR
❤🔥6😍3🔥2❤1
Forwarded from Кружковое движение НТИ
🔥Набор стажеров в проекты свободного ПО от программы «Код для всех» до 31 июля — в программе уже 12 проектов!
Новый сезон оплачиваемых стажировок «Код для всех» уже стартовал! Кружковое движение НТИ вместе с партнерами приглашают к участию школьников, студентов и молодых разработчиков, готовых включиться в проекты свободного ПО и помочь в их развитии.
📥 Прием заявок до 31 июля
Стажеров ждут в open source продуктах от CyberOK, ROBBO, Кружкового движения НТИ и платформы Берлога. Теперь в программе 12 проектов — участники могут выбрать одно или несколько направлений. Для подачи заявки нужно заполнить анкету, прикрепить свои достижения и ссылки на уже имеющиеся контрибьюшены.
👨💻 Прошедшие отбор разработчики будут в течение 2-4 месяцев писать код в open source проектах под руководством менторов и смогут получать ежемесячную стипендию или итоговое вознаграждение от партнеров.
🌐 подробная информация и регистрация — по ссылке
Внимательно следите за новостями в чате и канале конкурса! Ждем ваши заявки 🫶
Новый сезон оплачиваемых стажировок «Код для всех» уже стартовал! Кружковое движение НТИ вместе с партнерами приглашают к участию школьников, студентов и молодых разработчиков, готовых включиться в проекты свободного ПО и помочь в их развитии.
📥 Прием заявок до 31 июля
Стажеров ждут в open source продуктах от CyberOK, ROBBO, Кружкового движения НТИ и платформы Берлога. Теперь в программе 12 проектов — участники могут выбрать одно или несколько направлений. Для подачи заявки нужно заполнить анкету, прикрепить свои достижения и ссылки на уже имеющиеся контрибьюшены.
👨💻 Прошедшие отбор разработчики будут в течение 2-4 месяцев писать код в open source проектах под руководством менторов и смогут получать ежемесячную стипендию или итоговое вознаграждение от партнеров.
🌐 подробная информация и регистрация — по ссылке
Внимательно следите за новостями в чате и канале конкурса! Ждем ваши заявки 🫶
gflownet-tlm
В репозитории представлен код для оптимизации обратной стратегии в GFlowNets методом Trajectory Likelihood Maximization. Идея простая: учим обратную стратегию, максимизируя правдоподобие полных траекторий, сэмплированных текущей прямой стратегией; затем обновляем прямую стратегию в эквивалентной задаче soft-RL (энтропийно-регуляризованный MDP) с вознаграждениями, задаваемыми новой обратной политикой. Такой чередующийся шаг легко встраивается в TB/DB/SubTB и офф-полиси RL и закрывает ограничение теории фиксированного обратного прохода, принятой в недавних связках GFlowNets — soft-RL. Авторы также обсуждают практические трюки для стабильности и дают условие сходимости при стабильных обновлениях PB и регрет-минимизации для PF. Эксперименты на Hypergrid, Bit Sequences, QM9 и sEH показывают более быструю сходимость и лучшее mode discovery в сложных и менее структурированных средах, особенно QM9; на сильно структурированной sEH выигрыш скромнее и сопоставим с фиксированным равномерным обратным проходом. Код и обучающие скрипты — открыты. Работа будет полезна исследователям GFlowNets и RL, а также практикам из областей дизайна биомолекул и материалов, где важно эффективно исследовать пространство дискретных объектов пропорционально награде.
статья | код
В репозитории представлен код для оптимизации обратной стратегии в GFlowNets методом Trajectory Likelihood Maximization. Идея простая: учим обратную стратегию, максимизируя правдоподобие полных траекторий, сэмплированных текущей прямой стратегией; затем обновляем прямую стратегию в эквивалентной задаче soft-RL (энтропийно-регуляризованный MDP) с вознаграждениями, задаваемыми новой обратной политикой. Такой чередующийся шаг легко встраивается в TB/DB/SubTB и офф-полиси RL и закрывает ограничение теории фиксированного обратного прохода, принятой в недавних связках GFlowNets — soft-RL. Авторы также обсуждают практические трюки для стабильности и дают условие сходимости при стабильных обновлениях PB и регрет-минимизации для PF. Эксперименты на Hypergrid, Bit Sequences, QM9 и sEH показывают более быструю сходимость и лучшее mode discovery в сложных и менее структурированных средах, особенно QM9; на сильно структурированной sEH выигрыш скромнее и сопоставим с фиксированным равномерным обратным проходом. Код и обучающие скрипты — открыты. Работа будет полезна исследователям GFlowNets и RL, а также практикам из областей дизайна биомолекул и материалов, где важно эффективно исследовать пространство дискретных объектов пропорционально награде.
статья | код
GitHub
GitHub - tgritsaev/gflownet-tlm: The source code for the paper "Optimizing Backward Policies in GFlowNets via Trajectory Likelihood…
The source code for the paper "Optimizing Backward Policies in GFlowNets via Trajectory Likelihood Maximization" (ICLR 2025) - tgritsaev/gflownet-tlm
🔥6❤2👍2