vaidya-with-certificates
В репозитории представлен код для построения сертификатов точности — специальных вычислимых критериев останова в задачах выпуклой оптимизации — подходящих для методов отсечения плоскости, использующих многоугольники в качестве локализаторов. В качестве примера авторы приводят метод Вайдьи, являющийся асимптотически оптимальным с точки зрения вызова оракула. Численные эксперименты показывают превосходство представленного метода построения сертификатов по сравнению с бейзлайн подходом. В качестве причины такого феномена исследователи называют отличие в методах: описываемый алгоритм ищет сертификаты, напрямую максимизирующие функцию, используемую для ограничения остатка. Работа может быть полезна исследователям в области оптимизации, DL-исследователям и математикам.
статья | код
В репозитории представлен код для построения сертификатов точности — специальных вычислимых критериев останова в задачах выпуклой оптимизации — подходящих для методов отсечения плоскости, использующих многоугольники в качестве локализаторов. В качестве примера авторы приводят метод Вайдьи, являющийся асимптотически оптимальным с точки зрения вызова оракула. Численные эксперименты показывают превосходство представленного метода построения сертификатов по сравнению с бейзлайн подходом. В качестве причины такого феномена исследователи называют отличие в методах: описываемый алгоритм ищет сертификаты, напрямую максимизирующие функцию, используемую для ограничения остатка. Работа может быть полезна исследователям в области оптимизации, DL-исследователям и математикам.
статья | код
GitHub
GitHub - egorgladin/vaidya-with-certificates
Contribute to egorgladin/vaidya-with-certificates development by creating an account on GitHub.
🔥7❤1
LightAutoML – история создания и победы
Александр Рыжков
Руководитель проекта LightAutoML
Победитель Kaggle AutoML Grand Prix 2024
Единственный в России 4х Kaggle Grand Master
Александр поделится историей создания фреймворка LightAutoML для автоматического построения моделей машинного обучения. Вы узнаете, как зародилась идея этого проекта и каким образом он превратился в мощный инструмент, сумевший превзойти решения Кремниевой долины и привести команду к победе на Kaggle AutoML Grand Prix 2024.
🕔 27 февраля в 18:30
📍 Покровский бульвар 11, ауд. N508
Открытый доклад для всех🚀
Александр Рыжков
Руководитель проекта LightAutoML
Победитель Kaggle AutoML Grand Prix 2024
Единственный в России 4х Kaggle Grand Master
Александр поделится историей создания фреймворка LightAutoML для автоматического построения моделей машинного обучения. Вы узнаете, как зародилась идея этого проекта и каким образом он превратился в мощный инструмент, сумевший превзойти решения Кремниевой долины и привести команду к победе на Kaggle AutoML Grand Prix 2024.
🕔 27 февраля в 18:30
Открытый доклад для всех
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10🔥4
heterophilous-graphs
В репозитории содержится код для воспроизведения результатов работы по критическому анализу оценки графовых нейронных сетей (GNN) на гетерофильных графах. Авторы выявили серьёзные недостатки популярных датасетов (squirrel, chameleon), включая дублирование узлов, что приводит к утечке данных между обучающей и тестовой выборками. Устранение дубликатов значительно снижает производительность моделей, меняя их ранжирование. Исследователи предлагают новые гетерофильные датасеты (roman-empire, amazon-ratings и др.), охватывающие различные домены и структурные свойства. Эксперименты показали, что стандартные GNN (например, GCN, GraphSAGE), особенно с модификацией разделения эго- и соседних эмбеддингов, часто превосходят специализированные модели для гетерофилии. Работа может быть полезна аналитикам данных, DL-исследователям и специалистам по графам.
статья | код
В репозитории содержится код для воспроизведения результатов работы по критическому анализу оценки графовых нейронных сетей (GNN) на гетерофильных графах. Авторы выявили серьёзные недостатки популярных датасетов (squirrel, chameleon), включая дублирование узлов, что приводит к утечке данных между обучающей и тестовой выборками. Устранение дубликатов значительно снижает производительность моделей, меняя их ранжирование. Исследователи предлагают новые гетерофильные датасеты (roman-empire, amazon-ratings и др.), охватывающие различные домены и структурные свойства. Эксперименты показали, что стандартные GNN (например, GCN, GraphSAGE), особенно с модификацией разделения эго- и соседних эмбеддингов, часто превосходят специализированные модели для гетерофилии. Работа может быть полезна аналитикам данных, DL-исследователям и специалистам по графам.
статья | код
GitHub
GitHub - yandex-research/heterophilous-graphs: A Critical Look at the Evaluation of GNNs under Heterophily: Are We Really Making…
A Critical Look at the Evaluation of GNNs under Heterophily: Are We Really Making Progress? - yandex-research/heterophilous-graphs
🔥11❤3
Открытый код ФКН ВШЭ
LightAutoML – история создания и победы Александр Рыжков Руководитель проекта LightAutoML Победитель Kaggle AutoML Grand Prix 2024 Единственный в России 4х Kaggle Grand Master Александр поделится историей создания фреймворка LightAutoML для автоматического…
Привет!
Напоминаем, что сегодня в 18:30 в аудитории N508 Александр Рыжков расскажет про LightAutoML и про себя 😎
Приходите послушать и задать свои вопросы Александру
Напоминаем, что сегодня в 18:30 в аудитории N508 Александр Рыжков расскажет про LightAutoML и про себя 😎
Приходите послушать и задать свои вопросы Александру
🔥13
btard
В репозитории представлен код для проведения безопасного распределённого обучения нейронных сетей с учетом атак Byzantine. Авторы предлагают новый протокол BTARD-SGD, который сочетает эффективность современных алгоритмов All‑Reduce с криптографическими методами проверки целостности данных.В работе проведён строгий теоретический анализ сходимости как для выпуклых, так и для невыпуклых задач, а также для случаев с тяжелыми хвостами распределения градиентов. Дополнительно предложена эвристика для защиты от Sybil‑атак, позволяющая новым участникам присоединяться к обучению только после демонстрации надёжности своих вычислений. Экспериментальная оценка включает обучение ResNet‑18 на CIFAR‑10 и предобучение ALBERT‑large, где предложенный протокол успешно противостоит различным типам атак (обратное знаковое, атаки случайным направлением, флиппинг меток, задержка градиентов и др.), позволяя быстро восстановить качество модели после атак. Работа может быть полезна исследователям в области распределённого обучения, специалистов по безопасности ИИ и разработчикам систем коллективного обучения, где важно объединять вычислительные ресурсы без риска компрометации результатов из-за недобросовестных участников.
статья | код
В репозитории представлен код для проведения безопасного распределённого обучения нейронных сетей с учетом атак Byzantine. Авторы предлагают новый протокол BTARD-SGD, который сочетает эффективность современных алгоритмов All‑Reduce с криптографическими методами проверки целостности данных.В работе проведён строгий теоретический анализ сходимости как для выпуклых, так и для невыпуклых задач, а также для случаев с тяжелыми хвостами распределения градиентов. Дополнительно предложена эвристика для защиты от Sybil‑атак, позволяющая новым участникам присоединяться к обучению только после демонстрации надёжности своих вычислений. Экспериментальная оценка включает обучение ResNet‑18 на CIFAR‑10 и предобучение ALBERT‑large, где предложенный протокол успешно противостоит различным типам атак (обратное знаковое, атаки случайным направлением, флиппинг меток, задержка градиентов и др.), позволяя быстро восстановить качество модели после атак. Работа может быть полезна исследователям в области распределённого обучения, специалистов по безопасности ИИ и разработчикам систем коллективного обучения, где важно объединять вычислительные ресурсы без риска компрометации результатов из-за недобросовестных участников.
статья | код
GitHub
GitHub - yandex-research/btard: Code for the paper "Secure Distributed Training at Scale" (ICML 2022)
Code for the paper "Secure Distributed Training at Scale" (ICML 2022) - yandex-research/btard
👍7
Scientific Open Source Meetup прошел 26 феравля в Санкт-Петербурге
Митап организовали наши друзья из ИТМО. Была отличная атмосфера и интересные доклады на разные open source темы. Митапы проходят регулярно. Рекомендуем к посещению и просмотру🚀
Доклады:
🔘 Знакомство с open-source AI экосистемой Китая, Олег Сиротюк, OpenScaler
🔘 OSA — ИИ-помощник для разработки научного открытого кода, Андрей Гетманов, исследователь и опенсорс энтузиаст, ИТМО
🔘 От Платона до Саурона. Путеводитель по разработке открытого кода, Илья Ревин, руководитель команды в области ИИ для промышленности, ИТМО
🔘 AI для ОС и ОС для AI — кейс openEuler, Владимир Павлов, представитель технического комитета OpenScaler
🔘 Open Hardware: как его применять для разработок в сфере ИИ, Иван Лобанов, разработчик open-source решений, ИТМО
🔘 Как выиграть на хакатонах больше 20 миллионов рублей. Лучшие и худшие практики, команда RASCAR, ИТМО, МФТИ.
🔘 Открытый код НИУ ВШЭ, Михаил Гущин, старший научный сотрудник ФКН ВШЭ
🔘 GitVerse AI-first платформа для работы с кодом, Анатолий Шипов, управляющий директор СберТеха, лидер продукта GitVerse.
🔘 Дискуссия «Новые возможности развития научного опенсорса в России»
Материалы и запись докладов есть в открытом доступе.
Митап организовали наши друзья из ИТМО. Была отличная атмосфера и интересные доклады на разные open source темы. Митапы проходят регулярно. Рекомендуем к посещению и просмотру
Доклады:
🔘 Знакомство с open-source AI экосистемой Китая, Олег Сиротюк, OpenScaler
🔘 OSA — ИИ-помощник для разработки научного открытого кода, Андрей Гетманов, исследователь и опенсорс энтузиаст, ИТМО
🔘 От Платона до Саурона. Путеводитель по разработке открытого кода, Илья Ревин, руководитель команды в области ИИ для промышленности, ИТМО
🔘 AI для ОС и ОС для AI — кейс openEuler, Владимир Павлов, представитель технического комитета OpenScaler
🔘 Open Hardware: как его применять для разработок в сфере ИИ, Иван Лобанов, разработчик open-source решений, ИТМО
🔘 Как выиграть на хакатонах больше 20 миллионов рублей. Лучшие и худшие практики, команда RASCAR, ИТМО, МФТИ.
🔘 Открытый код НИУ ВШЭ, Михаил Гущин, старший научный сотрудник ФКН ВШЭ
🔘 GitVerse AI-first платформа для работы с кодом, Анатолий Шипов, управляющий директор СберТеха, лидер продукта GitVerse.
🔘 Дискуссия «Новые возможности развития научного опенсорса в России»
Материалы и запись докладов есть в открытом доступе.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8❤3👍1
Яндекс продлил приём заявок на программу грантов Yandex Open Source до 15 марта 2025
Это напоминалка для тех, кто пропустил конкурс, но хочет податься. Рассматриваются проекты по трекам:
🟥 Обработка и хранение данных: реляционные СУБД, NoSQL-БД, NewSQL-системы, S3, брокеры сообщений и инструменты для работы с ними.
🟥 Разработка: фреймворки, библиотеки и тулзы для фронтенда, бэкенда и мобилки.
🟥 Машинное обучение: ML-модели и датасеты.
12 победителей получат по 600 тысяч рублей на сервисы Yandex Cloud.
Проекты победителей 2024 года можно посмотреть тут🏆
Это напоминалка для тех, кто пропустил конкурс, но хочет податься. Рассматриваются проекты по трекам:
🟥 Обработка и хранение данных: реляционные СУБД, NoSQL-БД, NewSQL-системы, S3, брокеры сообщений и инструменты для работы с ними.
🟥 Разработка: фреймворки, библиотеки и тулзы для фронтенда, бэкенда и мобилки.
🟥 Машинное обучение: ML-модели и датасеты.
12 победителей получат по 600 тысяч рублей на сервисы Yandex Cloud.
Проекты победителей 2024 года можно посмотреть тут
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍1🔥1
CodeBuddy
В репозитории содержится код для реализации сервиса генерации кода мобильных приложений (iOS/Android) на основе больших языковых моделей. Авторы адаптируют существующую модель (CodeQwen) с помощью тонкой настройки (PEFT, QLoRA), а также проводят собственное бенчмаркинговое тестирование, ориентированное на задачи мобильной разработки (Swift). Предложенная микросервисная архитектура включает несколько модулей (API Gateway, чат, авторизация, ИИ-модуль), что повышает масштабируемость и удобство интеграции. Авторы показывают, что такой сервис способен автоматически генерировать компоненты пользовательского интерфейса, бизнес-логику, а также код тестов, упрощая рутинные задачи разработчика. Работа может быть полезна разработчикам мобильных приложений, специалистам по генерации кода и исследователям, занимающимся применением больших языковых моделей в узкоспециализированных областях.
статья | код
В репозитории содержится код для реализации сервиса генерации кода мобильных приложений (iOS/Android) на основе больших языковых моделей. Авторы адаптируют существующую модель (CodeQwen) с помощью тонкой настройки (PEFT, QLoRA), а также проводят собственное бенчмаркинговое тестирование, ориентированное на задачи мобильной разработки (Swift). Предложенная микросервисная архитектура включает несколько модулей (API Gateway, чат, авторизация, ИИ-модуль), что повышает масштабируемость и удобство интеграции. Авторы показывают, что такой сервис способен автоматически генерировать компоненты пользовательского интерфейса, бизнес-логику, а также код тестов, упрощая рутинные задачи разработчика. Работа может быть полезна разработчикам мобильных приложений, специалистам по генерации кода и исследователям, занимающимся применением больших языковых моделей в узкоспециализированных областях.
статья | код
GitHub
GitHub - LucyRez/CodeBuddy: CodeBuddy – service for code generation of mobile applications
CodeBuddy – service for code generation of mobile applications - LucyRez/CodeBuddy
👍7🔥4🐳2
LLM-Microscope
В репозитории содержится код для экспериментов, показывающих линейность трансформеров. Авторы исследуют механизм, при котором соседние слои декодера (например, в GPT, LLaMA, OPT и BLOOM) оказываются почти линейно зависимыми. Используя Procrustes-метрику, показывается, что выходы последовательных слоев совпадают с точностью ~99% (но лишь при учёте residual connection). Исследователи демонстрируют, что нормировка выхода каждого блока относительно residual-части весьма мала, и это приводит к «линейности» между слоями. Кроме того, в работе изучаются задачи «прореживания» (pruning) слоёв на основе выявленной линейности и замены некоторых блоков их линейными аналогами без значимой потери в качестве. Предложены также регуляризационные приёмы на основе косинусной близости, снижающие линейность для повышения выразительности модели и улучшения результатов на ряде задач (TinyStories, SuperGLUE). Работа может быть полезна исследователям и практикам, занимающимся анализом внутренней структуры больших языковых моделей, а также LLM-инженерам, стремящимся к более эффективным моделям при сохранении качества.
статья | код
В репозитории содержится код для экспериментов, показывающих линейность трансформеров. Авторы исследуют механизм, при котором соседние слои декодера (например, в GPT, LLaMA, OPT и BLOOM) оказываются почти линейно зависимыми. Используя Procrustes-метрику, показывается, что выходы последовательных слоев совпадают с точностью ~99% (но лишь при учёте residual connection). Исследователи демонстрируют, что нормировка выхода каждого блока относительно residual-части весьма мала, и это приводит к «линейности» между слоями. Кроме того, в работе изучаются задачи «прореживания» (pruning) слоёв на основе выявленной линейности и замены некоторых блоков их линейными аналогами без значимой потери в качестве. Предложены также регуляризационные приёмы на основе косинусной близости, снижающие линейность для повышения выразительности модели и улучшения результатов на ряде задач (TinyStories, SuperGLUE). Работа может быть полезна исследователям и практикам, занимающимся анализом внутренней структуры больших языковых моделей, а также LLM-инженерам, стремящимся к более эффективным моделям при сохранении качества.
статья | код
GitHub
GitHub - AIRI-Institute/LLM-Microscope
Contribute to AIRI-Institute/LLM-Microscope development by creating an account on GitHub.
👍6🔥2
ai4material_design
В репозитории приведён код, демонстрирующий эффективность подхода со «сжатым» представлением дефектов в двумерных материалах. Авторы отмечают, что 2D-кристаллы обладают колоссальным потенциалом для модификации их свойств путём контролируемого введения вакансий и замещений, однако большинство универсальных моделей плохо учитывают возникающие при этом квантовые эффекты. В работе предлагается рассматривать только атомы, непосредственно относящиеся к точечным дефектам (включая «виртуальные» атомы‑вакансии), и использовать графовые нейронные сети, дополненные специфичными для 2D-фаз признаками — разницей координат по оси z и новой меткой «EOS», связанной с осцилляциями электронных оболочек. Эксперименты показывают, что подход со «сжатым» представлением существенно превосходит классические графовые нейросети и методы с предварительными признаками. Авторы подчеркивают, что их метод значительно упрощает моделирование дефектных систем, повышая точность и эффективность. Работа может быть полезна инженерам, физикам и исследователям в областе новых материалов.
статья | код
В репозитории приведён код, демонстрирующий эффективность подхода со «сжатым» представлением дефектов в двумерных материалах. Авторы отмечают, что 2D-кристаллы обладают колоссальным потенциалом для модификации их свойств путём контролируемого введения вакансий и замещений, однако большинство универсальных моделей плохо учитывают возникающие при этом квантовые эффекты. В работе предлагается рассматривать только атомы, непосредственно относящиеся к точечным дефектам (включая «виртуальные» атомы‑вакансии), и использовать графовые нейронные сети, дополненные специфичными для 2D-фаз признаками — разницей координат по оси z и новой меткой «EOS», связанной с осцилляциями электронных оболочек. Эксперименты показывают, что подход со «сжатым» представлением существенно превосходит классические графовые нейросети и методы с предварительными признаками. Авторы подчеркивают, что их метод значительно упрощает моделирование дефектных систем, повышая точность и эффективность. Работа может быть полезна инженерам, физикам и исследователям в областе новых материалов.
статья | код
GitHub
GitHub - HSE-LAMBDA/ai4material_design: Code for Kazeev, N., Al-Maeeni, A.R., Romanov, I. et al. Sparse representation for machine…
Code for Kazeev, N., Al-Maeeni, A.R., Romanov, I. et al. Sparse representation for machine learning the properties of defects in 2D materials. npj Comput Mater 9, 113 (2023). - HSE-LAMBDA/ai4materi...
🔥9❤1
SAE-Reasoning
Коллаборация ученных из АИРИ, ВШЭ, Сколтеха, МТУСИ и Сбера, посвященная интерпретации больших языковых моделей с помощью SAE - разреженных автоэнкдеров. В репозитории находится код, демонстрирующий, как SAE могут выявлять и корректировать специфические признаки рассуждения внутри больших языковых моделей. Авторы анализируют активации модели при генерации цепочек рассуждений, используя специальную метрику ReasonScore, которая показывает, насколько конкретная латентная компонента связана с логическими словами и фразами. Далее исследователи показывают, как выборочно усиливать такие признаки в процессе генерации: при steering повышается склонность модели к пошаговым объяснениям, перепроверке вычислений и более глубокому анализу. Эксперименты на ряде задач (например, MATH-500) подтверждают, что подобная тонкая настройка увеличивает как количество промежуточных выводов, так и общее качество ответа. Код может быть полезен специалистам, занимающимся интерпретацией внутренних представлений LLM, DL-инженерам и DS-специалистам
статья | код
Коллаборация ученных из АИРИ, ВШЭ, Сколтеха, МТУСИ и Сбера, посвященная интерпретации больших языковых моделей с помощью SAE - разреженных автоэнкдеров. В репозитории находится код, демонстрирующий, как SAE могут выявлять и корректировать специфические признаки рассуждения внутри больших языковых моделей. Авторы анализируют активации модели при генерации цепочек рассуждений, используя специальную метрику ReasonScore, которая показывает, насколько конкретная латентная компонента связана с логическими словами и фразами. Далее исследователи показывают, как выборочно усиливать такие признаки в процессе генерации: при steering повышается склонность модели к пошаговым объяснениям, перепроверке вычислений и более глубокому анализу. Эксперименты на ряде задач (например, MATH-500) подтверждают, что подобная тонкая настройка увеличивает как количество промежуточных выводов, так и общее качество ответа. Код может быть полезен специалистам, занимающимся интерпретацией внутренних представлений LLM, DL-инженерам и DS-специалистам
статья | код
GitHub
GitHub - AIRI-Institute/SAE-Reasoning
Contribute to AIRI-Institute/SAE-Reasoning development by creating an account on GitHub.
🔥7
rapid-ao
В репозитории содержится код для воспроизведения экспериментов, описанных в работе про “Adaptive Divergence”, где ученные из лаборатории LAMBDA ФКН решают задачу быстрого согласования распределений в условиях дорогих симуляторов. Основная идея — использовать новое семейство «адаптивных расхождений», которое динамически регулирует мощность дискриминатора, переключаясь с «узких» моделей на «более сильные» лишь тогда, когда исходные распределения уже близки друг к другу. В частности, авторы демонстрируют, как это семейство ускоряет процедуру настройки высокоразмерных симуляторов с помощью чёрных ящиков. Репозиторий может быть полезен исследователям из физики, DL-инженерам и DS-специалистам
статья | код
В репозитории содержится код для воспроизведения экспериментов, описанных в работе про “Adaptive Divergence”, где ученные из лаборатории LAMBDA ФКН решают задачу быстрого согласования распределений в условиях дорогих симуляторов. Основная идея — использовать новое семейство «адаптивных расхождений», которое динамически регулирует мощность дискриминатора, переключаясь с «узких» моделей на «более сильные» лишь тогда, когда исходные распределения уже близки друг к другу. В частности, авторы демонстрируют, как это семейство ускоряет процедуру настройки высокоразмерных симуляторов с помощью чёрных ящиков. Репозиторий может быть полезен исследователям из физики, DL-инженерам и DS-специалистам
статья | код
GitHub
GitHub - HSE-LAMBDA/rapid-ao: Experiments from "Adaptive Divergence for Rapid Adversarial Optimization" paper.
Experiments from "Adaptive Divergence for Rapid Adversarial Optimization" paper. - HSE-LAMBDA/rapid-ao
🔥5❤2
digital-twin
В данном исследовании группа ученых из ВШЭ моделируют производительность систем хранения данных, используя вероятностный подход. Они рассматривают различные компоненты — кэш, SSD, HDD, — собирают показатели IOPS и задержки при разных конфигурациях и нагрузках, а затем обучают свои модели CatBoost и Normalizing Flow. Авторы демонстрируют, что этот подход не только предсказывает средние значения, но и охватывает всё распределение метрик, что особенно важно для оценки неопределенности и сценариев «цифрового двойника». Исследователи также проверяют надежность предсказаний с помощью известных зависимостей и отмечают, что полученные результаты тесно соответствуют реальным измерениям, превосходя простые методы вроде kNN. Данная методика может быть применена для анализа производительности, оптимизации настроек и предиктивного обслуживания систем хранения данных. Вклад авторов не ограничивается выбранным подходом: они также предоставляют открытый доступ к набору данных, использованному в исследовании. Найти его можно в репозитории с кодом. Работа может быть полезна ML-инженерам и DS-специалистам.
статья | код
В данном исследовании группа ученых из ВШЭ моделируют производительность систем хранения данных, используя вероятностный подход. Они рассматривают различные компоненты — кэш, SSD, HDD, — собирают показатели IOPS и задержки при разных конфигурациях и нагрузках, а затем обучают свои модели CatBoost и Normalizing Flow. Авторы демонстрируют, что этот подход не только предсказывает средние значения, но и охватывает всё распределение метрик, что особенно важно для оценки неопределенности и сценариев «цифрового двойника». Исследователи также проверяют надежность предсказаний с помощью известных зависимостей и отмечают, что полученные результаты тесно соответствуют реальным измерениям, превосходя простые методы вроде kNN. Данная методика может быть применена для анализа производительности, оптимизации настроек и предиктивного обслуживания систем хранения данных. Вклад авторов не ограничивается выбранным подходом: они также предоставляют открытый доступ к набору данных, использованному в исследовании. Найти его можно в репозитории с кодом. Работа может быть полезна ML-инженерам и DS-специалистам.
статья | код
GitHub
GitHub - HSE-LAMBDA/digital-twin: Performance Modeling of Data Storage Systems Using Generative Models, IEEE Access, vol. 13, pp.…
Performance Modeling of Data Storage Systems Using Generative Models, IEEE Access, vol. 13, pp. 49643-49658, 2025, doi: 10.1109/ACCESS.2025.3552409 - HSE-LAMBDA/digital-twin
❤6🔥4👍1🤔1
hogwild_llm
В репозитории содержится код для реализации и запуска параллельного инференса больших языковых моделей (LLM) по методу Hogwild! Inference — подхода, при котором несколько копий одной и той же модели выполняются параллельно и синхронизируются через общий attention-кэш. Вместо заранее заданной стратегии кооперации, модели сами решают, как разделить задачи, используя видимость токенов друг друга в общем KV-кэше и минимальную задержку при взаимодействии. Метод позволяет моделям в процессе инференса договариваться о стратегии: распределять подзадачи, исправлять ошибки других агентов, перепланировать ход решения. Для этого используются специальные конфигурации shared attention cache (contiguous, interleaved и combined), а также промптинг, стимулирующий модели проверять, не дублируют ли они работу друг друга. Эксперименты с открытыми LLM (например, QwQ-32B, DeepSeek-R1) показывают, что даже без дополнительного обучения модели способны обнаруживать дублирование, корректировать план решения и достигать сопоставимого или лучшего качества при меньшем количестве итераций. Кроме того, предложенная архитектура демонстрирует хорошее аппаратное ускорение за счёт снижения необходимости повторного вычисления attention-блоков. Код может быть полезен LLM-инженерам и исследователям, специалистам по агентам и DL исследователям.
статья | код
В репозитории содержится код для реализации и запуска параллельного инференса больших языковых моделей (LLM) по методу Hogwild! Inference — подхода, при котором несколько копий одной и той же модели выполняются параллельно и синхронизируются через общий attention-кэш. Вместо заранее заданной стратегии кооперации, модели сами решают, как разделить задачи, используя видимость токенов друг друга в общем KV-кэше и минимальную задержку при взаимодействии. Метод позволяет моделям в процессе инференса договариваться о стратегии: распределять подзадачи, исправлять ошибки других агентов, перепланировать ход решения. Для этого используются специальные конфигурации shared attention cache (contiguous, interleaved и combined), а также промптинг, стимулирующий модели проверять, не дублируют ли они работу друг друга. Эксперименты с открытыми LLM (например, QwQ-32B, DeepSeek-R1) показывают, что даже без дополнительного обучения модели способны обнаруживать дублирование, корректировать план решения и достигать сопоставимого или лучшего качества при меньшем количестве итераций. Кроме того, предложенная архитектура демонстрирует хорошее аппаратное ускорение за счёт снижения необходимости повторного вычисления attention-блоков. Код может быть полезен LLM-инженерам и исследователям, специалистам по агентам и DL исследователям.
статья | код
GitHub
GitHub - eqimp/hogwild_llm: Official PyTorch implementation for Hogwild! Inference: Parallel LLM Generation with a Concurrent Attention…
Official PyTorch implementation for Hogwild! Inference: Parallel LLM Generation with a Concurrent Attention Cache - eqimp/hogwild_llm
❤7🔥7😍1
MIGTF
В репозитории содержится код для воспроизведения результатов работы по дополнению пропущенных связей в knowledge graph с использованием новой модели факторизации тензоров со смешанной геометрией (MIG-TF). Авторы предлагают подход, комбинирующий евклидову геометрию, через Tucker-разложение, и гиперболическую геометрию, через введённый гиперболический тернарный член взаимодействия TPTF. Такая конструкция позволяет более точно моделировать структурные особенности реальных knowledge graph, где распределение связей зачастую лишь частично следует иерархической структуре. В экспериментах показано, что предложенная модель превосходит по качеству как чисто евклидовые, так и чисто гиперболические модели, достигая state-of-the-art результатов на стандартных датасетах FB15k-237, YAGO3-10 и WN18RR при меньшем числе параметров. Особенно заметно улучшение на графах с нарушенной иерархией (например, FB15k-237). Кроме того, авторы изучают влияние кривизны гиперболической компоненты, вводят регуляризацию через ортогонализацию и анализируют робастность модели к зашумлённости обучающих данных. Работа может быть полезна исследователям в области factorization-based подходов к knowledge graph completion, а также специалистам, занимающимся построением компактных и эффективных моделей для анализа графовых данных со смешанной структурой.
статья | код
В репозитории содержится код для воспроизведения результатов работы по дополнению пропущенных связей в knowledge graph с использованием новой модели факторизации тензоров со смешанной геометрией (MIG-TF). Авторы предлагают подход, комбинирующий евклидову геометрию, через Tucker-разложение, и гиперболическую геометрию, через введённый гиперболический тернарный член взаимодействия TPTF. Такая конструкция позволяет более точно моделировать структурные особенности реальных knowledge graph, где распределение связей зачастую лишь частично следует иерархической структуре. В экспериментах показано, что предложенная модель превосходит по качеству как чисто евклидовые, так и чисто гиперболические модели, достигая state-of-the-art результатов на стандартных датасетах FB15k-237, YAGO3-10 и WN18RR при меньшем числе параметров. Особенно заметно улучшение на графах с нарушенной иерархией (например, FB15k-237). Кроме того, авторы изучают влияние кривизны гиперболической компоненты, вводят регуляризацию через ортогонализацию и анализируют робастность модели к зашумлённости обучающих данных. Работа может быть полезна исследователям в области factorization-based подходов к knowledge graph completion, а также специалистам, занимающимся построением компактных и эффективных моделей для анализа графовых данных со смешанной структурой.
статья | код
GitHub
GitHub - hse-cs/MIGTF
Contribute to hse-cs/MIGTF development by creating an account on GitHub.
🔥8❤1
Forwarded from Научный опенсорс
В канун Первомая выпустили статью на Хабре, где рассказываем о деталях реализации нашего проекта OSA — "улучшателя" научных репозиториев на базе LLM.
https://habr.com/ru/companies/spbifmo/articles/906018/
Также в статье поделились примерами использования OSA и обратной связью от коллег, попробовавших проект на своих репозиториях. В их числе — сотрудники лаборатории КТ ИТМО, ФКН ВШЭ и бразильского Universidade Federal de Juiz de Fora.
Приятного чтения!
P.S. Попробовать Осу можно здесь. Будем рады вашим звёздочкам.
https://habr.com/ru/companies/spbifmo/articles/906018/
Также в статье поделились примерами использования OSA и обратной связью от коллег, попробовавших проект на своих репозиториях. В их числе — сотрудники лаборатории КТ ИТМО, ФКН ВШЭ и бразильского Universidade Federal de Juiz de Fora.
Приятного чтения!
P.S. Попробовать Осу можно здесь. Будем рады вашим звёздочкам.
🔥6❤1👍1
invertible-cd
В репозитории содержится код для реализации метода Invertible Consistency Distillation (iCD) — нового подхода к ускоренному текстово-ориентированному редактированию изображений с возможностью точной инверсии входного изображения. Исследователи из Яндекса и ВШЭ демонстрируют, что iCD позволяет выполнять как генерацию по текстовому описанию, так и обратное кодирование реального изображения в латентное пространство за 3–4 итерации, что делает метод пригодным для быстрой и реалистичной генерации и правок. Ключевым элементом является модифицированная схема consistency distillation с разделением на прямую и обратную модели, поддерживающими многопроходную инверсию. Дополнительно используется динамическое управление шкалой classifier-free guidance, что улучшает качество реконструкции без увеличения вычислительных затрат. Эксперименты на моделях SD1.5 и SDXL показывают, что iCD превосходит или сравним по качеству с SOTA-методами, такими как NTI, InfEdit, ReNoise, но работает в несколько раз быстрее: 8 шагов против 50–150 у конкурентов. Работа может быть полезна разработчикам инструментов для редактирования изображений, исследователям в области дистилляции диффузионных моделей и тем, кто разрабатывает быстрые пайплайны генерации и редактирования в условиях ограниченных ресурсов.
статья | код
В репозитории содержится код для реализации метода Invertible Consistency Distillation (iCD) — нового подхода к ускоренному текстово-ориентированному редактированию изображений с возможностью точной инверсии входного изображения. Исследователи из Яндекса и ВШЭ демонстрируют, что iCD позволяет выполнять как генерацию по текстовому описанию, так и обратное кодирование реального изображения в латентное пространство за 3–4 итерации, что делает метод пригодным для быстрой и реалистичной генерации и правок. Ключевым элементом является модифицированная схема consistency distillation с разделением на прямую и обратную модели, поддерживающими многопроходную инверсию. Дополнительно используется динамическое управление шкалой classifier-free guidance, что улучшает качество реконструкции без увеличения вычислительных затрат. Эксперименты на моделях SD1.5 и SDXL показывают, что iCD превосходит или сравним по качеству с SOTA-методами, такими как NTI, InfEdit, ReNoise, но работает в несколько раз быстрее: 8 шагов против 50–150 у конкурентов. Работа может быть полезна разработчикам инструментов для редактирования изображений, исследователям в области дистилляции диффузионных моделей и тем, кто разрабатывает быстрые пайплайны генерации и редактирования в условиях ограниченных ресурсов.
статья | код
GitHub
GitHub - yandex-research/invertible-cd: [NeurIPS'2024] Invertible Consistency Distillation for Text-Guided Image Editing in Around…
[NeurIPS'2024] Invertible Consistency Distillation for Text-Guided Image Editing in Around 7 Steps - yandex-research/invertible-cd
🔥6👍2
Forwarded from ФКН НИУ ВШЭ
SmartMLOps — платформа для превращения изобретений в полноценные сервисы
Специалисты Вышки создали MLOps-платформу для исследователей и студентов ВШЭ в области искусственного интеллекта, которые хотели бы превратить своё изобретение в полноценный сервис.
В чём преимущества платформы?
✅ сокращает затраты времени и ресурсов для получения продуктовых сервисов
✅ обеспечивает необходимый уровень надёжности, безопасности и прозрачности использования ИИ-технологий
✅ позволяет разработчикам экономить на непрофильной деятельности, такой как системное администрирование, DevOps и CI/CD
⭐️ Чтобы воспользоваться платформой, нужно оставить заявку и дождаться её согласования. До конца 2025 года все желающие могут принять участие в опытной эксплуатации системы SmartMLOps.
— рассказал Сергей Лебедев, руководитель департамента программной инженерии, доцент💻 💻 💻
#новости #ии
Специалисты Вышки создали MLOps-платформу для исследователей и студентов ВШЭ в области искусственного интеллекта, которые хотели бы превратить своё изобретение в полноценный сервис.
В чём преимущества платформы?
«Разработка такого интересного и перспективного инфраструктурного проекта стала существенным вызовом и назревшей необходимостью для университета. Нам удалось сформировать уникальную команду профессионалов, привлечь к работе студентов и стажёров-исследователей»,
— рассказал Сергей Лебедев, руководитель департамента программной инженерии, доцент
#новости #ии
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8👍1
🎉 Стартует конкурс проектов с открытым кодом для студентов ФКН НИУ ВШЭ! 🎉
Приглашаем вас принять участие в первом конкурсе проектов с открытым исходным кодом. Это отличный шанс прокачать свои навыки, сделать вклад в open-source сообщество и выиграть призы!
📌 Цель конкурса
– Популяризировать открытые проекты среди студентов ФКН НИУ ВШЭ.
– Поощрить создание и публикацию собственных разработок с открытым исходным кодом.
👥 Кто может участвовать
– Аспиранты и студенты всех курсов и направлений подготовки ФКН.
– Индивидуальные авторы и команды.
Принимаются проекты любых форматов:
* Результаты курсовых работ (КР)
* Выпускные квалификационные работы (ВКР)
* Любые другие инициативные разработки
🚀 Что вас ждет 🚀
- Прокачка навыков🤔
- Наставничество от экспертов из партнёрских организаций🤑
- Интеграция в мировое open-source сообщество👏
- Подарки и награды победителям конкурса💰
📝 Как стать участником
1) Заполните заявку на сайте конкурса
2) Прикрепите ссылку на репозиторий вашего проекта (GitHub/GitLab/GitVerse)
Дедлайн — 8 июня
Приглашаем вас принять участие в первом конкурсе проектов с открытым исходным кодом. Это отличный шанс прокачать свои навыки, сделать вклад в open-source сообщество и выиграть призы!
📌 Цель конкурса
– Популяризировать открытые проекты среди студентов ФКН НИУ ВШЭ.
– Поощрить создание и публикацию собственных разработок с открытым исходным кодом.
👥 Кто может участвовать
– Аспиранты и студенты всех курсов и направлений подготовки ФКН.
– Индивидуальные авторы и команды.
Принимаются проекты любых форматов:
* Результаты курсовых работ (КР)
* Выпускные квалификационные работы (ВКР)
* Любые другие инициативные разработки
🚀 Что вас ждет 🚀
- Прокачка навыков
- Наставничество от экспертов из партнёрских организаций
- Интеграция в мировое open-source сообщество
- Подарки и награды победителям конкурса
📝 Как стать участником
1) Заполните заявку на сайте конкурса
2) Прикрепите ссылку на репозиторий вашего проекта (GitHub/GitLab/GitVerse)
Дедлайн — 8 июня
Please open Telegram to view this post
VIEW IN TELEGRAM
cs.hse.ru
Национальный исследовательский университет «Высшая школа экономики»
🔥6👍3😍1
Открытый код ФКН ВШЭ pinned «🎉 Стартует конкурс проектов с открытым кодом для студентов ФКН НИУ ВШЭ! 🎉 Приглашаем вас принять участие в первом конкурсе проектов с открытым исходным кодом. Это отличный шанс прокачать свои навыки, сделать вклад в open-source сообщество и выиграть призы!…»