Открытый код ФКН ВШЭ
815 subscribers
28 photos
90 links
Показываем новости по открытому коду ФКН ВШЭ.

Контакты: Михаил Гущин @mhushchyn
Download Telegram
Linda

Библиотека на python, предназначенная для генерации синтетических табличных данных. В библиотеке реализованы несколько глубоких генеративных моделей. Модели выучивают статистические свойства входных данных и сохраняют эти свойства в синтетически сгенерированных. Библиотека может быть полезна аналитикам данных, инженерам и исследователям, занимающимся табличными и/или синтетическими данными.

код
❤‍🔥2👍2🔥1
TabDDPM

Статья сотрудников лаборатории Яндекс, в которой исследуется применимость диффузионных моделей для задач генерации синтетических табличных данных. Авторы сравнивают свою работу с многочисленными бейзлайнами - VAE и GAN-ми. Для этого они семплируют синтетические данные из генеративных моделей и затем обучают на этих данных классические модели: случайный лес, CatBoost и т.п. Авторы показывают, что их метод обходит другие по качеству в различных сценариях, в том числе в сценарии защиты приватных данных.
Работа может быть полезна исследователем, МЛ инженерам и аналитикам данных.

статья | код
🔥7
Star-shaped DDPM

Статья, выполненная в коллаборации коллег из Bayesgroup с другими научными центрами. Авторы исследуют возможность обучения диффузионных моделей с использованием распределений, отличных от гауссовского. Для этого они показывают дуальность между диффузионным процессом в виде звезды (star-shaped) и обычным марковским процессом. Это позволяет получать эффективные алгоритмы для тренировки и семплирования диффузионных моделей в случае, если данные лежат на ограниченном многообразии.
В своих экспериментах исследователи показывают состоятельность своей гипотезы, проверяя ее на простых синтетических данных, а также на гео- и картиночных данных.
Работа будет полезна исследователям, чьи научные интересы лежат в сфере генеративных моделей, а так же ML-инженерам.

статья | код
🔥72
gflownet-rl

Статья коллег их HDI lab и Bayesgroup на стыке генеративного моделирования и обучения с подкреплением. В статье исследуется относительно новый подход в генеративном моделировании — GenerativeFlowNetworks. В своих экспериментах авторы сравнивают предложенный подход к обучению — через алгоритм M-DQN — с предыдущими работами по GFlowNets. В результате обученная модель оказывается не только конкурентной, но и показывает превосходство в ряде случаев.
Статья может быть полезна исследователям из областей обучения с подкреплением и глубоких генеративных моделей, математикам и DL-инженерам.

статья|код
🔥9👍2🥰2
28 – 30 июня 2024 года в г. Переславль-Залесском прошла ХIX конференция «Свободное программное обеспечение в высшей школе»

Михаил Гущин
выступил на конференции, посвященной открытому коду. Михаил рассказал о проекте открытого кода, который был создан на ФКН. Открытый код научных исследований необходим для повышения качества и прозрачности научных работ, а также для стимулирования инноваций и сотрудничества между учёными. Он позволяет исследователям и другим специалистам изучать и анализировать научные работы, выявлять ошибки и недостатки в них, что способствует повышению доверия к результатам исследований. Также открытый код облегчает сотрудничество между учёными, позволяя им совместно работать над решением научных проблем и обмениваться знаниями. Он дает возможность повторно использовать существующие работы, экономя время и ресурсы. Использование программного обеспечения с открытым исходным кодом снижает затраты на исследования, так как не нужно покупать дорогостоящие проприетарные программы. В целом, открытый код научных исследований способствует развитию науки, повышению качества исследований и укреплению международного научного сообщества.

Подробнее ознакомиться со всеми докладами на конференции можно тут
🔥9👍5❤‍🔥2
MARS

В статье описывается новый метод, позволяющий выбирать наиболее оптимальный ранг для тензорного разложения, помогая разрешать компромисс между уровнем сжатия и точностью. Идея метода заключается в выучивании бинарных масок, накрывающих ядра разложения с последующим выбором тех из них, что дают наивысшее качество. В своей работе авторы демонстрируют состоятельность метода, экспериментально подтверждая эффективность сжатия с минимальными потерями в точности для оптимизированной нейросети. Работа может быть полезна математикам, исследователям в области сжатия информации, вычислительной линейной алгебры и глубинного бучения, а также DL и LLMOps инженерам,

статья | код
🔥5👍1🤔1
wu-go

Статья коллег из лаборатории методов анализа больших данных LAMBDA, в которой исследуется применимость метрики Вассерштайна для оценки неопределенности безградиентной оптимизации black-box симуляторов.
В работе авторы используют концепцию Вассерштайновских шаров для определения множества неопределенности (ambiguity set) и глубоких порождающих моделей для оптимизации сигнала симулятора. Состоятельность алгоритма подтвержддается множеством экспериментов как с простыми функциями, так и со сложными многомерными реальными данными с физических экспериментов.
Работа может быть полезна физикам, дата аналитикам, математикам и ML исследователям.

статья | код
🔥10🥰1🤩1
Roerich

Библиотека на python для онлайн и офлайн обнаружения точек разладки для анализа временных рядов. Точка разладки - это момент времени, в котором меняется поведение временного ряда, который характеризует наблюдаемую систему. Библиотека названа в честь Николая Рериха и содержит как известные методы, так и алгоритмы из недавно опубликованных работ. Этот инструмент может быть полезен дата аналитикам, физикам, инженерам и исследователям машинного обучения, специализирующихся на временных рядах.

код
🔥72🥰2👍1
TabR

Код исследователей НУЛ Яндекса, в котором описывается новый алгоритм для улучшения качества глубоких нейронных сетей в задачах обучения с учителем на табличных данных. Основная идея метода - использование моделей с расширенным поиском (retrieval-augmented models). Для целевого объекта такие модели извлекают другие объекты (например, ближайших соседей) из доступных обучающих данных и используют их признаки и метки для лучшего прогнозирования. Авторы исследуют и предлагают улучшенный способ поиска похожего объекта, который позволяет повысить качество полносвязанных нейронных сетей на задачах регрессии и классификации. Исследователи экспериментально показыват, что метод превосходит по качеству LightGBM, XGBoost, CatBoost и другие популярные алгоритмы в ряде классических задач и бенчмарков. Работа может быть полезна ML-инженерам и исследователям, которые работают с табличными данными.

статья | код
🔥9👍1
TabReD

Приглашаем вас на семинар Научно-учебной лаборатории компании Яндекс "TabReD: A Benchmark of Tabular Machine Learning in-the-Wild", который состоится сегодня, 5 августа, в 17:30

Дата: 5 августа 2024 г., 17:30
Докладчик: Рубачёв Иван, младший научный сотрудник Научно-учебной лаборатории компании Яндекс

Аннотация: На семинаре обсудим глубинное обучение на табличных данных. В частности, чем отличаются реальные индустриальные задачи от большинства задач из академических бенчмарков. Расскажем про новый бенчмарк с индустриальными датасетами из kaggle соревнований и из реальных задач Яндекса. Посмотрим как индустриальные условия, где данные могут изменяться со временем, быть более "информативными" и большими влияют на наши выводы о разных алгоритмах.

Место проведения: Zoom
Идентификатор конференции: 863 2391 8773
Код доступа: 880584

статья | код
🔥6
MegNetSparse

Двумерные материалы перспектиыны для развития следующего поколения (опто-) электронных устройств. Основной характеристикой двумерных кристаллов является возможность настройки их свойств посредством контролируемого введения дефектов. Однако пространство поиска для таких структур огромно и требует больших вычислений. В библиотеке на python MegNetSparse реализован метод представлений таких двумерных кристаллов, который улучшает качество алгоритмов машинного обучения. Нейронные сети и CatBoost, обученные на этих представлениях, показаывают снижение ошибки прогнозирования энергии минимум в 3.7 раза. Кроме того, представленный подход на порядок более эффективен с точки зрения ресурсов, чем его конкуренты как в части обучения, так и инференса. Работа может быть полезна инженерам, физикам и исследователям в областе новых материалов.

статья | код
🔥8👍1
ARD-EM

Реализация ARD (Automatic Relevance Determination) EM на Python. Классический ЕМ-алгоритм восстановления смеси нормальных распределений не позволяет определять количество компонент смеси. В работе предлагается алгоритм автоматического определения числа компонент ARD EM, основанный на методе релевантных векторов. Идея алгоритма состоит в использовании на начальном этапе заведомо избыточного количества компонент смеси с дальнейшим определением релевантных компонент с помощью максимизации правдоподобия. Эксперименты на модельных задачах показывают, что количество найденных кластеров либо совпадает с истинным, либо немного превосходит его. Кроме того, кластеризация с помощью ARD EM оказывается ближе к истинной, чем у аналогов. Код может быть полезен ML-исследователям, физикам и инженерам для задач кластеризации и восстановления распределения данных

код | статья
❤‍🔥5
VGsim

Библиотека для Python, предназначенная для моделирования вирусных генеалогий (VGsim — Viral Genealogy Simulator), с помощью которого можно моделировать пути распространения COVID-19 в условиях глобальной пандемии и прочие сценарии пандемий мирового масштаба. Симулятор вирусных генеалогий — программное обеспечение, предназначенное для проверки методов анализа данных, связанных с генетической природой коронавируса. По генетическим последовательностям вирусов можно детально проследить пути их распространения — построить их генеалогию, дерево заражений. Такие деревья содержат много информации, в частности, об эволюции патогенов. Авторы отмечают, что их библиотека не только является самым быстрым симулятором вирусных генеалогий, но так же способна учитывать миграцию, что отличает ее от общерпинятых моделей. Библиотека может быть полезна ученым-эпидемиологам, data science специалистам в области медицины и статистики.

статья | код
🔥8
CartPole

Студенческий проект, предназначенный для изучения основ робототехники и теории управления, написанный на python и C++. Репозиторий содержит код для окружающей среды, которая представляет собой некоторую вариацию классической задачи cart-pole, описанной Барто, Саттоном и Андерсоном. Шарнир прикрепляет шест к тележке, которая движется вдоль направляющей оси. Некий шаговый двигатель приводит тележку в движение. Цель управления — желаемое ускорение тележки. Тележка начинает движение посередине без скорости или ускорения. Изначально шест находится в состоянии покоя. Задача — поднять шест и удерживать его в вертикальном положении, увеличивая и уменьшая скорость тележки. Код содержит интерфейс и для симулятора среды, и для контроллера, позволяя обучать модель и запускать ее на конечном устройстве, которое должно будет управлять вагонеткой. Проект может быть полезен студентам и энтузиастам, не только изучающим основы робототехники, но и уже имеющим схожий опыт, а так же инженерам, работающим со встраиваемыми устройствами.

код
❤‍🔥7🔥1
Forwarded from FASIE
⭐️⭐️⭐️⭐️

Неделя ИИ – Фонд запускает #конкурс «КОД-ИИ»

Начинаем с приятных новостей!

📣 В чем цель данного конкурса, который проводится в рамках нацпрограммы #ЦЭРФ? Обратимся к искусственному интеллекту!

Конкурс «КОД-ИИ» Фонда содействия инновациям нужен для отбора проектов в области искусственного интеллекта, соответствующих определённым критериям. Он направлен на создание и развитие открытых библиотек в сфере искусственного интеллекта.


Подтверждаем. Можно переходить и к параметрам – тут уже расскажем сами:

📌 в проекте может участвовать от 1 до 10 человек
💰 грант 10 млн ₽
▶️ не более 2 млн ₽ на члена команды
срок работ12-24 месяцев

Направления поддержки:
▪️ компьютерное зрение,
▪️ обработка естественного языка,
▪️ распознавание и синтез речи,
▪️ интеллектуальные системы поддержки принятия решений,
▪️ перспективные методы искусственного интеллекта

Важные моменты:
🌐 от лидера и участников проекта должна быть подана только одна заявка
🌐 в случае победы в конкурсе будет заключаться многосторонний договор – между Фондом, руководителем и членами проектной команды

Вроде всё!
Ах, да – приём заявок продлится до 23.09.2024!

Неделя ИИ продолжается!


❤️❤️ – 30 лет вместе
Please open Telegram to view this post
VIEW IN TELEGRAM
4🥰1
Forwarded from AiConf Channel
Интервью Эмели Драль — кофаундера и технического директора Evidently AI. У её open source библиотеки для оценки, тестирования и мониторинга качества данных и моделей машинного обучения уже более 22 миллионов скачиваний.

Расспросили её о пути в карьере, передаче знаний, необходимых скиллах и будущем отрасли: https://habr.com/ru/companies/oleg-bunin/articles/840716/
6
Forwarded from Aziz Temirkhanov
Procfiler — это инструмент, целью которого является устранение разрыва между .NET и Process Mining. В нем поддерживается сбор событий CLR (ETW) через EventPipe, а также различные экземпляры процессов (вызов метода, выполнение всей программы) и сериализация полученных журналов событий в разные форматы, в частности в XES. Затем журналы событий XES можно анализировать с помощью различных инструментов Process Mining, таких как ProM или pm4py. Более того, предложенный метод позволяет просматривать события на разных уровнях абстракции, тем самым увеличивая количество обнаруживаемых закономерностей и действий. В статье также описана серия экспериментов, проведенных для оценки предлагаемого метода обнаружения активности. Библиотека может быть полезна разработчикам и системным аналитикам.

статья | код
🔥5❤‍🔥1
Привет!
Мы открываем комментарии в канале. И чтобы было всем комфортно, мы вводим три простых правила. Вот они на картинке.
🔥12
На канале мы рассказываем про проекты студентов и сотрудников ФКН. Поделитесь в комментариях ссылками на ваши проекты.

Вы делали их во время ваших КР и ВКР? Возможно, это пет-проекты, которые вы развиваете в свободное время? А может, вы хотите в каком-то поучаствовать или создать новый? Нам очень интересно узнать об этом!

Понравился проект? Поставьте звездочку на Github.
10🔥2
TIRE

Библиотека на Python, реализующий метод поиска точек разладки для временных рядов на основе автоэнкодера. Алгоритмы для поиска таких точек, использующие подходы с глубинным обучением, часто не способны обнаружить и верно идентифицировать небольшие изменения, а также страдают от большой частоты ложноположительных срабатываний. Для борьбы с этими проблемами авторы предлагают использовать автокодироващик вместе с модифицированной функцией потерь, которая позволяет выучивать представления, инвариантные ко времени. Дополнительно авторы упоминают по постпроцессинг, значительно улучшающий качество не только представленного метода, но и базовых алгоритмов. Гибкость метода позволяет выбирать на инференсе, в какой области искать разладку: по времени, частоте или везде сразу. Авторы демонстрируют состоятельность своего метода на ряде синтетических и реальных данных, иногда превосходя бейзлайны. Работа может быть полезна инженерам, финансистам, machine learning инженерам и исследователям области временных рядов.

статья | код
🔥11
Forwarded from Научный опенсорс (Nikolay Nikitin)
Приветствую всех!

Некоторое время назад мы опубликовали статью под названием «Open Source в российском ИИ: исследование ландшафта», в которой проанализировали, кто и как занимается опенсорсом в научной сфере, а также предложили некоторые критерии для сравнения опенсорсных экосистем. Однако этот материал охватывает лишь один из множества аспектов создания и применения открытых решений.

В нашем следующем исследовании мы решили расширить рамки и рассмотреть вопрос используемости открытых инструментов в знакомых нам областях ИИ, машинного обучения, Data Science и работы с данными в целом. Сегодня мы завершили работу над этим материалом и рады представить его публике.

Исследование называется «Использование ML/Data-опенсорса в России» и доступно по ссылке — https://opensource.itmo.ru

На этот раз оно оформлено в виде красочного лендинга, с созданием которого нам помогли пресс-служба и управление интернет-ресурсов ИТМО. В подготовке участвовали сотрудники исследовательского центра «Сильный ИИ в промышленности», студенты и аспиранты ИТМО.

Первая часть исследования содержит краткое изложение целей, методологии и основных результатов. Мы поговорили с несколькими экспертами из различных компаний и университетов ― Яндекса, Сбера, Т-Банка, VK, Wildberries, Рокет Контрола, CodeScoring, МФТИ. Кроме того, мы собрали открытые данные и на их основе выделили наиболее активно используемые опенсорсные проекты, а также компании, активно участвующие в опенсорс-инициативах.

Далее вы сможете погрузиться в технические детали. Мы реализовали парсер данных из GitHub API и сторонних сервисов (таких, как pepy, star-history и др.), на основе которых проанализировали геоданные пользователей, использующих открытые проекты и участвующих в их развитии. Также уделили внимание существующим опенсорс-сообществам, другим исследованиям на схожие темы, перспективам развития опенсорса в эпоху ИИ и многому другому. Надеемся, что будет полезно и интересно.

Читайте, комментируйте, оставляйте обратную связь прямо в чате. Весь фидбэк используем для подготовки следующей версии исследования.
👍9🐳1