Открытый код ФКН ВШЭ
816 subscribers
28 photos
90 links
Показываем новости по открытому коду ФКН ВШЭ.

Контакты: Михаил Гущин @mhushchyn
Download Telegram
Forwarded from Aziz Temirkhanov
Procfiler — это инструмент, целью которого является устранение разрыва между .NET и Process Mining. В нем поддерживается сбор событий CLR (ETW) через EventPipe, а также различные экземпляры процессов (вызов метода, выполнение всей программы) и сериализация полученных журналов событий в разные форматы, в частности в XES. Затем журналы событий XES можно анализировать с помощью различных инструментов Process Mining, таких как ProM или pm4py. Более того, предложенный метод позволяет просматривать события на разных уровнях абстракции, тем самым увеличивая количество обнаруживаемых закономерностей и действий. В статье также описана серия экспериментов, проведенных для оценки предлагаемого метода обнаружения активности. Библиотека может быть полезна разработчикам и системным аналитикам.

статья | код
🔥5❤‍🔥1
Привет!
Мы открываем комментарии в канале. И чтобы было всем комфортно, мы вводим три простых правила. Вот они на картинке.
🔥12
На канале мы рассказываем про проекты студентов и сотрудников ФКН. Поделитесь в комментариях ссылками на ваши проекты.

Вы делали их во время ваших КР и ВКР? Возможно, это пет-проекты, которые вы развиваете в свободное время? А может, вы хотите в каком-то поучаствовать или создать новый? Нам очень интересно узнать об этом!

Понравился проект? Поставьте звездочку на Github.
10🔥2
TIRE

Библиотека на Python, реализующий метод поиска точек разладки для временных рядов на основе автоэнкодера. Алгоритмы для поиска таких точек, использующие подходы с глубинным обучением, часто не способны обнаружить и верно идентифицировать небольшие изменения, а также страдают от большой частоты ложноположительных срабатываний. Для борьбы с этими проблемами авторы предлагают использовать автокодироващик вместе с модифицированной функцией потерь, которая позволяет выучивать представления, инвариантные ко времени. Дополнительно авторы упоминают по постпроцессинг, значительно улучшающий качество не только представленного метода, но и базовых алгоритмов. Гибкость метода позволяет выбирать на инференсе, в какой области искать разладку: по времени, частоте или везде сразу. Авторы демонстрируют состоятельность своего метода на ряде синтетических и реальных данных, иногда превосходя бейзлайны. Работа может быть полезна инженерам, финансистам, machine learning инженерам и исследователям области временных рядов.

статья | код
🔥11
Forwarded from Научный опенсорс (Nikolay Nikitin)
Приветствую всех!

Некоторое время назад мы опубликовали статью под названием «Open Source в российском ИИ: исследование ландшафта», в которой проанализировали, кто и как занимается опенсорсом в научной сфере, а также предложили некоторые критерии для сравнения опенсорсных экосистем. Однако этот материал охватывает лишь один из множества аспектов создания и применения открытых решений.

В нашем следующем исследовании мы решили расширить рамки и рассмотреть вопрос используемости открытых инструментов в знакомых нам областях ИИ, машинного обучения, Data Science и работы с данными в целом. Сегодня мы завершили работу над этим материалом и рады представить его публике.

Исследование называется «Использование ML/Data-опенсорса в России» и доступно по ссылке — https://opensource.itmo.ru

На этот раз оно оформлено в виде красочного лендинга, с созданием которого нам помогли пресс-служба и управление интернет-ресурсов ИТМО. В подготовке участвовали сотрудники исследовательского центра «Сильный ИИ в промышленности», студенты и аспиранты ИТМО.

Первая часть исследования содержит краткое изложение целей, методологии и основных результатов. Мы поговорили с несколькими экспертами из различных компаний и университетов ― Яндекса, Сбера, Т-Банка, VK, Wildberries, Рокет Контрола, CodeScoring, МФТИ. Кроме того, мы собрали открытые данные и на их основе выделили наиболее активно используемые опенсорсные проекты, а также компании, активно участвующие в опенсорс-инициативах.

Далее вы сможете погрузиться в технические детали. Мы реализовали парсер данных из GitHub API и сторонних сервисов (таких, как pepy, star-history и др.), на основе которых проанализировали геоданные пользователей, использующих открытые проекты и участвующих в их развитии. Также уделили внимание существующим опенсорс-сообществам, другим исследованиям на схожие темы, перспективам развития опенсорса в эпоху ИИ и многому другому. Надеемся, что будет полезно и интересно.

Читайте, комментируйте, оставляйте обратную связь прямо в чате. Весь фидбэк используем для подготовки следующей версии исследования.
👍9🐳1
Всероссийский конкурс проектов с открытым кодом для студентов

Конкурс служит платформой для входа в open source для школьников и студентов. Участникам необходимо опубликовать свой проект на Github/Gitlab или внести значительный вклад в развитие одной из существующих open source разработок.

💡 Проект предназначен для школьников и студентов.
💡 Программа состоит из акселератора и конкурсной части.
💡 Эксперты из ведущих IT-компаний оценивают проекты на платформах Github и Gitlab.
💡 Лучшие участники получат CodeReview от экспертов ведущих технологических компаний и подготовку к публикации статьи о своём проекте.

Этапы конкурса:
🕑 01.09.2024 - 01.03.2025: Проведение мероприятий образовательной программы.
🕑 01.11.2024 - 01.03.2025: Прием конкурсных заявок по направлениям.

Среди партнеров Яндекс и Robbo.

Подробности на сайте.
🔥5
Open OS Challenge 2024

Конкурс по открытому системному программному обеспечению для студентов.

Участникам предстоит не только проверить свои теоретические знания, но и применить их на практике, выполняя конкурсные задания, ориентированные на разработку, администрирование и практическое использование операционных систем на базе ядра Linux.

Конкурс будет проходить в три этапа:
1️⃣ Первый этап (теоретический): участникам необходимо пройти онлайн-тестирование.
2️⃣ Второй этап (практический): в течение двух дней конкурсантам предстоит решить несколько прикладных задач, используя удаленное подключение к виртуальным машинам с предустановленной операционной системой OpenScaler.
3️⃣ Финал. Победители двух отборочных туров будут приглашены на очный финал, где им нужно будет решить ряд более сложных задач в присутствии членов жюри конкурса.


🥇Призовой фонд 1 000 000 рублей и ценные призы. Пять лучших участников поедут в Китай!


❗️Регистрация и первый этап до 22 сентября на сайте.
🔥5👍1
GP-VAE

Модель для вероятностного заполнения пропусков во временных рядах. Авторы работы сравнивают свой подход с классическими моделями глубинного обучения для решения задачи заполнения пропусков, решая проблему ненадежности и малой интерпоетируемости последних. Модель со скрытыми переменными предполагает, что многомерные данные имеют низкоразмерное представление, изменяющиеся с течением времени согласно гауссовскому процессу. Нелинейное снижение размерности пропущенных данных достигается с помощью подхода VAE с новым структурированным вариационным приближением. В экспериментальной части исследователи демонстрируют, что такой подход превосходит несколько классических нейросетевых моделей заполнения пропусков для многомерных данных разной модальности, одновременно предоставляя интерпретируемые оценки неопределенности. Код может быть полезен data science специалистам и исследователям, работающим с временными рядами.

статья | код
🔥13👍1
Linguacodus

Фреймворк, использующий большие языковые модели для автоматизации преобразования описания задач в код Python. Linguacodus решает эту задачу путем развертывания динамического конвейера, который итеративно преобразует описания задач на естественном языке в код с помощью высокоуровневых инструкций на основе данных. Фреймворк работает в 4 этапа: генерация описания задачи, где модель описывает данные, препроцессинг, архитектуру модели и прочие важные детали; тюнинг Llama2 на основе полученной информации; инференс Llama2, позволяющий отобрать три лучшие инструкции; и итеративный процесс улучшения ответов с помощью мульти-агентной языковой модели. В серии экспериментов на датасете с кодом для машинного обучения авторы демонстрируют эффективность своего метода по генерации кода. Фреймворк будет полезен как исследователям в области языковых моделей и генерации кода, так и прикладным специалистам машинного обучения.

статья|код
🔥101
Forwarded from Yandex Open Source Jam /chat
Всем привет! ❤️

Мы с отличными новостями: уже 23 октября, ровно через полгода после первого Yandex Open Source Jam, пройдет второй. На этот раз мы едем в Санкт-Петербург!

Вас ждут несколько крутых анонсов, доклады, задачки, общение с экспертами из Яндекса и других компаний, а для очных участников — еще и открытый микрофон на афтепати

В программе:

🏮Антон Полухин с рассказом про userver

🧬Никита Соболев с лайфхаками из многолетнего опыта в опенсорсе

🎊Экспо-зона от Яндекс Go, Yandex Cloud и Yandex Infrastructure

…и еще очень много всего интересного!

Регистрируйтесь по ссылке на онлайн и очное участие в Петербурге.

Мы вас очень ждем ❤️ до встречи!

Всегда ваша,
Команда Yandex Open Source
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7
Вебинары по разработке кода для всех

Приглашаем вас на серию открытых вебинаров по разработке кода. Мы обсудим командную работу над проектами на платформе Github, научимся создавать воспроизводимые и качественные проекты, а также публиковать их на известных ресурсах открытого кода.

Докладчик:
Павел Ахтямов
Release Engineer в PhotoLab Development. Биоинформатик в ЭНЦ. Преподаватель МФТИ, МГТУ им. Баумана, ВШЭ, ЦУ

Даты и темы:
⭐️ 04.10 Система контроля версий Git. Работа и авторизация с GitHub. Оформление в формате Markdown. Лицензии кода.

⭐️ 11.10 Структура ветвления в Git и GitHub. Механизм Pull Request. Проведение Code Review в проектах. Разные стратегии ветвления проектов. Процедуры воспроизведения проектов.

⭐️ 18.10 Автоматизация сборки проектов с использованием Github Actions. Инструменты проверки качества проекта.

⭐️ 01.11 Основы контейнеризации проектов. Публикация проектов в Docker Registry, PyPi, CRAN.

🕝 Когда: пятницы 18:10
🖥 Где: zoom

Следите за анонсами на канале.
23🔥7
StyleFeatureEditor

Библиотека на Python, позволяющая обучать модель для редактирования изображения. В основе работы лежит новый подход к обучению StyleGan, позволяющий одновременно редактировать изображения в мало- и высокоразмерном пространствах, благодаря чему появляется возможность получать желаемые тонкие детали у редактируемого изображения и вместе с этим сохранить их при обратном переходе в исходное пространство. Авторы демонстрируют превосходное качество подхода даже для сложных, внедоменных изображений, добиваясь практически неотличимого правдоподобия полученных изображений, а также обходя в численных метриках другие методы. Код может быть полезен исследователям в области генеративных моделей и разработчикам приложений для редактирования фотографий.

статья | код
🔥9
До митапа всего 4 дня!

Напоминаем, что он состоится 8 октября в 19:00 в Loft Story (ул. Газовая, 10Ж), а зарегистрироваться можно здесь.

Митап пройдёт в рамках проекта «Научный Петербург». В программе будут доклады про китайский опенсорс от наших коллег из сообщества OpenScaler, питчи LLM-ассистента для проверки научных работ и библиотеки по обработке и генерации векторной графики, а ещё — безумные идеи хранения данных. Полная версия программы доступна здесь.

До встречи на митапе!

Митап организован при поддержке Центра научной коммуникации ИТМО, сообщества OpenScaler и исследовательского центра «Сильный ИИ в промышленности».
Проект поддержан Министерством науки и высшего образования РФ.
#десятилетиенауки #МинобрнаукиРоссии #популяризациянауки
👍6
gen-simplicial-cycles

Код на python, в котором реализованы некоторые классические, а так же авторские алгоритмы, основанные на llm, позволяющие генерировать циклы в симплициальных группах. В частности, в симплициальной групповой настройке формулы Ву авторы переформулируют проблему генерации симплициальных циклов как проблему выборки из пересечения алгоритмических наборов данных, связанных с языками Дика. Исследователи представляют и оценивают подходы к языковому моделированию, которые используют многометковую информацию для входных последовательностей и большие языковые модели, вместе с необходимым теоретико-групповым инструментом и не нейросетевыми базовыми алгоритмами. Построенные на идее ансамблирования генераторов, дополнительная многометковая информация добавляется в обучающий набор данных, что позволяет одной модели работать как обобщение ансамбля. Полученные авторами модели, в отличие от базовых, масштабируемы и будут служить строительными блоками для будущих алгоритмов, специализированных на выборке из гомотопических групп пространств. Код может быть полезен математикам и DL-исследователям, работающим на стыке машинного обучения и топологии.

статья|код
👍4🔥4🤔1
Открытый код ФКН ВШЭ
Вебинары по разработке кода для всех Приглашаем вас на серию открытых вебинаров по разработке кода. Мы обсудим командную работу над проектами на платформе Github, научимся создавать воспроизводимые и качественные проекты, а также публиковать их на известных…
Привет!

Сегодня в 18:10 мы продолжаем наши вебинары.

Тема:
Структура ветвления в Git и GitHub. Механизм Pull Request. Проведение Code Review в проектах. Разные стратегии ветвления проектов. Процедуры воспроизведения проектов.

🖥 Где: zoom

А еще появилась ссылка на запись прошлого вебинара!
❤‍🔥10👍2
Forwarded from ODS Events
Привет!

VK RecSys Challenge: запустили соревнование с AI VK 🔥

To like or not to like? Вот в чем вопрос!
Приглашаем принять участие всех, кто занимается рексистемами и хочет еще лучше прокачать свои навыки в построении моделей на реальной задаче компании 😎

Соревнование длится до 22 декабря, можно участвовать как индивидуально, так и объединяться в команды.

Чтобы узнать все детали и стать участником — переходите на страницу соревнования ⬅️👀

🦜 Хаб VK на ods.ai
Please open Telegram to view this post
VIEW IN TELEGRAM
7
Бесплатный онлайн-курс по Git

Центр непрерывного образования факультета компьютерных приглашает присоединиться к бесплатному онлайн-курсу «Введение в GIT» тех, кто начинает свой путь в программировании и разработке. 

Курс состоит из 5 уроков:
- Что такое Git?
- Добавление изменений в коммит и загрузка на удалённый репозиторий
- Управление изменениями, отмена операций, выбор определённого коммита
- Работа с ветками в репозитории
- Слияние веток, merge и rebase, политики работы с ветками

В Центре непрерывного образования в онлайн-формате можно освоить и другие навыки, необходимые для входа в IT: Python, SQL, инструменты бизнес-аналитики. У курсов есть бесплатные модули, к которым вы можете присоединиться уже сейчас. Подробная информация: в телеграм-канале Центра.


Присоединиться и начать изучать Git
9👍4🔥2
Truth-O-Meter

Разработанный на Python проект, позволяющий проверять достоверность сгенерированного большими языковыми моделями текста. Авторы приложения утверждают, что их метод позволяет детектировать галлюцинации и фактологические ошибки, производя веб-поиск по сгенерированному LLM тексту. После чего пользователь может получить скорректированный программой текст, подсвечивающий неточности и приводящий ссылки на достоверные источники в интернете. В серии работ авторы рассказывают о различных аспектах проекта, а так же проверяют состоятельность метода на датасете FEVER. Работа может быть полезна исследователям, работающими с генеративными и большими языковыми моделями, инженерам и Data Science специалистам.

статья|код|демо
9🔥3