LabADT | NSU
220 subscribers
91 links
Анонсы семинаров Лаборатории прикладных цифровых технологий ММЦ ММФ НГУ

Сайт: https://mca.nsu.ru/labadt/

Вк: https://vk.com/labcfdai/
Download Telegram
📌 Анонс семинара Лаборатории 22 апреля (10.50 в 5222):

🗒 Статистический анализ биомедицинских распределений. Как оценить статистическую значимость пространственной корреляции между различными свойствами аорты?

Аневризма брюшной аорты (АБА) — это серьезное и потенциально смертельное заболевание, характеризующееся патологическим расширением брюшной аорты, крупнейшей артерии организма. Это состояние ослабляет стенки аорты и может привести к разрыву аневризмы и летальному исходу. Изучение механизма формирования аневризмы и поиск предикторов быстрого роста АБА имеют критическое значение для разработки эффективных стратегий лечения.
В последнее время появилось множество работ по анализу пространственной взаимосвязи между очагами атеросклероза, морфологией и гемодинамикой аневризмы. Однако не существует стандартизированной статистической методологии для количественного сравнения этих распределений. Оценка пространственной взаимосвязи гемодинамики, морфологии и скорости локального роста аневризмы аорты осложняется наличием пространственной автокорреляции распределений, при которой соседние участки аорты обладают сходными свойствами и не являются независимыми, и использованием агрегированных данных, что искусственно завышает коэффициенты корреляции. В докладе предлагается обсудить возможные подходы к оценке статистической значимости связи между биомедицинскими распределениями на примере наших результатов по аневризме брюшной аорты.

Докладчик: Яна Федотова


🗒 Разработка алгоритма для выделения признаков и распознавания образов в сигналах подшипников газотурбинных двигателей

Предиктивная аналитика использует методы машинного обучения для предсказания будущих событий на основе прошлых данных. Ранее Илья уже обсудил возможность её применения к промышленным данным, а если быть точнее, к данным роторных частей авиационного двигателя. В данном докладе речь пойдет о следующем этапе: выделении признаков из сигналов подшипников газотурбинных установок и алгоритме для выделения этих признаков.

Докладчик: Илья Кульбаченко
👌2👍1
📌Анонс семинара Магистратуры 24 апреля (18.10 в 5234):

🗒Статья для разбора:
M. Arjovsky, L. Bottou, I. Gulrajani, and D. Lopez-Paz, Invariant Risk Minimization, in ArXiv, abs/1907.02893, 2019

Докладчик 1 Родионов Владислав
Докладчик 2 Попов Алексей

Ссылка для подключения к трансляции.
Идентификатор конференции: 830 3569 8413
Код доступа: 258209
👍1🔥1👏1
📌 Анонс семинара Лаборатории 29 апреля (10.50 в 5222):

🗒 Тулинг python или как разрабатывать проекты легче

В докладе поговорим об инструментах, облегчающих разработку и поддержание проекта. Рассмотрим такие вещи, как линтеры, инструменты форматирования, статический анализ кода и т.п. Помимо классических инструментов затронем тему шаблонов, использование CI для поддержания чистоты репозитория. Дополнительно поговорим об инструментах мониторинга экспериментов.

Докладчик: Константин Носорев


🗒 Квантизация весов нейронных сетей

Квантизация (дискретизация) весов в нейронных сетях уменьшает объем памяти требуемой для их хранения, а также увеличивает производительность инференса. Этот метод широко используется в устройствах с низкой производительностью и небольшим объемом оперативной памяти. Однако в некоторых случаях метрики могут быть ниже требуемых. В статье рассматривается не посттрейн квантизация, а тренировка уже квантизованной AlexNet. Демонстрируется, что её эффективность практически не отличается от оригинальной. Об этом в своей докладе и расскажет Илья.

Докладчик: Илья Иванченко
📌 Анонс семинара Лаборатории 6 мая (10.50 в 5222):

🗒 Подбор образовательных курсов по вакансии на основе LLM

Доклад о работе проделанной в рамках хакатона по подбору образовательных курсов на основе вакансии. В ходе выступления будут освещено несколько тем. Во-первых, контролируемая генерация текста LLM с помощью библиотеки Guidance. Этот подход позволяет управлять процессом генерации текста LLM большими языковыми моделями для получения высококачественных и релевантных результатов. Во-вторых, иерархическая zero-shot классификация текстов. Иерархия составляется с помощью LLM. Данный подход дает возможность классифицировать тексты по новым категориям без необходимости дополнительного обучения модели на размеченных данных.

Докладчик: Валентин Мамедов

🗒 Оценка и сравнение словарных и нейронных толкований

Постоянно происходящие изменения в мире влияют на многие сферы жизни, в том числе, они влекут за собой изменение нашего языка. Быстрее всего это проявляется на лексическом уровне. Новые слова появляются, старые меняют значения или уходят из употребления. На этом фоне значимую роль играют толковые словари, которые служат базой данных, сопоставляющей словам актуальные толкования. Однако их ручное составление ограничивает скорость и точность обновления. Альтернативным подходом к обновлению и поддержке словарей может стать использование больших языковых моделей. В докладе поговорим о сравнении словарей, составлении выборки для эксперимента и о том, как люди оценивают толкования.

Докладчик: Тимур Гарипов

🗒 Создание рекомендательной системы для научных сотрудников

Рекомендательные системы в научном сообществе набирают популярность. Есть методы рекомендации статей пользователям, журналов для публикации исследований и соавторов для совместной работы. Наименее исследованный тип рекомендаций — рекомендация соавторов (collaborator recomendation). Существуют методы рекомендации соавторов, основанные на сети цитирований, на содержании статей исследователей, методы машинного обучения. Однако у этих методов есть свои недостатки. Альтернативным подходом могут быть гибридные алгоритмы с использованием больших языковых моделей. В докладе поговорим о возможном подходе к рекомендации соавторов, сложности в реализации и их решении.

Докладчик: Дарья Шестакова
👍1🔥1👏1👌1
📌 Анонс семинара Лаборатории 13 мая (10.50 в 5222):

🗒 Предсказание интенсивности дорожного трафика на перекрестках с помощью статистических моделей

Все мы знакомы с проблемой человеческого фактора, когда говорим про движение на дороге, и эта проблема будет актуальна до тех пор, пока весь транспорт не будет оснащён self-driving системой. По статистике, большинство аварий (до 40-60%) происходят именно на перекрестках, где сложно учесть все возможные факторы для предотвращения происшествий. Однако существует возможность предсказать интенсивность движения на перекрестках, что может быть полезно, например, для оптимизации работы светофоров. В своем докладе Никита продемонстрирует попытку решения задачи предсказания интенсивности дорожного трафика с использованием статистических моделей, т.е. легких параметрических моделей (таких как ARIMA, AutoRegressive models) и моделей для работы с прерывистыми временными рядами (ADIDA, Croston).

Докладчик: Никита Артеменко

🗒 Исследование и разработка нейросетевого алгоритма синтеза ЭЭГ-сигнала

Электроэнцефалография (ЭЭГ) — это современный метод исследования активности мозга человека, основанный на регистрации его электрических потенциалов путем размещения электродов в определенных зонах на поверхности головы. Клинический ЭЭГ-анализ широко используется в задачах, связанных с прогнозами различных заболеваний, например, предсказыванием степени тяжести депрессии или прогнозированием появления у пациента эпилептического припадка. В таких случаях довольно успешно применяются методы машинного обучения и нейронные сети, но существуют проблемы, связанные с данными, используемыми для обучения моделей. Получение чистых ЭЭГ-сигналов зачастую бывает проблематичным ввиду дорогостоящего оборудования, а также имеется дефицит данных непосредственно предприступных состояний (если речь идет, например, о предсказывании эпилепсии). Поэтому многие проблемы могли бы решиться, если бы мы могли генерировать похожие, медицински-верные ЭЭГ-сигналы, дополняя уже имеющиеся данные. В докладе будет рассказано о предобработке данных, использовании н.с. Wavenet для восстановления сигнала из спектрограммы и результатах обучения аудио диффузионной модели для синтеза ЭЭГ-сигналов.

Докладчик: Артем Шмаков

🗒 Как мы свою систему распознавания команд делали

Развитие технологий распознавания речи на устройствах (on-device) прослеживается в большом разнообразии существующих голосовых помощников, в т.ч. устройствах "умного дома". Поскольку большинство используемых моделей распознавания являются нейросетевыми (end-to-end), то для уменьшения их размера и увеличения скорости работы на устройствах с ограниченными вычислительными ресурсами без потери качества распознавания могут быть использованы методы дистилляции и квантизации. В своем докладе Даниил и Артем расскажут об опыте применения этих методов для повышения устойчивости моделей распознавания речи к шумам и адаптации моделей в рамках задачи распознавания голосовых команд.

Докладчики: Артем Болдинов и Даниил Гребенкин
🔥1🤝1
📌Анонс семинара Магистратуры 15 мая (18.10 в 5234):

🗒Статья для разбора:
C. Anil, Y. Wu, A. Andreassen, A. Lewkowycz, V. Misra, V.V. Ramasesh, A.Slone, G.Gur-Ari, E.Dyer, and B. Neyshabur, Exploring Length Generalization in Large Language Models, in Proceedings of the 36th International Conference on Neural Information Processing Systems (NeurIPS 2022). Curran Associates, Inc., 2022

Докладчик 1 Кульбаченко Илья
Докладчик 2 Ковалевский Данил

Гость: Елена Бручес
Ведущий инженер, RRI
Младший научный сотрудник, ИСИ СО РАН
Старший преподаватель, НГУ

Тема:
Как длина контекста влияет на качество языковых моделей?

Ссылка для подключения к трансляции.
Идентификатор конференции: 830 3569 8413
Код доступа: 258209
🔥2
📌 Анонс семинара Лаборатории 19 мая (10.50 в 5222):

🗒 Семантическая сегментация текстов как распознавание именованных сущностей

Автоматическая сегментация текстов с классификацией сегментов (или topic-aware text segmentation) необходима во многих областях при обработке текста. У качественно отсегментированного текста значительно улучшается читаемость, в нем проще искать информацию. Алгоритмическое решение задачи также избавляет от необходимости в дорогостоящем ручном труде, что особенно ярко проявляется в областях, где для корректной сегментации текста требуются специфичные знания. Актуальные нейросетевые решения, как правило, достаточно сложны с точки зрения архитектуры, что влечет отсутствие гибкости и вычислительную сложность. Вместо модификации архитектуры нейросети предлагается использовать простую модель для распознавания именованных сущностей (классификатор токенов, основанный на трансформер-энкодере) и модифицировать все вокруг нее: разметку, процедуру обучения, постобработку.

Докладчик:
Андрей Непомнящих

🗒 Мультиязычное распознавание фонетических транскрипций

Доклад посвящен адаптации концепции иерархического многозадачного обучения к задаче получения фонетической транскрипции из речевого сигнала на основе классификации фонем по таблице IPA. Также в работе рассмотрены подходы на основе внесения вспомогательной информации, с помощью моделей metric learning для формирования векторного представления языка на основе фонетических транскрипций / речевых сигналов.

Докладчик: Антон Легченко
🔥3👍1👏1
📌Анонс семинара Магистратуры 22 мая (18.10 в 5234):

🗒Статья для разбора:
Albert Gu, Goel Karan, and R'e Christopher, “Efficiently Modeling Long Sequences with Structured State Spaces”, in Proceedings of the Tenth International Conference on Learning Representations, 2022

Докладчик 1 Коробов Александр
Докладчик 2 Аношин Сергей

Гость: Александр Гончаренко
технический директор enot.ai

Тема:
современные подходы к механизму внимания с целью ускорения вычислений

Ссылка для подключения к трансляции.
Идентификатор конференции: 830 3569 8413
Код доступа: 258209
🔥1
📌 Анонс семинара Лаборатории 16 сентября (16.20 в 4117):

🗒 Установка на НИС ПЦТ

Приглашаем вас на открытие научно-исследовательского семинара ПЦТ. На первом заседании будет проведена установка, в рамках которой мы обсудим основные цели и задачи семинара, требования к участию, критерии оценивания работы и правила получения зачета. В ходе встречи у вас будет возможность задать вопросы, касающиеся организационных моментов, и обсудить ожидания на предстоящий семестр. Ждем всех на установочную встречу!

🗒 Немного о ФИНС и проекте «MULTIPINN»

Физически-информированные нейронные сети (ФИНС) — это подход в машинном обучении, который позволяет интегрировать законы физики в архитектуру нейросетей. Это значительно улучшает качество моделирования нейросетями сложных физических процессов, таких как динамика жидкостей, теплопередача и другие задачи, связанные с дифференциальными уравнениями. Проект «MULTIPINN» направлен на решение сложных проблем с использованием усовершенствованных версий ФИНС. В его рамках разрабатываются методы для более точного и эффективного решения задач с множественными физическими взаимодействиями и сложными геометриями, что открывает новые возможности для научных исследований и инженерных приложений.

Докладчик:
Цгоев Чермен
🔥6👍2😎2
📌 Анонс семинара Лаборатории 23 сентября (16.20 в 4117):

🗒 Vascular Deformation Mapping: анализ локального роста аневризмы брюшной аорты

Аневризма брюшной аорты (АБА) это серьезное и потенциально смертельное заболевание, характеризующееся патологическим расширением брюшной аорты, что ослабляет стенки сосуда и может привести к разрыву аневризмы, а также летальному исходу. Текущие методы мониторинга роста АБА в клинической практике обладают ограниченной точностью, что зачастую ведёт к некорректной оценке стадии заболевания и повышенному риску для пациентов. В последнее время активно развиваются алгоритмы, основанные на регистрации медицинских изображений. В частности, технология Vascular Deformation Mapping (VDM), которая позволяет количественно оценивать динамику роста аневризмы и прогнозировать дальнейшее развитие патологии. В докладе будут рассмотрены как классические, так и современные нейросетевые подходы к VDM. Также будет представлен опыт применения этой методики для оценки скорости роста АБА, её преимущества перед традиционными методами и дальнейшие планы развития в рамках проекта лаборатории ПЦТ.

Докладчик: Иван Калачев

🗒 Байесовские методы в обнаружении точек изменений состояния

Анализ точек изменений состояния является предметом интереса во многих областях исследований. Этот вид анализа связан с проблемой выявления резких или внезапных изменений в заданном временном ряду. Согласно определению, анализ точек изменений — это метод определения точек изменений, которые представляют собой моменты времени, когда распределение вероятностей временного ряда изменяется. В этом докладе рассматриваются байесовские методы, предназначенные для этой задачи. Данный подход представляет собой вероятностный метод, который позволяет построить распределение вероятностей нахождения точек изменения в данных, опираясь на априорные знания об этих событиях. В докладе рассматриваются два метода для работы с многомерными временными рядами и представлено сравнение работы данного алгоритма с DL-подходами к детекции точек изменения состояния в промышленных данных.

Докладчик: Илья Кульбаченко

🗒 Задача отслеживания крайне медленного объекта с высокой точностью с применением камеры

Отслеживание движения объектов с помощью камеры — распространенная задача, когда речь идет об уличном или внутреннем видеонаблюдении. Алгоритмы по типу optical flow интегрированы в библиотеки по типу OpenCV. Но что делать, если необходимо восстановить координаты в 3D пространстве для объекта, движущегося со скоростью, измеряемой в миллиметрах в секунду? В данном докладе будет рассмотрен комбинированный подход к решению этой задачи с использованием камеры и датчика пространственного положения с применением математических алгоритмов с фокусом на реализации взаимодействия оборудования.

Докладчик:
Кирилл Тарасов
👍3🔥3😎2
📌 Анонс семинара Лаборатории 30 сентября (16.20 в 4117):

🗒 Автоматизация детекции центров колосков на RGB изображениях колоса пшеницы

Пшеница — это важная сельскохозяйственная культура, которая является одним из основных продуктов питания. Количество колосков в колосе растения является значимым признаком при селекции пшеницы, поскольку это свойство непосредственно связано с урожайностью. Помимо количества колосков, их взаимное расположение также может иметь биологическое значение. Доклад посвящен разработке метода для автоматического обнаружения и подсчета центров колосков пшеницы на RGB-изображениях колоса. Будут рассмотрены несколько различных подходов с использованием глубокого обучения для решения этой задачи в области компьютерного зрения.

Докладчик: Игорь Бусов

🗒 Сервис по подбору рецензентов для научных статей

Рецензирование — процедура рассмотрения научных работ учёными-специалистами в той же области. Рецензирование проводится для контроля качества научных статей перед публикацией, а также для диссертаций и дипломных работ. Поиск рецензента часто оказывается трудоёмкой задачей. Некоторые научные журналы уже используют автоматические системы подбора рецензентов, но такие системы обычно являются закрытыми. В прошлом для таких систем использовали сравнение рецензентов по ключевым словам, по системам классификации УДК и MSC, а также графовые методы. В докладе будет представлена RAG архитектура для поиска рецензентов, совмещающая в себе поиск по базе эмбеддингов с формулированием ответа при помощи LLM.

Докладчик: Данил Ковалевский

🗒 Установка на НИС ПЦТ

Во второй половине заседания будет проведена установка, в рамках которой мы обсудим основные цели и задачи семинара, требования к участию, критерии оценивания работы и правила получения зачета. В ходе встречи у вас будет возможность задать вопросы, касающиеся организационных моментов, и обсудить ожидания на предстоящий семестр. Ждем всех студентов математического центра, которые не были 16.09.24.
🔥3🗿3👍2👏2
📌 Анонс семинара Лаборатории 7 октября (16.20 в 4117):

🗒 Разработка ИИ-сервиса для автоматической диагностики МРТ-изображений

В условиях растущего объема медицинских данных и увеличения числа исследований методом МРТ, существует потребность в разработке эффективных инструментов для автоматической диагностики. Настоящий доклад посвящен разработке интеллектуального сервиса, использующего методы глубокого обучения для автоматической разметки МРТ-изображений. Разработанный сервис включает в себя функции автоматической сегментации пораженных участков и предоставляет режим дообучения для улучшения работы модели на новых данных. Важной особенностью системы является режим консенсусной ручной разметки, что позволяет врачам-клиницистам вносить коррективы, повышая точность диагностики. Рассматриваются актуальные задачи в области медицинской обработки данных, преимущества предложенного подхода, а также перспективы интеграции с существующими системами здравоохранения.

Докладчица: Ропперт Екатерина

🗒 Мультимодальность, RAG и проект «Менон»

В мире нейронных сетей, особенно, если говорить о больших языковых моделях, сейчас выделяются два популярных тренда — генерация, дополненная поиском (RAG) и добавление данных, включающих в себя разные модальности. Но как сочетать эти два тренда вместе? Проект «Менон» реализуется по программе «Приоритет 2030», его целью является создание адаптивных и интерпретируемых диалоговых систем, которые способны работать с разными сферами знаний и модальностями. Системы такого рода могут быть полезны для использования на внутренней базе знаний организации, модерации и копирайтинга мультимодальных данных.

Докладчик: Дерунец Роман

🗒 Мультимодальные языковые модели для задач image-to-text на маркетплейсе

Мультимодальные языковые модели, способные обрабатывать визуальные и текстовые данные, находят широкое применение в задачах автоматической генерации текстов на основе изображений. Эти модели позволяют эффективно связывать визуальные признаки с текстовыми описаниями, что делает их полезными в различных областях. В данном докладе рассматривается их адаптация к задачам маркетплейса, таким как создание описания товара и заполнение его свойств. Это помогает улучшить точность информации в карточках товаров и минимизировать влияние ручного ввода, который часто подвержен ошибкам и неполноте данных.

Докладчик: Шарков Сергей
🔥5👍2🤯1👌1
📌 Анонс семинара Лаборатории 14 октября (16.20 в 4117):

🗒 Обучение по расписанию больших языковых моделей

Подход обучения с расписанием (curriculum learning) был вдохновлён традиционным способом обучения человека, когда информация подаётся «от простого к сложному». Предлагается в процессе обучения подавать данные, сортируя их по некоторой метрике сложности. Такой подход позволяет существенно улучшить обобщающую способность моделей в задачах, где такую метрику можно явно определить. В докладе будут изложены различные способы организации CL для больших языковых моделей: основанные на статистических оценках данных, на внутренних оценках модели и на использовании «внешних» графов знаний.

Докладчик: Виктор Урушкин

🗒 Проблемы цифрового фенотипирования, и что мы планируем с ними делать


В рамках гранта по анализу колосьев с помощью компьютерного зрения есть ряд ключевых задач, существующие решения которых недостаточно точны, а некоторые из них даже неуместны для дальнейшего распространения и использования. В своем докладе Никита расскажет про эти задачи, какие проблемы в их текущих решениях существуют, а также о идеях того, как эти проблемы можно решить. В частности, мы поговорим про перспективы применения zero-shot подходов на биологических данных, а также подходов, основанных на предобучении моделей на больших датасетах классификации изображений растений.

Докладчик: Никита Артеменко

🗒 Оценка T2V моделей на основе динамики [обзор статьи]

С развитием Text2Video моделей возникает потребность в более точных методах оценки качества сгенерированных видеороликов. В данной работе представлен новый протокол оценки T2V моделей, названный DEVIL, который акцентирует внимание на динамике видеоконтента. В отличие от существующих методов, сосредоточенных на непрерывности и согласованности, DEVIL оценивает диапазон, управляемость и качество динамики. Новый бенчмарк из текстовых промптов, а также метрики временной детализации позволяют более объективно оценивать производительность моделей по динамике, которая является важным параметром. Экспериментальные результаты показывают высокую корреляцию предложенного метода с человеческими оценками, что делает DEVIL перспективным инструментом для дальнейшего развития технологий T2V моделей.

Докладчик: Павел Перминов
🔥5👍3😈2
📌 Анонс семинара Лаборатории 21 октября (16.20 в 4117):

🗒 Кристаллические структуры: как ML помогает в исследованиях материалов

В докладе будут рассмотрены современные методы машинного обучения, применяемые для генерации новых кристаллических структур. Мы обсудим специфику области, ее значение в науке, а также как новые подходы ускоряют разработку материалов с заданными свойствами, заменяя трудоемкие эксперименты и расчеты.

Докладчик: Тютюльников Михаил

🗒 Гибридное моделирование для задачи прогнозирования технологических составов глушения скважин в условиях АНПД


Существующие методики оценки и прогнозирования объемов технологических составов для глушения скважин в России эффективны на большинстве месторождений. Однако для месторождений с высоким газовым фактором и аномально низким пластовым давлением эти методики не работают корректно. Для решения этой проблемы предлагается использовать гибридное моделирование, объединяющее методы машинного обучения с классическими математическими моделями фильтрации жидкости. Гибридный подход позволяет учитывать сложные зависимости в данных и опираться на физические принципы фильтрации в трещиновато-пористых средах. В докладе поговорим о задаче прогнозирования объемов технологических составов для глушения скважин, шаблонах проектирования гибридного моделирования и о результатах объединения этих двух направлений.

Докладчица: Кучендаева Ева

🗒 DeepSeekMath: расширяем границы математических рассуждений в открытых языковых моделях [обзор статьи]

Большие языковые модели продемонстрировали свою эффективность различных задачах естественного языка. Однако математические рассуждения — это одна из областей, в которой языковые модели все еще далеки от человеческого уровня. Решение математических и научных вопросов требует сочетания навыков, включая правильный разбор вопроса с использованием естественного языка и математических обозначений, запоминание соответствующих формул и констант и генерацию пошаговых решений, включающих численные вычисления и символьные манипуляции. В разобранной статье представляется open–source модель DeepSeekMath 7B, полученная с помощью дообучения модели DeepSeek-Coder-Base-v1.5 7B с использованием 120B математических токенов, а также данных естественного языка и кода. DeepSeekMath 7B набрала впечатляющий результат в 51,7% в тесте по математике конкурсного уровня, не полагаясь на внешние инструменты и методы голосования и приблизившись к уровню результативности больших закрытых моделей Gemini-Ultra и GPT-4.

Докладчик: Коробов Александр
🔥3👍1😱1
🎤 Уважаемые участники и гости нашего семинара!

Мы рады сообщить, что список выступающих на предстоящие семинары сформирован. В ближайшие месяцы нас ждут интересные доклады и обсуждения. Вот расписание наших встреч:

Дата        | Выступающие
------------|------------------------
21.10.2024 | Кучендаева Ева
| Тютюльников Михаил
| Коробов Александр
------------|------------------------
28.10.2024 | Усачев Никита
| Коновалов Назар
------------|------------------------
04.11.2024 | ВЫХОДНОЙ
------------|------------------------
11.11.2024 | Тарасов Александр
| Гарипов Тимур
------------|------------------------
18.11.2024 | Иванков Павел
| Мищенко Александр
| Денисов Семен
| Шульгин Егор
------------|------------------------
25.11.2024 | Легченко Антон
| Тищенко Данил
------------|------------------------
02.12.2024 | Морозов Дмитрий
| Калинин Владислав
| Роман Козырев
------------|------------------------
09.12.2024 | Сергеев Кирилл
| Москаленко Константин
| Еникеев Тимур
| Козюрина Алена
------------|------------------------
16.12.2024 | Братенков Мирон
| Гребенкин Данил
| Яшунин Кирилл
| Куликова Алина
------------|------------------------
23.12.2024 | Федотова Яна
| Чигишев Александр
| Сахаров Данил


🗓 Место и время проведения остаются прежними. Ждем всех на наших семинарах, это отличная возможность обменяться знаниями и обсудить самые актуальные научные вопросы!

🤝 Приглашаем к участию и ждем интересных вопросов от всех слушателей!
🔥8👍2🤓2
📌 Анонс семинара Лаборатории 28 октября (16.20 в 4117):

🗒 Применение нейронных сетей для компенсации искажений передачи сигнала в волоконно-оптических линиях связи

Передача сигнала в волоконно-оптической связи представляет собой сложный процесс. За последний год объем передаваемой информации в мире увеличился на 45%, в то время как рост пропускной способности составил лишь 20%. Это создает значительные вызовы для обеспечения стабильности и точности передачи данных. Примерно с 2021 года начали активно исследовать новые подходы, позволяющие отойти от традиционных численных методов восстановления сигнала на приемнике, поскольку их производительность в условиях повышенной нагрузки уже недостаточна. В докладе будет подробно рассмотрен классический цикл работы передачи сигнала в оптоволоконной линии, а также численный метод, который применяется для восстановления сигнала в традиционных системах. Кроме того, будет обсуждено, как использование нейронных сетей помогает существенно улучшить качество восстановления сигнала, и представлены примеры их успешного применения для повышения точности и скорости обработки.

Докладчик: Усачев Никита


🗒 Разработка протеза стопы

Разработка протезов стоп — сложный и трудоемкий процесс. В настоящее время он осуществляется преимущественно с использованием физических методов, что делает процесс длительным и менее гибким. Применение математического моделирования могло бы значительно оптимизировать эту задачу. В докладе будет представлен проект исследовательской группы по биомеханике и медицинскому инжинирингу, направленный на разработку протеза с использованием методов математического моделирования. Будет рассмотрена роль композитных материалов, их особенности и сложности в работе с ними. Также будет объяснено, почему предложенная в статье математическая модель протеза не подходит для разработки, и представлена новая разработанная геометрия протеза стопы.

Докладчик: Коновалов Назар
👍3🔥2👌2
📌 Анонс семинара Лаборатории 11 ноября (16.20 в 5234):

🗒 От промтов к векторным представлениям: как современные подходы меняют хранение и понимание текста

Задумывались ли вы когда-нибудь, что векторные представления документов можно «промтить» при кодировке? Генеративные модели настолько прочно вошли в нашу повседневность, что почти любое текстовое взаимодействие теперь проходит через фильтр ChatGPT или подобных инструментов. Однако в основном эти модели применяются для генерации текстов или изображений, а мы в своем исследовании фокусируемся на другом — на хранении данных и возможности учитывать контекст. Ведь именно контекст часто становится ключом к пониманию и точному сравнению предложений (sentence similarity). Это особенно важно для узкоспециализированных областей, где одно слово может радикально изменить смысл. В докладе мы погрузимся в историю развития кодировки текстовых данных, обсудим сегодняшние SOTA (state-of-the-art) подходы и узнаем о признанных бенчмарках и кейсах применения. А также Александр расскажет нам о своей исследовательской теме в аспирантуре, где как раз изучает, как эффективнее использовать эти подходы для сохранения контекста и повышения точности анализа текстов.

Докладчик:
Александр Тарасов

🗒 Автоматизация обновления толковых словарей с помощью больших языковых моделей

Как сохранить актуальность и доступность толковых словарей в условиях быстрого изменения языка? В своём докладе Тимур расскажет, как их команда использовали LLM для автоматизации генерации и упрощения определений в русском языке, исследовали различные источники и подходы, сравнивая методы генерации толкований. Полученные результаты показывают, что предложенный подход помогает повысить доступность информации и обеспечивает высокое качество определений, делая их язык понятнее для широкой аудитории.

Докладчик: Тимур Гарипов
🔥5👏3👍2
📌 Анонс семинара Лаборатории 18 ноября (16.20 в 4117):

🗒 Преобразование табличных данных для few-shot классификации с помощью LLM

Мы привыкли к тому, что нейросети на табличных данных уступают в точности классическим ML-моделям. Но что, если у нас нет достаточно большого датасета для обучения бустинга? На помощь приходят LLM, которые уже содержат знания о мире и специфических предметных областях, а значит их можно дообучать в режиме few-shot learning под конкретные табличные задачи. Последние исследования подтверждают эффективность этого метода. Но в каком виде передавать таблицу в модель? Этому будет посвящено исследование, план и задачи которого будут представлены в ходе доклада.

Докладчик: Шульгин Егор

🗒 GOT: Архитектура для высокопроизводительного оптического распознавания символов [разбор статьи]

Оптическое распознавание символов (OCR) — это широко используемая технология, которая извлекает символы с изображения в редактируемый формат. Традиционные системы OCR все чаще не могут удовлетворить потребности людей из-за растущего спроса на интеллектуальную обработку символов. В работе рассматривается общая теория OCR (OCR 2.0): понятие символа обобщается на большинство оптических сигналов (текст, формулы, ноты, диаграммы, таблицы и геометрические фигуры) и предлагается эффективная, относительно простая модель GOT, состоящая из кодировщика с высокой степенью сжатия и декодера длинных контекстов, которая может обрабатывать все вышеперечисленные «символы» в различных задачах OCR и выдавать простой или форматированный результат.

Докладчик: Иванков Павел

🗒 Генерация данных для пост-OCR-коррекции рукописного кириллического текста [разбор статьи]

Распознавание рукописного кириллического текста (HTR) является актуальной и непростой задачей из-за отсутствия больших, качественно аннотированных наборов данных об ошибках OCR. В данной работе авторы предлагают новый, основанный на генерации искусственных данных, подход к пост-коррекции результатов OCR. Для создания реалистичных образцов, которые затем используются для увеличения текстовых наборов данных, предлагается использовать генератор рукописного текста на основе кривых Безье. Уже на новом расширенном датасете обучается модель коррекции seq2seq, основанная на архитектуре T5. В ходе экспериментов на общедоступных датасетах HWR200 и School_notebooks_RU продемонстрирована эффективность предложенного метода, тем самым удалось повысить точность распознавания как отдельных символов, так и слов.

Докладчик: Мищенко Александр

🗒 Улучшение качества оптического распознавания исторических документов XIX века. Использование комбинированного подхода на основе машинного обучения [разбор статьи]

Статья предлагает улучшенный подход к распознаванию текста в исторических документах XIX века, сочетая традиционные методы OCR и современные нейронные сети. Цель исследования — минимизировать ошибки при распознавании старинных шрифтов и типографских особенностей. В статье разработан метод, который позволяет повысить точность распознавания и анализировать ошибки OCR, что способствует более эффективной обработке оцифрованных архивных данных.

Докладчик: Денисов Семен
👍5👏3🔥2
📌 Анонс семинара Лаборатории 25 ноября (16.20 в 5234):

🗒 Методы генеративного дизайна в проектировании

Генеративный дизайн — технология, в которой часть процессов при создании какого-либо продукта, будь то физический объект или цифровая модель, делегируется цифровым технологиям. Инструментов для генеративного дизайна существует множество, а способов их применения — ещë больше! В докладе будут обсуждаться различные подхожы к генеративному дизайну, их плюсы и минусы, а также способы применения. Особое же внимание будет уделено моделированию цифровых двойников физических объектов в CAD-системах и топологической оптимизации, с чем и связана работа докладчика.

Докладчик: Данил Тищенко

🗒 E-com assistant AIJ24

Доклад посвящён участию и победе Антона в соревновании AIJ в этом году по задаче E-com Assistant. Цель соревнования заключалась в создании рекомендательной диалоговой системы, которая выявляет требования пользователя к товару и предоставляет оптимальную подборку. Особый интерес в работе представляет оригинальный подход к созданию синтетического набора данных и обучению кросс-энкодера, оценивающего соответствие между характеристиками товара и запросом пользователя, сформулированным на естественном языке в ходе диалога.

Докладчик: Антон Легченко
👍3🔥3👏1
📌 Анонс семинара Лаборатории 2 декабря (16.20 в 4117):

🗒 Оценка эффективности применения лингвистических характеристик при оценке сложности текста [по материалам кандидатской диссертации]

Сложность текста — величина, не имеющая строгого определения, но весьма востребованная с прикладной точки зрения. Использовать для её измерения экспертов — долго и дорого, поэтому попытки автоматизировать вычисление возникли на самых ранних этапах развития вычислительной лингвистики. За прошедшие с тех пор 70 лет алгоритмы оценки значительно развились. Часто в качестве признакового описания в этих алгоритмах используются предвычисленные лингвистические характеристики, ассоциированные со сложностью текста. При этом из-за различий в датасетах и постановках задачи сравнивать полученные разными авторами результаты сложно. В частности, неясно, какие характеристики следует включать в признаковое описание вне зависимости от конкретного датасета. В своём докладе Дмитрий расскажет о разработке алгоритма для оценки эффективности использования различных групп лингвистических характеристик и его применении на материале русского языка.

Докладчик: Дмитрий Морозов

🗒 Иерархический подход в анализе text-to-img моделей

В настоящее время text2img модели для генерации изображений имеют большую популярность во всем мире и применяются в самых различных областях. Однако до конца не изучен вопрос понимания модели запросов (промтов). Часто даже самые лучшие на данный момент генеративные модели могут выдавать некорректные ответы и для нужного результата людям часто приходится конкретизировать промпт, что вызывает неудобства и трудности в эксплуатации моделей. Решением проблемы может стать иерархический подход в анализе и обучении генеративных моделей. Данный подход поможет более подробно изучить работу существующих text2img моделей и обучить их генерировать разнообразные и точные изображения для простых промптов. В данном докладе будут представлены результаты иерархического анализа существующих text2img моделей,таких как Шедеврум, Кадинский, DALLE-3, Stable Diffusion v21 и Midjourney. Более того будут продемонстрированы первые результаты иерархического обучения генерации изображений моделью Stable Diffusion v21.

Докладчик: Владислав Калини

🗒 Сегментация аневризмы брюшной аорты

Эндоваскулярное лечение аневризмы брюшной аорты — это безопасный метод, который заменяет сложные открытые операции. Успех зависит от формы и размеров аорты. Если анатомия сложная, могут быть осложнения: смещение устройства, утечки или тромбы. Чтобы этого избежать, врачи оценивают форму, угол и размеры аорты. Сегментация аневризмы поможет врачам точнее планировать лечение и выбирать наилучшие устройства для каждого пациента.

Докладчик: Роман Козырев
👍6🔥2🆒1
📌 Анонс семинара Лаборатории 9 декабря (16.20 в 4117):

🗒 Компенсация оптических искажений на астрофотографиях


В докладе будут рассмотрены современные вычислительные методы обработки астроснимков планет, полученных в любительских условиях, где качество изображения ограничено атмосферными искажениями. На примере фотографий Юпитера будет продемонстрирован пайплайн, включающий автоматический отбор кадров по метрикам качества (таким как NIQE и BRISQUE), их последующее выравнивание, а также мультикадровую слепую деконволюцию для восстановления мелких деталей. Предложенный подход не требует дорогостоящего профессионального оборудования или адаптивной оптики и позволяет отказаться от ручного подбора параметров, обеспечивая более точное восстановление структуры изображения и снижение шума по сравнению с традиционными любительскими методами.

Докладчик: Константин Москаленко

🗒 Эффективные подходы к регуляризации в физически-информированных нейронных сетях

Физически-информированные нейронные сети (ФИНС) — это подход в машинном обучении, который позволяет интегрировать законы физики в архитектуру нейросетей. Это значительно улучшает качество моделирования нейросетями сложных физических процессов, таких как динамика жидкостей, теплопередача и другие задачи, связанные с дифференциальными уравнениями. При решении дифференциальных уравнений очень важно правильно согласовывать внутренние и граничные условия уравнения, в ФИНС для этого были придуманы различные методы регуляризации. В своем докладе Тимур расскажет что такое регуляризация в ФИНС, какие они бывают, какие существуют проблемы, а также на что будет направлено его исследование в рамках дипломной работы.

Докладчик: Тимур Еникеев

🗒 Учет времени пребывания в реологических моделях крови: действительно ли нам нужно неньютоновское моделирование кровотока в крупных артериях? [разбор статьи]

Вычислительная гидродинамика (CFD) является многообещающим инструментом, который предоставляет информацию о гемодинамике с высоким разрешением. Выбор реологии крови является предположением в моделях CFD и служит предметом обширных дебатов. В этом исследовании предлагается новая гибридная модель ньютоновской и неньютоновской реологии, в которой в областях с высоким временем пребывания активируется процесс разжижения при сдвиге, основанный на экспериментальных данных. Рассматриваются модели брюшной аорты и аневризмы головного мозга на основе изображений, и выполняется CFD-моделирование с высоким разрешением с использованием минимально диссипативного решателя.

Докладчица: Алена Козюрина
👍2👏2🤯2🔥1