📌Анонс семинара Лаборатории 09 октября (10.50 в 4105):
🗒 Учимся понимать диалоги на основе реальных данных
Антон расскажет о self-supervised методах обучения NLU моделей на основе больших объёмов реальных диалогов клиентов с ботом и операторами поддержки сервиса. Задача делалась в рамках чат-бота денежных переводов и других сервисов ЦФТ. В презентации будут показаны различные идеи к постановке задач для адаптации моделей к домену без привлечения разметчиков. В частности, будет показано как именно предобучали модельку для лучшей работы с контекстом диалога.
Докладчик: Антон Легченко
🗒 Сбор и разметка корпуса голосовых команд
В своем докладе Сюзанна опишет процесс создания набора голосовых команд с точки зрения датацентрического подхода, а также рассмотрит основные ошибки, совершенные на каждом этапе проделанной работы. Будет полезно всем, кто хоть раз в жизни сталкивался или планирует столкнуться с задачей сбора данных, но не знает, с чего начать.
Докладчик: Сюзанна Мартиросян
🗒 Учимся понимать диалоги на основе реальных данных
Антон расскажет о self-supervised методах обучения NLU моделей на основе больших объёмов реальных диалогов клиентов с ботом и операторами поддержки сервиса. Задача делалась в рамках чат-бота денежных переводов и других сервисов ЦФТ. В презентации будут показаны различные идеи к постановке задач для адаптации моделей к домену без привлечения разметчиков. В частности, будет показано как именно предобучали модельку для лучшей работы с контекстом диалога.
Докладчик: Антон Легченко
🗒 Сбор и разметка корпуса голосовых команд
В своем докладе Сюзанна опишет процесс создания набора голосовых команд с точки зрения датацентрического подхода, а также рассмотрит основные ошибки, совершенные на каждом этапе проделанной работы. Будет полезно всем, кто хоть раз в жизни сталкивался или планирует столкнуться с задачей сбора данных, но не знает, с чего начать.
Докладчик: Сюзанна Мартиросян
👍2🔥1
📌Анонс семинара Магистратуры 13 октября (14.30 в 5234):
🗒Статья для разбора:
A. P. Dawid. The well-calibrated Bayesian. Journal of the American Statistical Association, 1982.
Докладчик: Ковалевский Данил
Оппонент: Травников Владислав
Гость: Андрей Зубков
Руководитель ML-направления в "Евраз"
Тема выступления: Почему калибровка ("точность") алгоритма - не важна
Ссылка для подключения к трансляции.
Идентификатор конференции: 830 3569 8413
Код доступа: 258209
🗒Статья для разбора:
A. P. Dawid. The well-calibrated Bayesian. Journal of the American Statistical Association, 1982.
Докладчик: Ковалевский Данил
Оппонент: Травников Владислав
Гость: Андрей Зубков
Руководитель ML-направления в "Евраз"
Тема выступления: Почему калибровка ("точность") алгоритма - не важна
Ссылка для подключения к трансляции.
Идентификатор конференции: 830 3569 8413
Код доступа: 258209
🔥1
📌Анонс семинара Лаборатории 16 октября (10.50 в 4105):
🗒 The cake is a lie: когда табличный AutoML не работает?
Современный табличный AutoML основан на принципе оценки качества по кросс-валидации или out-of-time валидации. Этот принцип красив, удобен и часто вполне применим в тех случаях, когда с данными работает ML-специалист, который может их правильно подготовить. Но в наши дни ML широко распространяется, в том числе пытаются создать AutoML-системы "для народа", ориентированные на неспециалистов. При этом принцип кросс-валидации притягивается за уши. В своем докладе Олег продемонстрирует 5 типов табличных данных, которые с точки зрения неспециалиста выглядят нормально, однако обученная на них autoML-система будет бесполезна на практике, потому что принцип кросс-валидации на них не работает.
Докладчик: Седухин Олег
🗒 Кросс-доменная устойчивость алгоритма на основе Transformer в задаче генерации ключевых слов.
Использование генеративных алгоритмов в задаче аннотирования текстов ключевыми словами позволяет достичь более релевантных результатов. Классические алгоритмы лишь выбирают ключевые из самого текста, но практика показывает, что более, чем в трети научных статей используются ключевые, не встретившиеся в тексте самой статьи. В рамках работы была исследована устойчивость алгоритма генерации ключевых на основе Transformer к сдвигу данных на примере шести корпусов из трёх различных доменов.
Докладчик: Морозов Дмитрий
🗒 The cake is a lie: когда табличный AutoML не работает?
Современный табличный AutoML основан на принципе оценки качества по кросс-валидации или out-of-time валидации. Этот принцип красив, удобен и часто вполне применим в тех случаях, когда с данными работает ML-специалист, который может их правильно подготовить. Но в наши дни ML широко распространяется, в том числе пытаются создать AutoML-системы "для народа", ориентированные на неспециалистов. При этом принцип кросс-валидации притягивается за уши. В своем докладе Олег продемонстрирует 5 типов табличных данных, которые с точки зрения неспециалиста выглядят нормально, однако обученная на них autoML-система будет бесполезна на практике, потому что принцип кросс-валидации на них не работает.
Докладчик: Седухин Олег
🗒 Кросс-доменная устойчивость алгоритма на основе Transformer в задаче генерации ключевых слов.
Использование генеративных алгоритмов в задаче аннотирования текстов ключевыми словами позволяет достичь более релевантных результатов. Классические алгоритмы лишь выбирают ключевые из самого текста, но практика показывает, что более, чем в трети научных статей используются ключевые, не встретившиеся в тексте самой статьи. В рамках работы была исследована устойчивость алгоритма генерации ключевых на основе Transformer к сдвигу данных на примере шести корпусов из трёх различных доменов.
Докладчик: Морозов Дмитрий
🔥4👍1
📌Анонс семинара Магистратуры 20 октября (14.30 в 5234):
🗒Статья для разбора:
J. R. Quinlan, “Induction of decision trees,” Machine Learning, vol. 1, pp. 81–106, 1986
Докладчик: Гарипов Тимур
Оппонент: Артеменко Никита
Гость: Юрий Кацер
Руководитель направления предиктивной аналитики (Lead DS) в стартапе, а также научный сотрудник ЛабПЦТ ММФ НГУ.
Тема выступления: Применение машинного обучения в задачах промышленности
Ссылка для подключения к трансляции.
Идентификатор конференции: 830 3569 8413
Код доступа: 258209
🗒Статья для разбора:
J. R. Quinlan, “Induction of decision trees,” Machine Learning, vol. 1, pp. 81–106, 1986
Докладчик: Гарипов Тимур
Оппонент: Артеменко Никита
Гость: Юрий Кацер
Руководитель направления предиктивной аналитики (Lead DS) в стартапе, а также научный сотрудник ЛабПЦТ ММФ НГУ.
Тема выступления: Применение машинного обучения в задачах промышленности
Ссылка для подключения к трансляции.
Идентификатор конференции: 830 3569 8413
Код доступа: 258209
🔥3👏1
📌Анонс семинара Лаборатории 23 октября (10.50 в 4105):
🗒 Использование Байесовских методов для адаптивной квантизации моделей нейронных сетей.
Нейронные сети имеют большой потенциал для использования на устройствах таких как мобильные телефоны, бытовая техника, сетевое оборудование и другие. Однако, обычно такие устройства имеют не очень мощные процессоры и ограниченное количество памяти, поэтому необходимо решить задачу сжатия нейронных сетей. Одним из методов сжатия является квантизация нейронных сетей. Мы предлагаем использовать Байесовские методы для определения степени квантизации слоев модели.
Докладчики: Иван Плохих , Данил Таранец
🗒 Использование Байесовских методов для адаптивной квантизации моделей нейронных сетей.
Нейронные сети имеют большой потенциал для использования на устройствах таких как мобильные телефоны, бытовая техника, сетевое оборудование и другие. Однако, обычно такие устройства имеют не очень мощные процессоры и ограниченное количество памяти, поэтому необходимо решить задачу сжатия нейронных сетей. Одним из методов сжатия является квантизация нейронных сетей. Мы предлагаем использовать Байесовские методы для определения степени квантизации слоев модели.
Докладчики: Иван Плохих , Данил Таранец
👍2🔥2❤🔥1
📌Анонс семинара Магистратуры 27 октября (14.30 в 5234):
🗒Статья для разбора:
L. Breiman, “Bagging predictors,” Machine Learning, vol. 24, pp. 123–140, 2004
Докладчик 1: Тютюльников Михаил
Докладчик 2: Кульбаченко Илья
Ссылка для подключения к трансляции.
Идентификатор конференции: 830 3569 8413
Код доступа: 258209
🗒Статья для разбора:
L. Breiman, “Bagging predictors,” Machine Learning, vol. 24, pp. 123–140, 2004
Докладчик 1: Тютюльников Михаил
Докладчик 2: Кульбаченко Илья
Ссылка для подключения к трансляции.
Идентификатор конференции: 830 3569 8413
Код доступа: 258209
👍3❤1🔥1
📌Анонс семинара Лаборатории 30 октября (10.50 в 4105):
🗒 Как работает сервис оценки недвижимости?
В докладе поговорим про оценку вторичной недвижимости. Рассмотрим, что происходит когда вы оцениваете квартиру: какие сервисы для этого нужны, как они взаимодействуют между собой, что считается онлайн, а что мы готовим для вас по ночам. Поговорим о процессе разработки модели от гипотезы до прода. Обсудим, почему мы отказываемся от pandas в продакшн-системах и как справляемся с проблемами многопоточности в Python.
Докладчик: Константин Носорев
🗒 Как работает сервис оценки недвижимости?
В докладе поговорим про оценку вторичной недвижимости. Рассмотрим, что происходит когда вы оцениваете квартиру: какие сервисы для этого нужны, как они взаимодействуют между собой, что считается онлайн, а что мы готовим для вас по ночам. Поговорим о процессе разработки модели от гипотезы до прода. Обсудим, почему мы отказываемся от pandas в продакшн-системах и как справляемся с проблемами многопоточности в Python.
Докладчик: Константин Носорев
🔥2
📌Анонс семинара Магистратуры 3 ноября (14.30 в 5234):
🗒Статья для разбора:
L. Breiman. Random forests. Machine learning, 45(1):5–32, 2001
Докладчик 1: Хотина Алисия
Докладчик 2: Сахаров Данил
Гость: Иван Комаров
Директор дирекции машинного отделения ЦФТ, один из основателей сибирского отделения Open Data Science.
Тема: Почему случайный лес работает и в каких случаях он хорош?
Ссылка для подключения к трансляции.
Идентификатор конференции: 830 3569 8413
Код доступа: 258209
🗒Статья для разбора:
L. Breiman. Random forests. Machine learning, 45(1):5–32, 2001
Докладчик 1: Хотина Алисия
Докладчик 2: Сахаров Данил
Гость: Иван Комаров
Директор дирекции машинного отделения ЦФТ, один из основателей сибирского отделения Open Data Science.
Тема: Почему случайный лес работает и в каких случаях он хорош?
Ссылка для подключения к трансляции.
Идентификатор конференции: 830 3569 8413
Код доступа: 258209
🔥1
📌Анонс семинара Лаборатории 6 ноября (10.50 в 4105):
🗒 Применение методов NLP для работы с ЭЭГ-данными.
Электроэнцефалография (ЭЭГ) -- это неинвазивный метод изучения функций головного мозга с помощью регистрации его биоэлектрической активности. Ее широко используют для диагностики и контроля лечения различных патологий, таких как: эпилепсия, психические заболевания, алкоголизм и т.д.
В своем докладе Елена рассмотрит зачем и как применяются методы автоматического распознавания речи для работы с ЭЭГ-данными, а также разберет архитектуру и работу модели wav2vec, лежащую в основе данного метода.
Докладчица: Матвеева Елена
🗒 Классификация изображений колосьев пшеницы по признаку опушения колосковых чешуй с помощью сверточных нейросетей.
Высокопроизводительное фенотипирование при анализе больших объемов биологических данных становится необходимым иструментом. На данный момент умная теплица может обойтись обычному садоводу в сумму от 1 млн. евро, а гиперспектральная камера стоит столько же, сколько новая Kia Rio. Большие компании как Monsanto, Seminis, Syngenta Sinochem Holdings разрабатывают методы построения моделей растеней, но исследований по использованию изображений растений для предсказания каких-либо специфических фенотипических признаков совсем немного. В этой работе рассмотренна задача бинарной классификации изображений колосьев по признаку опушения колосковых чешуй. В своем докладе Никита расскажет про саму задачу, каких результатов получилось добиться. В чем трудности решения подобных задач и насколько нейросеть предсказывает круче биолога-эксперта, который визуально оценивает признак по тем же изображениям.
Докладчик: Никита Артёменко
🗒 Применение методов NLP для работы с ЭЭГ-данными.
Электроэнцефалография (ЭЭГ) -- это неинвазивный метод изучения функций головного мозга с помощью регистрации его биоэлектрической активности. Ее широко используют для диагностики и контроля лечения различных патологий, таких как: эпилепсия, психические заболевания, алкоголизм и т.д.
В своем докладе Елена рассмотрит зачем и как применяются методы автоматического распознавания речи для работы с ЭЭГ-данными, а также разберет архитектуру и работу модели wav2vec, лежащую в основе данного метода.
Докладчица: Матвеева Елена
🗒 Классификация изображений колосьев пшеницы по признаку опушения колосковых чешуй с помощью сверточных нейросетей.
Высокопроизводительное фенотипирование при анализе больших объемов биологических данных становится необходимым иструментом. На данный момент умная теплица может обойтись обычному садоводу в сумму от 1 млн. евро, а гиперспектральная камера стоит столько же, сколько новая Kia Rio. Большие компании как Monsanto, Seminis, Syngenta Sinochem Holdings разрабатывают методы построения моделей растеней, но исследований по использованию изображений растений для предсказания каких-либо специфических фенотипических признаков совсем немного. В этой работе рассмотренна задача бинарной классификации изображений колосьев по признаку опушения колосковых чешуй. В своем докладе Никита расскажет про саму задачу, каких результатов получилось добиться. В чем трудности решения подобных задач и насколько нейросеть предсказывает круче биолога-эксперта, который визуально оценивает признак по тем же изображениям.
Докладчик: Никита Артёменко
🔥3
📌Анонс семинара Магистратуры 10 ноября (14.30 в 5234):
🗒Статья для разбора:
P. Geurts, D. Ernst, and L. Wehenkel. Extremely randomized trees. Machine learning, 63(1): 3–42, 2006
Докладчик 1: Ипполитов Макар
Докладчик 2: Выдрин Антон
Гость: Юрий Бабуров
CTO компании DreamDocs, преподаватель НГУ
Тема: Выбор подходящих DL и ML алгоритмов для задачи
Ссылка для подключения к трансляции.
Идентификатор конференции: 830 3569 8413
Код доступа: 258209
🗒Статья для разбора:
P. Geurts, D. Ernst, and L. Wehenkel. Extremely randomized trees. Machine learning, 63(1): 3–42, 2006
Докладчик 1: Ипполитов Макар
Докладчик 2: Выдрин Антон
Гость: Юрий Бабуров
CTO компании DreamDocs, преподаватель НГУ
Тема: Выбор подходящих DL и ML алгоритмов для задачи
Ссылка для подключения к трансляции.
Идентификатор конференции: 830 3569 8413
Код доступа: 258209
🔥2👍1
📌Анонс семинара Лаборатории 13 ноября (10.50 в 4105):
🗒 Машинное обучение для повышения эффективности методов моделирования турбулентных течений.
Одной из актуальных инженерных задач во многих отраслях машиностроения является создание методов точного и надёжного предсказания параметров турбулентных течений с помощью численного моделирования. В настоящее время высокой точности результатов можно достичь с помощью прямого численного моделирования (DNS), однако данный метод крайне требователен к вычислительным ресурсам. Поэтому в прикладных задачах часто используют менее затратные алгоритмы по поиску приближённых решений, такие как метод крупных вихрей (LES), метод отсоединённых вихрей (DES) и решение систем уравнений Навье-Стокса, осреднённых по Рейнольдсу (RANS).
Несмотря на распространённость таких подходов, точность и универсальность многочисленных моделей турбулентности, имеющих полуэмпирическую природу, довольно низки, поэтому для улучшения прогнозирования осреднённых характеристик потока и расширения спектра рассматриваемых задач такие модели нуждаются в модификациях. В своём докладе Григорий расскажет о перспективах использования методов машинного обучения для повышения эффективности подобных приближенных схем на примере решения RANS-систем для симуляции потока в канале.
Докладчик: Григорий Гусев
🗒 Задача нахождения позиционных данных при помощи IMU и проблемы ее решения.
На дворе 2023 год, и у большинства из нас в кармане располагается смартфон, определяющий наши координаты в любой момент времени, обращаясь к спутникам 4 крупнейших систем навигации. Однако точность GPS по состоянию на 2020 год заявляется на уровне 2 метров. Что делать, если требуется собрать данные значительно точнее, и к тому же внутри здания? Одно из решений — использование датчика пространственного положения и математических алгоритмов. В этом докладе Кирилл расскажет о процессе реализации такого решения в биомед-проекте, где точность должна исчисляться в миллиметрах.
Докладчик: Кирилл Тарасов
🗒 Применение нейросетевого алгоритма для прогнозирования центральной линии аневризмы аорты.
Одной из нерешенных проблем в медицине является прогнозирование рисков развития аневризмы аорты. В своем докладе Кирилл рассмотрит какие методы в решении этой проблемы применялись раньше и сейчас. А также подробно расскажет один из перспективных алгоритмов поиска центральной линии, основанный на нейросети U-Net и подходе attraction field.
Докладчик: Мелихов Кирилл
🗒 Машинное обучение для повышения эффективности методов моделирования турбулентных течений.
Одной из актуальных инженерных задач во многих отраслях машиностроения является создание методов точного и надёжного предсказания параметров турбулентных течений с помощью численного моделирования. В настоящее время высокой точности результатов можно достичь с помощью прямого численного моделирования (DNS), однако данный метод крайне требователен к вычислительным ресурсам. Поэтому в прикладных задачах часто используют менее затратные алгоритмы по поиску приближённых решений, такие как метод крупных вихрей (LES), метод отсоединённых вихрей (DES) и решение систем уравнений Навье-Стокса, осреднённых по Рейнольдсу (RANS).
Несмотря на распространённость таких подходов, точность и универсальность многочисленных моделей турбулентности, имеющих полуэмпирическую природу, довольно низки, поэтому для улучшения прогнозирования осреднённых характеристик потока и расширения спектра рассматриваемых задач такие модели нуждаются в модификациях. В своём докладе Григорий расскажет о перспективах использования методов машинного обучения для повышения эффективности подобных приближенных схем на примере решения RANS-систем для симуляции потока в канале.
Докладчик: Григорий Гусев
🗒 Задача нахождения позиционных данных при помощи IMU и проблемы ее решения.
На дворе 2023 год, и у большинства из нас в кармане располагается смартфон, определяющий наши координаты в любой момент времени, обращаясь к спутникам 4 крупнейших систем навигации. Однако точность GPS по состоянию на 2020 год заявляется на уровне 2 метров. Что делать, если требуется собрать данные значительно точнее, и к тому же внутри здания? Одно из решений — использование датчика пространственного положения и математических алгоритмов. В этом докладе Кирилл расскажет о процессе реализации такого решения в биомед-проекте, где точность должна исчисляться в миллиметрах.
Докладчик: Кирилл Тарасов
🗒 Применение нейросетевого алгоритма для прогнозирования центральной линии аневризмы аорты.
Одной из нерешенных проблем в медицине является прогнозирование рисков развития аневризмы аорты. В своем докладе Кирилл рассмотрит какие методы в решении этой проблемы применялись раньше и сейчас. А также подробно расскажет один из перспективных алгоритмов поиска центральной линии, основанный на нейросети U-Net и подходе attraction field.
Докладчик: Мелихов Кирилл
🆒3🔥2👍1
📌Анонс семинара Магистратуры 17 ноября (14.30 в 5234):
🗒Статья для разбора:
J. Friedman, “Greedy function approximation: A gradient boosting machine,” Annals of Statistics, vol. 29, pp. 1189–1232, 2001
Докладчик 1: Чупров Илья
Докладчик 2: Максаковский Никита
Гость: Павловский Евгений
Заведующий Лабораторией аналитики потоковых данных и машинного обучения
Тема доклада: О непреложной итеративности разработки применимых моделей машинного обучения
Ссылка для подключения к трансляции.
Идентификатор конференции: 830 3569 8413
Код доступа: 258209
🗒Статья для разбора:
J. Friedman, “Greedy function approximation: A gradient boosting machine,” Annals of Statistics, vol. 29, pp. 1189–1232, 2001
Докладчик 1: Чупров Илья
Докладчик 2: Максаковский Никита
Гость: Павловский Евгений
Заведующий Лабораторией аналитики потоковых данных и машинного обучения
Тема доклада: О непреложной итеративности разработки применимых моделей машинного обучения
Ссылка для подключения к трансляции.
Идентификатор конференции: 830 3569 8413
Код доступа: 258209
👍2❤1
📌Анонс семинара Лаборатории 20 ноября (10.50 в 4105):
🗒 Нейронные операторы для решения дифференциальных уравнений
Решение дифференциальных уравнений с использованием нейронных сетей приобретает значительную популярность. На текущий момент существует разнообразие методов решения, включая тот, который опирается на применение нейронных операторов — класса моделей, обучаемых выявлять отображения между пространствами функций. В своем докладе Тимур представит основные аспекты нейронных операторов, их математическую формулировку и интуитивное понимание, различные вариации, а также проведет сравнительный анализ с другим широко известным методом решения — PINN.
Докладчик: Тимур Еникеев
🗒 Нейронные операторы для решения дифференциальных уравнений
Решение дифференциальных уравнений с использованием нейронных сетей приобретает значительную популярность. На текущий момент существует разнообразие методов решения, включая тот, который опирается на применение нейронных операторов — класса моделей, обучаемых выявлять отображения между пространствами функций. В своем докладе Тимур представит основные аспекты нейронных операторов, их математическую формулировку и интуитивное понимание, различные вариации, а также проведет сравнительный анализ с другим широко известным методом решения — PINN.
Докладчик: Тимур Еникеев
👍2🔥1
📌Анонс семинара Магистратуры 24 ноября (14.30 в 5234):
🗒Статья для разбора:
Jon Louis Bentley. 1975. Multidimensional binary search trees used for associative searching. Commun. ACM 18, 9 (Sept. 1975), 509–517
Докладчик 1: Попов Алексей
Докладчик 2: Жумагулова Ирина
Гость: Валентин Мамедов
ex-Tinkoff RecSys, Sber.Devices GigaChat
Тема: Приближенные методы поиска ближайших соседей и их применение на практике
Ссылка для подключения к трансляции.
Идентификатор конференции: 830 3569 8413
Код доступа: 258209
🗒Статья для разбора:
Jon Louis Bentley. 1975. Multidimensional binary search trees used for associative searching. Commun. ACM 18, 9 (Sept. 1975), 509–517
Докладчик 1: Попов Алексей
Докладчик 2: Жумагулова Ирина
Гость: Валентин Мамедов
ex-Tinkoff RecSys, Sber.Devices GigaChat
Тема: Приближенные методы поиска ближайших соседей и их применение на практике
Ссылка для подключения к трансляции.
Идентификатор конференции: 830 3569 8413
Код доступа: 258209
👍1
📌Анонс семинара Лаборатории 27 ноября (10.50 в 4105):
🗒 Устойчивость свёрточного алгоритма генерации морфемных разборов к сдвигу данных
Определение морфемного состава слова – проблема, особенно актуальная при обучении русскому языку. Автоматическое построение морфемных разборов осложняется отсутствием согласия среди лингвистов в отдельных случаях. В то же время за последние годы опубликовано несколько работ, авторы которых используют различные методы машинного обучения для решения этой задачи в различных приложениях. В одной из таких работ была предложена архитектура на основе свёрточных нейронных сетей. Предложенный алгоритм показал достаточно высокое качество, из-за чего он часто использовался в последующих исследованиях как бейзлайн высокого уровня. В этой работе мы исследовали устойчивость данного алгоритма к сдвигу и нехватке данных и обнаружили, что качество алгоритма во многом зависит от совпадения морфемного состава обучающей и тестовой выборок.
Докладчик: Тимур Гарипов
🗒 Генеративные модели для оптимизации кристаллических структур
Доклад посвящен исследованию применения генеративных моделей в задаче оптимизации кристаллических структур в материаловедении. В работе рассматривается использование глубоких нейронных сетей для предсказания и улучшения структурных характеристик кристаллов, а также подходы к формированию набора данных и использованию функции потерь.
Докладчик: Михаил Тютюльников
🗒 Устойчивость свёрточного алгоритма генерации морфемных разборов к сдвигу данных
Определение морфемного состава слова – проблема, особенно актуальная при обучении русскому языку. Автоматическое построение морфемных разборов осложняется отсутствием согласия среди лингвистов в отдельных случаях. В то же время за последние годы опубликовано несколько работ, авторы которых используют различные методы машинного обучения для решения этой задачи в различных приложениях. В одной из таких работ была предложена архитектура на основе свёрточных нейронных сетей. Предложенный алгоритм показал достаточно высокое качество, из-за чего он часто использовался в последующих исследованиях как бейзлайн высокого уровня. В этой работе мы исследовали устойчивость данного алгоритма к сдвигу и нехватке данных и обнаружили, что качество алгоритма во многом зависит от совпадения морфемного состава обучающей и тестовой выборок.
Докладчик: Тимур Гарипов
🗒 Генеративные модели для оптимизации кристаллических структур
Доклад посвящен исследованию применения генеративных моделей в задаче оптимизации кристаллических структур в материаловедении. В работе рассматривается использование глубоких нейронных сетей для предсказания и улучшения структурных характеристик кристаллов, а также подходы к формированию набора данных и использованию функции потерь.
Докладчик: Михаил Тютюльников
🔥2❤🔥1👍1👏1
📌Анонс семинара Магистратуры 01 декабря (14.30 в 5234):
🗒Статья для разбора:
Crammer, Koby, Ofer Dekel, Joseph Keshet, Shai Shalev-Shwartz and Yoram Singer. “Online Passive-Aggressive Algorithms.” J. Mach. Learn. Res. 7 (2003): 551-585
Докладчик 1: Петоян Андраник
Докладчик 2: Ковалевский Данил
Гость: Андрей Гетманов
Сотрудник лаборатории автоматического машинного обучения ИТМО, руководитель студенческого клуба ITMO.Opensource, один из основных контрибьюторов https://github.com/aimclub/FEDOT
Тема: Открыть нельзя закрыть: ИИ + open source
Ссылка для подключения к трансляции.
Идентификатор конференции: 830 3569 8413
Код доступа: 258209
🗒Статья для разбора:
Crammer, Koby, Ofer Dekel, Joseph Keshet, Shai Shalev-Shwartz and Yoram Singer. “Online Passive-Aggressive Algorithms.” J. Mach. Learn. Res. 7 (2003): 551-585
Докладчик 1: Петоян Андраник
Докладчик 2: Ковалевский Данил
Гость: Андрей Гетманов
Сотрудник лаборатории автоматического машинного обучения ИТМО, руководитель студенческого клуба ITMO.Opensource, один из основных контрибьюторов https://github.com/aimclub/FEDOT
Тема: Открыть нельзя закрыть: ИИ + open source
Ссылка для подключения к трансляции.
Идентификатор конференции: 830 3569 8413
Код доступа: 258209
🔥3
📌 Анонс семинара Лаборатории 4 декабря (10.50 в 4105):
🗒 Обучение модели WaveNet решению задачи синтеза звука, параметризованной частотой основного тона и огибающей амплитуды
Задача генерации звука заданного тембра по последовательности управляющих параметров (например, MIDI поток) является одной из основных задач при создании программного обеспечения для создания музыки. Классические методы синтеза звука, иммитирующего существующие музыкальные инструменты, требуют либо сложных алгоритмов, либо объемную библиотеку сэмплов. Методы глубокого обучения способны предоставить решение задачи без указанных недостатков. Современные модели, синтезирующие звук обучены таким образом, чтобы максимально близко иммитированть тембр инструмента. К сожалению, точность передачи тона из-за этого страдает, а это не позволяет строить полифонические синтезаторы на основе ANN. В данной работе исследуется способы обучения модели на основе WaveNet для точной передачи тона тембрально простых звуков.
Докладчик: Олег Жуков
🗒 Затухание градиентов
Антон предлагает обсудить проблему затухания градиентов, рассмотреть методы ее преодоления и их влияние на результат. В докладе будет проведено сравнение подходов, анализ их воздействия на распределение градиентов, обсуждение недостатков популярных методов и значимость проблемы для различных архитектур. Основано на выступлении Влада Голощапова с датафеста.
Докладчик: Антон Легченко
🗒 Обучение модели WaveNet решению задачи синтеза звука, параметризованной частотой основного тона и огибающей амплитуды
Задача генерации звука заданного тембра по последовательности управляющих параметров (например, MIDI поток) является одной из основных задач при создании программного обеспечения для создания музыки. Классические методы синтеза звука, иммитирующего существующие музыкальные инструменты, требуют либо сложных алгоритмов, либо объемную библиотеку сэмплов. Методы глубокого обучения способны предоставить решение задачи без указанных недостатков. Современные модели, синтезирующие звук обучены таким образом, чтобы максимально близко иммитированть тембр инструмента. К сожалению, точность передачи тона из-за этого страдает, а это не позволяет строить полифонические синтезаторы на основе ANN. В данной работе исследуется способы обучения модели на основе WaveNet для точной передачи тона тембрально простых звуков.
Докладчик: Олег Жуков
🗒 Затухание градиентов
Антон предлагает обсудить проблему затухания градиентов, рассмотреть методы ее преодоления и их влияние на результат. В докладе будет проведено сравнение подходов, анализ их воздействия на распределение градиентов, обсуждение недостатков популярных методов и значимость проблемы для различных архитектур. Основано на выступлении Влада Голощапова с датафеста.
Докладчик: Антон Легченко
🔥2👍1🆒1
📌Анонс семинара Магистратуры 08 декабря (14.30 в 5234):
🗒Статья для разбора:
Ribeiro, Marco Tulio, Sameer Singh, and Carlos Guestrin. “Why should I trust you?: Explaining the predictions of any classifier.” Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining. ACM (2016)
Докладчик 1: Муратов Владислав
Докладчик 2: Калачев Иван
Гость: Елена Бручес
Ведущий инженер, Huawei
Младший научный сотрудник, ИСИ СО РАН
Старший преподаватель, НГУ
Тема: Интерпретируемость и прозрачность машинного обучения: мой опыт
Ссылка для подключения к трансляции.
Идентификатор конференции: 830 3569 8413
Код доступа: 258209
🗒Статья для разбора:
Ribeiro, Marco Tulio, Sameer Singh, and Carlos Guestrin. “Why should I trust you?: Explaining the predictions of any classifier.” Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining. ACM (2016)
Докладчик 1: Муратов Владислав
Докладчик 2: Калачев Иван
Гость: Елена Бручес
Ведущий инженер, Huawei
Младший научный сотрудник, ИСИ СО РАН
Старший преподаватель, НГУ
Тема: Интерпретируемость и прозрачность машинного обучения: мой опыт
Ссылка для подключения к трансляции.
Идентификатор конференции: 830 3569 8413
Код доступа: 258209
🔥4
📌 Анонс семинара Лаборатории 11 декабря (10.50 в 4105):
🗒 Детоксикация русскоязычных текстов на основе комбинации контролируемой генерации с использованием предварительно обученного ruGPT3 и Delete-метода
В докладе будет рассказано про решение, полученное на конкурсе автоматической детоксикации текста на русском языке RUSSE Detoxification 2022. Соревнование проводилось в рамках конференции Dialog 2022. Рассматриваемый подход заключается в фильтрации предоставленного организаторами соревнования набора обучающих данных, переподготовке предварительно обученной модели ruGPT3 и отборе примеров детоксифицированных (нейтральных) предложений. Алгоритм сделан на основе косинусной близости и ROUGE-L к входному токсичному предложению и их последующей обработкой с использованием библиотеки ruPrompts для ruGPT-3. Заключительный этап обработки сгенерированных нейтральных комментариев проводится с использованием метода Delete — неконтролируемой модели детоксикации, основанной на правилах, которая удаляет все оставшиеся грубые и отсутствующие слова, хранящиеся в словаре, предоставленном организаторами.
Докладчица: Екатерина Тотмина
🗒 Исследование и разработка нейросетевого алгоритма синтеза ЭЭГ-сигнала
ЭЭГ сигнал широко используется в задачах предсказывания различных заболеваний, например эпилепсии или депрессии. Однако получение чистых ЭЭГ сигналов зачастую бывает проблематичным ввиду дорогостоящего оборудования, а также имеется дефицит данных непосредственно предприступных состояний (если речь идет о предсказывании эпилепсии). Поэтому многие проблемы могли бы решиться, если бы мы могли генерировать похожие, медицински-верные ЭЭГ сигналы, дополняя уже имеющиеся данные. На эту тему существуют статьи, в которых исследователи используют для этих целей генеративно-состязательные нейронные сети. Докладчик же решил попробовать использовать аудио диффузионную модель ввиду сходства ЭЭГ сигнала с аудио сигналом. В докладе будет рассказано о предобработке данных для последующего обучения и генерации ЭЭГ сигнала с помощью аудио диффузионной модели.
Докладчик: Артем Шмаков
🗒 Детоксикация русскоязычных текстов на основе комбинации контролируемой генерации с использованием предварительно обученного ruGPT3 и Delete-метода
В докладе будет рассказано про решение, полученное на конкурсе автоматической детоксикации текста на русском языке RUSSE Detoxification 2022. Соревнование проводилось в рамках конференции Dialog 2022. Рассматриваемый подход заключается в фильтрации предоставленного организаторами соревнования набора обучающих данных, переподготовке предварительно обученной модели ruGPT3 и отборе примеров детоксифицированных (нейтральных) предложений. Алгоритм сделан на основе косинусной близости и ROUGE-L к входному токсичному предложению и их последующей обработкой с использованием библиотеки ruPrompts для ruGPT-3. Заключительный этап обработки сгенерированных нейтральных комментариев проводится с использованием метода Delete — неконтролируемой модели детоксикации, основанной на правилах, которая удаляет все оставшиеся грубые и отсутствующие слова, хранящиеся в словаре, предоставленном организаторами.
Докладчица: Екатерина Тотмина
🗒 Исследование и разработка нейросетевого алгоритма синтеза ЭЭГ-сигнала
ЭЭГ сигнал широко используется в задачах предсказывания различных заболеваний, например эпилепсии или депрессии. Однако получение чистых ЭЭГ сигналов зачастую бывает проблематичным ввиду дорогостоящего оборудования, а также имеется дефицит данных непосредственно предприступных состояний (если речь идет о предсказывании эпилепсии). Поэтому многие проблемы могли бы решиться, если бы мы могли генерировать похожие, медицински-верные ЭЭГ сигналы, дополняя уже имеющиеся данные. На эту тему существуют статьи, в которых исследователи используют для этих целей генеративно-состязательные нейронные сети. Докладчик же решил попробовать использовать аудио диффузионную модель ввиду сходства ЭЭГ сигнала с аудио сигналом. В докладе будет рассказано о предобработке данных для последующего обучения и генерации ЭЭГ сигнала с помощью аудио диффузионной модели.
Докладчик: Артем Шмаков
🔥2
📌Анонс семинара Магистратуры 15 декабря (14.30 в 5234):
🗒Статья для разбора:
Lundberg, Scott M., and Su-In Lee. “A unified approach to interpreting model predictions.” Advances in Neural Information Processing Systems (2017)
Докладчик 1: Коробов Александр
Докладчик 2: Аношин Сергей
Гость: Владимир Борисович Бериков
доктор технических наук, главный научный сотрудник лаборатории анализа данных Института математики СО РАН
Тема: "Обучение со слабой разметкой"
Ссылка для подключения к трансляции.
Идентификатор конференции: 830 3569 8413
Код доступа: 258209
🗒Статья для разбора:
Lundberg, Scott M., and Su-In Lee. “A unified approach to interpreting model predictions.” Advances in Neural Information Processing Systems (2017)
Докладчик 1: Коробов Александр
Докладчик 2: Аношин Сергей
Гость: Владимир Борисович Бериков
доктор технических наук, главный научный сотрудник лаборатории анализа данных Института математики СО РАН
Тема: "Обучение со слабой разметкой"
Ссылка для подключения к трансляции.
Идентификатор конференции: 830 3569 8413
Код доступа: 258209
📌 Анонс семинара Лаборатории 18 декабря (10.50 в 4105):
🗒 Платон, припоминание и сильный искусственный интеллект: алгоритм создания мультимодального диалогового агента общего назначения
Докладчик: Иван Бондаренко
🗒 Оценка времени готовки блюда в Я.Еда
Задача оценки времени готовки еды является одной из важнейших в любом сервисе доставки еды. Решение данной проблемы является достаточно сложным по причине многочисленных факторов: тип блюда (первое, второе, ...), класс ресторана (фаст-фуд, премиум, ...), время заказа пользователя (час пик/выходной) и количество порций. Все факторы, кроме первого, довольно просто описать и использовать в любой модели, но вот передать произвольной модели информацию о блюде довольно сложно. Более того, сложность задаче добавляет требование на ограничение работы модели в рантайме с предельно быстрым инференсом. В своем докладе Влад расскажет как поставленная задача решается в команде Я.Еда.
Докладчик: Владислав Калинин
🗒 Применение предиктивной аналитики для оптимизации работы роторных частей авиационных двигателей
Предиктивная аналитика использует методы машинного обучения для предсказания будущих событий на основе прошлых данных. В данной работе акцент делается на возможности её применения к промышленным данным, а если быть точнее, к данным роторных частей авиационного двигателя. В области авиастроения необходимо заранее знать о возможных неисправностях, а также важна информация об остаточном ресурсе двигателя. Именно с задачами локализации дефектов и оценки остаточного ресурса предлагает ознакомиться в этом докладе.
Докладчик: Илья Кульбаченко
🗒 Платон, припоминание и сильный искусственный интеллект: алгоритм создания мультимодального диалогового агента общего назначения
Докладчик: Иван Бондаренко
🗒 Оценка времени готовки блюда в Я.Еда
Задача оценки времени готовки еды является одной из важнейших в любом сервисе доставки еды. Решение данной проблемы является достаточно сложным по причине многочисленных факторов: тип блюда (первое, второе, ...), класс ресторана (фаст-фуд, премиум, ...), время заказа пользователя (час пик/выходной) и количество порций. Все факторы, кроме первого, довольно просто описать и использовать в любой модели, но вот передать произвольной модели информацию о блюде довольно сложно. Более того, сложность задаче добавляет требование на ограничение работы модели в рантайме с предельно быстрым инференсом. В своем докладе Влад расскажет как поставленная задача решается в команде Я.Еда.
Докладчик: Владислав Калинин
🗒 Применение предиктивной аналитики для оптимизации работы роторных частей авиационных двигателей
Предиктивная аналитика использует методы машинного обучения для предсказания будущих событий на основе прошлых данных. В данной работе акцент делается на возможности её применения к промышленным данным, а если быть точнее, к данным роторных частей авиационного двигателя. В области авиастроения необходимо заранее знать о возможных неисправностях, а также важна информация об остаточном ресурсе двигателя. Именно с задачами локализации дефектов и оценки остаточного ресурса предлагает ознакомиться в этом докладе.
Докладчик: Илья Кульбаченко
🔥4🤯2❤1