Small Data Science for Russian Adventurers
11.3K subscribers
307 photos
3 videos
13 files
708 links
БЕЗ ЧУЖОЙ РЕКЛАМЫ Авторский канал Александра Дьяконова (dyakonov.org)
машинное (machine learning) и
глубокое обучение (deep learning)
анализ данных (data mining)
наука о данных (data science)
ИИ (artificial intelligence)
математика (math)
и др.
ЕСТЬ ЧАТ;)
Download Telegram
#конференция
Митап про сбор данных в широком смысле.
22 апреля (18-30 MSK) будут следующие доклады:

1. "Еще одна архитектура системы мониторинга цен и место библиотеки ferret в ней"
2. "Кейс от mail.ru. Россети. Контроль качества данных"
3. "Автоматические регистрации на веб-порталах"
4. "Сбор данных с сейсмографов"
5. "Сбор данных о бумажных книгах"
6. "Парсинг через Tor: Как скачать 1.5 млн патентов за 2 недели, а не за 40 лет"

Вся информация в https://t.iss.one/parsing_conf
#конференция
В МГУ скоро пройдёт такое мероприятие (с этого года всё, что хоть как-то связано с ИИ, помечают "AI"):
https://event.msu.ru/aiconference
#конференция
Ещё одна бесплатная летняя научная школа «Сложные нейронные сети и когнитивно специализированные нейроны»:
https://brain.scientificideas.org/neuroscience-school-2022/ru
🔥11🤔5👍2
#конференция
А вот летняя школа от Сбера для преподавателей (не всё же студентам учиться):
https://sbergraduate.ru/digitalsummer/
👏17👍63🥴1
#конференция
Недавно закончилась предварительная оценка работ, поданных на ICLR 2023. Ниже статьи, которые набрали наибольшее количество баллов:

Раздел Deep Learning and representational learning (оценки 10;8;8)
Git Re-Basin: Merging Models modulo Permutation Symmetries
Действительно классная работа! Центральный вопрос: почему в нейронках SGD так хорош? Основной вывод: при оптимизации нейронок есть только одна область минимума, куда приводит SGD, если учесть симметрии нейронок. Вообще, интересно про связь симметрии и ML.
Rethinking the Expressive Power of GNNs via Graph Biconnectivity
Исследуется свойство двусвязанности графов (в статье довольно много математики из теории графов), как следствие предлагается Graphormer-GD - новая архитектура GNN, которая показала себя лучше предшественников на тестовых задачах.

Раздел Reinforcement Learning (оценки 8;8;8;10)
Emergence of Maps in the Memories of Blind Navigation Agents
Показывают, что "слепые агенты" неплохо справляются с задачами навигации. При этом неявно они всё-таки создают "карту окружения". Очень красивая идея!
DEP-RL: Embodied Exploration for Reinforcement Learning in Overactuated and Musculoskeletal Systems
Предлагают эффективный метод обучения для "скелетно-мышечных моделей". Вроде как до этого такие модели не слишком хорошо обучались...

Раздел Applications (оценки 10;8;6;10)
Revisiting the Entropy Semiring for Neural Speech Recognition
Тут смесь ML и алгебры (причём абстрактной алгебры): рассматривается полукольцо, которое возникает в задачах распознавания речи. Показано, как функции ошибки можно трактовать в терминах полуколец. Работа доведена до численных экспериментов.

Раздел Theory (оценки 8;10;10;5)
Understanding Ensemble, Knowledge Distillation and Self-Distillation in Deep Learning
Новая теория ансамблирования! По мнению авторов, первая в DL...

Раздел General Machine Learning (оценки 8;8;8)
Learning a Data-Driven Policy Network for Pre-Training Automated Feature Engineering
Автоматическая генерация признаков на основе RL. Показывают, как улучшается качество для LogReg, RF, XGBoost.
Targeted Hyperparameter Optimization with Lexicographic Preferences Over Multiple Objectives
Рассматривается многокритериальная оптимизация гиперпараметров с порядком приоритета критериев. Новый метод оптимизации опробован для Xgboost, RF и NN.

Раздел Probabilistic Methods (оценки 8;8;8)
Fast Nonlinear Vector Quantile Regression
Обобщение квантильной регрессии, написали свой GPU-солвер.
Scaling Up Probabilistic Circuits by Latent Variable Distillation
Предложена техника для применения Probabilistic Circuits на больших данных.

Раздел Optimization (оценки 8;8;8)
FedExP: Speeding up Federated Averaging via Extrapolation
Метод эффективного федеративного обучения

Раздел Social Aspects of Machine Learning (оценки 8;8;8)
Confidential-PROFITT: Confidential PROof of FaIr Training of Trees
Рассматривается проблема fair-обучения решающих деревьев. Предложенный подход не зависит от выбора тестов и не требует представления данных и модели проверяющему.

Раздел Generative models (оценки 8;8;8)
DreamFusion: Text-to-3D using 2D Diffusion
Синтез text-to-3D. При этом используются модели 2D-синтеза, не нужны 3D-данные.
👍91
#конференция
Ещё про конференции, но теперь математические... сейчас проходит мероприятие под названием Вторая конференция Математических центров России. Интересны аннотации докладов - очень хороший срез "какая сейчас математика в России" (как в положительном, так и в отрицательном смысле). Да, не представлены все направления и все хорошие исследователи, но на удивление довольно разнообразный и внушительный состав участников.

П.С. Кстати, удивился, скольких же я знаю среди докладчиков (причём чаще в формате "жили в одном номере" на такой-то конференции). Тот случай, когда сам учёным не стал, но зато со всеми пожил;)
👍53🔥6
#конференция
Завтра буду на форуме риск-менеджеров, поскольку часть подписчиков канала из этой среды, есть возможность "в живую" пообщаться;)
https://рисковики.рф/
🔥20🤮10👍5🤣3👨‍💻3🤩1
#конференция
Года 3 назад постил эту ссылку, но если кто-то не добавил в закладки...
Список научных школ по машинному обучению (в том числе будущих):
https://github.com/sshkhr/awesome-mlss
👍29🔥11