Small Data Science for Russian Adventurers
11.2K subscribers
296 photos
3 videos
13 files
699 links
БЕЗ ЧУЖОЙ РЕКЛАМЫ Авторский канал Александра Дьяконова (dyakonov.org)
машинное (machine learning) и
глубокое обучение (deep learning)
анализ данных (data mining)
наука о данных (data science)
ИИ (artificial intelligence)
математика (math)
и др.
ЕСТЬ ЧАТ;)
Download Telegram
#новости
Есть ещё крупные мероприятия, на которые допущены россияне, например Европейская олимпиада по математике среди девушек. Кстати, если удивлены - то да, для девушек есть отдельные олимпиады по математике, хотя они, конечно, могут быть и участницами основных. Выиграли наши школьницы (из Питера и Казани): https://edu.gov.ru/press/4981/chetyre-zolotye-medali-poluchili-rossiyskie-shkolnicy-na-11-y-evropeyskoy-olimpiade-po-matematike-dlya-devushek/
Впереди международная олимпиада (интересно, допустят ли туда участников из России).
#новости
Начали выкладывать какие-то (я сам пока не смотрел) городские данные. Сам факт, что подобные данные выкладываются в общий доступ радует. Мэрии некоторых американских и европейских городов уже давно выкладывают, например, данные, какие преступления были совершены, когда и где. У нас пока такое невозможно представить.
https://ai.mos.ru
#видео
В прошлом году самым популярным видео на моём ютуб-канале неожиданно стал разбор данных одного Kaggle-соревнования. Возможно, это действительно интересно общественности. Поэтому я сделал разбор задачи с ещё одного соревнования, которую мы решали вместе со студентами осенью (руки не доходили, а тут я решил эту же задачу дать для студентов, которым читаю ML, заодно и записал лекцию).
Итак, никаких современных трансформеров и мультимодальности, тупо смотрим табличные данные и придумываем признаки на протяжении 1 часа:
https://youtu.be/LDSMqYSE1vI
#полезно
Вчера просматривал DS-чаты, которые обычно не особо мониторю, ответил на несколько вопросов из серии "а почему у меня этот код не работает". Сегодня утром в личку стучится рекрутер с предложением о работе (судя по общим подпискам, как раз из-за вчерашней активности - до этого никогда не стучались). Вакансия на мидла в крупной компании, вилку не называют. Но в целом, мне идея понравилась - отлавливать кандидатов в профильных чатах (не тех, кто все вопросы к политике сводят или про будущее ИИ разглагольствуют, а тех, кто что-то дельное пишет, хоть в телеграме и нет кармы). Интересно только, насколько это действенный способ?
#длясправки
В машинном обучении (и много где ещё) любят аббревиатуры, интересно, когда такие аббревиатуры одновременно обозначают два разных понятия. Есть избитые примеры типа NLP (Natural Language Processing, NonLinear Programming, Neuro-Linguistic Programming), но всё таки это расшифровки из совершенно разных областей (и в ML путаницы нет), а вот несколько "внутриобластных" примеров.

SOTA – Вы, конечно, сразу подумали про State of the Art (тогда правильнее писать SotA), но есть ещё такой алгоритм Self Organizing Tree Algorithm. И самое забавное, что если Вы хотите погуглить, какой сейчас самый лучший алгоритм кластеризации, то на запрос "SOTA clustering" в гугле будет выдаваться именно этот. Неплохой маркетинговый ход;)

SGD – на ум приходит Stochastic gradient descent, но некоторые NLP-шники скажут, что есть такой набор данных Schema-Guided Dialogue dataset (SGD), в статьях и блог-постах гугла на него ссылаются как на SGD.

LDA – это классика: Latent Dirichlet Allocation и Linear Discriminant Analysis, хотя, кто в современном мире вспоминает термин "линейный дискриминантный анализ"?

Какие Вы ещё знаете "накладки" в аббревиатурах?
#новости
Результаты проверок счётной палатой МГУ и СПбГУ. Много довольно интересных цифр, причём не только по этим вузам (там есть НИОКРы ведущих вузов, в доп. документах рейтинги российских суперкомпьютеров и т.п. )
https://ach.gov.ru/checks/razvitiye-mgu-i-spbgu
#конференции
Есть такой симпатичный ресурс с докладами DS-конференций. Совсем свежих там нет, но всё равно много всего интересного (более 21 тыс. докладов и удобный интерфейс).
https://papertalk.org/
Сейчас в топ-10 SuperGLUE (https://super.gluebenchmark.com/leaderboard) есть модель DeBERTa (превзошла точность человека). С каким эффектом боролись создатели её 3й версии (термин из статьи)?
Anonymous Quiz
23%
поднятие за волосы
26%
перетягивание каната
21%
замерзание конечностей
16%
стрижка налысо
14%
пожимание рук
#образование
Начался набор на лучшую во Вселенной бесплатную программу обучения в области анализа данных, регистрация по ссылке
https://ozonmasters.ru/submission

В Ozon Masters по-прежнему два направления (Data Science и Business Intelligence) с гибким набором курсов, где часть из них являются обязательными, а другие можно взять по выбору. Информацию об этапах поступления, описание курсов и требования к поступающим смотрите на нашем сайте.

🗓 14 мая (суббота) в 13.00 будет день открытых дверей. Чтобы зарегистрироваться на мероприятие - заполните форму.

Организаторы всегда на связи и рады ответить на любые вопросы - пишите на почту [email protected] или кураторам проекта (их контакты вы можете найти в соответствующем разделе на сайте).
#статьи
Подборка самых популярных статей по банковской тематике за последние 7 лет (указано число ссылок в гугл-академии).

545 ссылок, 2021 год
Dwivedi Y. K. et al. Artificial Intelligence (AI): Multidisciplinary perspectives on emerging challenges, opportunities, and agenda for research, practice and policy //International Journal of Information Management. – 2021. – Т. 57. – С. 101994.

434 ссылки, 2017 год
Xia Y. et al. A boosted decision tree approach using Bayesian hyper-parameter optimization for credit scoring //Expert Systems with Applications. – 2017. – Т. 78. – С. 225-241.

235 ссылок, 2018 год
Alessi L., Detken C. Identifying excessive credit growth and leverage // Journal of Financial Stability. – 2018. – Т. 35. – С. 215-225.

206 ссылок, 2015 год
Iturriaga F. J. L., Sanz I. P. Bankruptcy visualization and prediction using neural networks: A study of US commercial banks // Expert Systems with applications. – 2015. – Т. 42. – №. 6. – С. 2857-2869.

183 ссылки, 2017 год
Abellán J., Castellano J. G. A comparative study on base classifiers in ensemble methods for credit scoring // Expert systems with applications. – 2017. – Т. 73. – С. 1-10.

153 ссылки, 2019 год
Kou G. et al. Machine learning methods for systemic risk analysis in financial sectors // Technological and Economic Development of Economy. – 2019. – Т. 25. – №. 5. – С. 716-742.

136 ссылок, 2017
Chakraborty C., Joseph A. Machine learning at central banks. – 2017.
#статьи
Карта центральных работ в области ИИ (какого-то ценного функционала нет, но просто познавательно и забавно):
https://60years.vizhub.ai
#забавно
Давайте в комментах накидаем телеграм-стикеры, связанные в DS/ML/DL? (ну или IT/MATH, если сильно хорошие)
#книга
Dirk P. Kroese, Zdravko I. Botev, Thomas Taimre, Radislav Vaisman
Data Science and Machine Learning Mathematical and Statistical Methods

Книга по классическому ML (про нейронки тоже есть, но ничего ценного). Довольно симпатичная и аккуратная, есть интересные теоретические задачи, есть примеры кода. Оформление прям хорошее. Уровень скорее средний, т.к. в некоторых темах копают глубже чем обычно (например, объясняют проекционную матрицу в линейной регрессии). Из минусов - нашёл некоторые неточности в описаниях методов.
#интересно
Выложены зарплаты руководителей и их замов учреждений, которые подчинены Минобрнауки (в принципе, их можно и по налоговым декларациям восстановить - они также в свободном доступе). Я сначала написал развёрнутый комментарий - что тут интересного, но потом подумал, что опять кто-то что-то посчитает некорректным, поэтому ограничусь только маленьким замечанием. Когда видите, что, например, ректор ИТМО получает больше 1 млн. в месяц, помните, что в ИТМО много внешних договоров (вместе с МФТИ они лидеры по привлечению этих средств, я давал ссылку выше). А самое интересное тут дисперсии зарплат в рамках отдельных учреждений;)
https://www.minobrnauki.gov.ru/documents/?ELEMENT_ID=51168
#статьи
Сегодня я пытался разобраться, есть ли что-то интересное в российских научных журналах про машинное обучение. Выводы я пока писать не буду, но вот результат одного эксперимента: какая самая цитируемая статья в российском журнале, написанная в последние 3 года и выложенная в открытый доступ, в которой используется бустинг? Оказалось, что «Использование алгоритмов искусственного интеллекта в криминалистическом изучении преступной деятельности (на примере серийных преступлений)» https://www.elibrary.ru/download/elibrary_45719543_43573892.pdf
#статьи
А по нейронкам вроде бы самая цитируемая свежая статья в открытом доступе в российском журнале эта - Эффективность алгоритмов машинного обучения и свёрточной нейронной сети для обнаружения патологических изменений на магнитно-резонансных томограммах головного мозга (но тут сложно перебрать все ключевые слова, которые могут быть связаны с глубоким обучением)
https://www.elibrary.ru/download/elibrary_42845903_18431680.pdf
картинка к вопросу ниже
#мысли
Понятно, когда в статье много соавторов и их долго перечислять, то выделяют основного и пишут "Хинтон и соавторы". Понятно, когда в разговоре забывается "кто ещё придумал". Но вот в научной статье так пренебрежительно... великий Хинтон и никому неизвестный чувак, имя которого даже не стоит упоминания.

Помню на одной конференции говорили VC-размерность - это размерность Вапника и его коллеги, т.к. "C" сокращение от colleague. А забытый Червоненкис, кстати, был очень скромным человеком:(