Small Data Science for Russian Adventurers
11.3K subscribers
307 photos
3 videos
13 files
708 links
БЕЗ ЧУЖОЙ РЕКЛАМЫ Авторский канал Александра Дьяконова (dyakonov.org)
машинное (machine learning) и
глубокое обучение (deep learning)
анализ данных (data mining)
наука о данных (data science)
ИИ (artificial intelligence)
математика (math)
и др.
ЕСТЬ ЧАТ;)
Download Telegram
#история
Начинаю новую тему постов - истории из мира DS/MATH и т.п.
Есть такой мем как karpathy constant, он пошёл из приведённого твита уже далёкого 2016 года, который был шуткой. Самое интересное, что такой темп обучения часто действительно хорош.
#история
Забавно, что практически всё в математике появляется из решения конкретных задач (а не из абстрактных умозаключений).
Вот как появились смеси распределений, ну и потом отсюда всякие EM-алгоритмы?

Карл Пирсон подружился с зоологом Велдоном и его женой, и решил помочь им проанализировать данные о параметрах популяции крабов (там были ширина и высота лба). Ну и очень удивился, что данные не подчинены нормальному распределению. Он делает вывод, что популяция крабов неоднородна, а состоит из однородных подгрупп! Поверить, что каждая подгруппа ненормальная он не может, поэтому получаем смесь нормальных распределений...

Странно, что крабовый датасет не стал таким же известным как ирисы Фишера.
👍86🔥47🥰9🤔3
#история
Ещё про исходные практические задачи...

Есть такая задача Бюффона о вероятности пересечения брошенной иголкой стыка на дощатом полу (предполагаются, что все доски равной ширины). Когда решают, то вместо иглы - отрезок, вместо стыков - параллельные прямые с одинаковым шагом. Задача известная, поскольку в ответе фигурирует число pi, т.е. его можно так приближённо вычислять: "бросая иголку на пол".

Всегда думал, что эта задача родилась просто из размышлений о пересечениях, иголка и пол тут для наглядности, но оказалось, что в 18 веке была такая азартная игра: на плиточный пол кидали какой-то предмет и смотрели, находится ли он внутри одной из плиток или пересекает границы плиток. Сначала кидали монетки, потом стали кидать всё, что в голову придёт:)

П.С. Из интересного: задача поставлена в 1733 году, а решена в 1777 (хотя сейчас лёгкая для математика-первокурсника), привела к появлению "Стохастической геометрии".
👍51🔥154
#история (которую я часто рассказываю в своём курсе)

На одном из хакатонов, который проводила крупная нефтяная компания, в финале участники выступали с презентациями о своих решениях задачи прогнозирования дебита нефти... Почти все настраивали бустинг (различались лишь библиотеки), генерировали признаки, искали лики и т.п.

Предпоследним вышел парень из Уфы, который занял 2е место в лидерборде, и сказал: я не очень понимаю смысл всего, что тут говорилось, такие слова как "бустинг" я слышу в первый раз. Я учусь "в нефтянке", нас учили, что есть такая формула для дебита (выводит на слайд небольшую формулу), я просто в неё подставил известные значения, а неизвестные прикинул, какими они могли бы быть.
😁215🔥47👍346🐳5😱4
#история
В комментариях на 2й пост выше был вопрос про подготовку победителей олимпиады ИИ.

Как всё проходило: ребята пришли в ЦУ с просьбой о подготовке. Уже на следующий день подготовку начал "ваш покорный слуга" с сжатого курса по ML/DL + специальные занятия по соревнованиям (это понятные для школьников фрагменты курса ПЗАД). Интересно, что с некоторыми темами попали прям в яблочко (учитывая, что планировалось на финал). Сначала интенсивность была 2 занятия в неделю. А я так стал "главным тренером" (вроде нет такого официального звания) будущих чемпионов...

На научном треке олимпиады планировались 3 задания, под каждое был выделен персональный тренер:
классический ML - Саша Гущин,
CV - Дима Ульянов,
NLP - Таня Гайнцева,
кажется, что тренерский состав уже очень крутой (мне бы такой в 16 лет). Плюс были отдельный занятия, которые проводили Ваня Стельмах (ЦУ), Илья Карчмит (aimasters) и другие. В конце второго месяца подготовки интенсивность возросла до 5 занятий в неделю.

Половина тренеров была из ЦУ, часть вели занятия онлайн из-за границы. Например, я проводил "боевую репетицию" оффлайн (старались имитировать финал) по одному из заданий олимпиады в новом офисе Т-банка. Кроме тренеров была огромная команда (помощь с документами, сопровождение участников и т.п.), упомяну только главного по всему этому Катю Процко, которая после олимпиады вошла в совет по подготовке следующей. Так что "тренировки" это только вершина айсберга подготовки.

Про задания можно почитать здесь. Таня обещала тоже что-то написать, поэтому я писать не буду:)

Из странных моментов... не все мои знакомые откликались на просьбы "поработать со школьниками". Кажется, что упустили интересный опыт и чувство драйва. А всем кто откликнулся - моё отдельное спасибо!

В следующем году планируется что-то более серьёзное, с отбором среди всех школьников по результатам всероссийских олимпиад, подготовку, скорее всего, будет вести ЦУ, главного тренера тоже поменяем.
85🔥46👏18👍11😇2