Small Data Science for Russian Adventurers
11.3K subscribers
307 photos
3 videos
13 files
708 links
БЕЗ ЧУЖОЙ РЕКЛАМЫ Авторский канал Александра Дьяконова (dyakonov.org)
машинное (machine learning) и
глубокое обучение (deep learning)
анализ данных (data mining)
наука о данных (data science)
ИИ (artificial intelligence)
математика (math)
и др.
ЕСТЬ ЧАТ;)
Download Telegram
#книга
У Сергея Маркова есть замечательный 2-х-томник по ИИ: "Охота на электроовец" (читал всю прошлую неделю). Стоит, правда, предупредить, что это в большей степени исторический обзор, но очень тщательно составленный, автор прям докапывается по мельчайших деталей, кто, когда и что первый придумал. Например, вы узнате:


- Аду Байрон, в честь которой назвали язык программирования, на самом деле звали Августа.
- Кто такой Жаккар (и его тоже звали не Жаккар).
- Как Гёдель нашёл изъян в конституции США.
- Почему в первой программе игры шашки в конце партии играл гимн.
и многое другое.

Доступно бесплатно:
https://markoff.science/#book
🔥85👍327💩4😱3👏1
#книга
Онлайн-учебник по машинному и глубокому обучению от преподавателя ВМК МГУ Виктора Китова
https://deepmachinelearning.ru/
👍141🔥6211🐳7❤‍🔥3💩3🆒2
#книга

Стюарт Ричи «Наукообразная чушь. Разоблачение мошенничества, предвзятости, недобросовестности и хайпа в науке»

Неплохой научпоп про недостоверные и мошеннические исследования, проблему воспроизводимости, p-хакинг и т.п. Много примеров из медицины и психологии.

Цитата:
Порочные стимулы действуют как злой джинн, давая вам именно то, что вы просили, но не обязательно то, чего вы хотели. Поощряйте наращивание числа публикаций, и вы его добьетесь — но будьте готовы к тому, что у ученых останется меньше времени на проверку ошибок, а нарезка статей станет нормой. Поощряйте публикации в журналах с высоким импакт-фактором, и вы их получите — но будьте готовы к тому, что ученые в своих попытках пробиться туда станут прибегать к p-хакингу, публикационному смещению и даже мошенничеству. Поощряйте конкуренцию за гранты, и вы ее добьетесь — но будьте готовы к тому, что ученые начнут без всякой меры раздувать свои результаты и подавать нужным углом в попытке привлечь внимание спонсоров.
👍8921🔥17
#книга
Emil Hvitfeldt "Feature Engineering A-Z"
Открытая книга по предобработке данных и генерации признаков. Пока ещё до конца не дописана, но по деформации признаков, категориальным признакам, пропускам и текстовым признакам информация есть. Примеры кода на R и Python.

https://feaz-book.com/
👍4920🔥10
Дорогие подписчики канала, поздравляю вас с Новым годом!

Желаю провести этот год интересно, ярко и немного авантюрно (учитывая название канала).
Будьте здоровы, занимайтесь только любимыми делами, а остальные - делегируйте ИИ-инструментам.
172👍25🔥19🎄1514🥰7
#визуализация
Забавная игрушка на "геометрический интеллект": надо как можно точнее определять центры окружностей, середины отрезков и прямые углы. Не так просто, как кажется на первый взгляд. Это упражнение рекомендуют на некоторых курсах дизайна и визуализации.
https://woodgears.ca/eyeball/index.html
🔥63👍15🤯10
#видео
Доклады прошлого года семинара "Математические основы искусственного интеллекта", который проводит Математический институт им. В.А. Стеклова. Выложены записи выступлений Бурнаева, Гасникова, Ветрова, Наумова, Оселедца, Разборова и многих других.
https://www.mathnet.ru/conf2402

П.С. Рисунок взят из доклада Димы Ветрова, когда он объясняет, как попадать в широкие минимумы функций потерь.
59👍21🔥12👎2🤩2
#книга
Фридман Д. П., Мендхекар А. "The Little Learner. A Straight Line to Deep Learning" (Чудесное машинное обучение)

Недавно на русском вышла книга. Меня заинтересовала манера изложения - она сделана в виде диалога (показан на рисунке). Как будто читатель задаёт вопросы, а автор на них отвечает и так происходит обучение. Подход известен, даже в книгах про ML было что-то подобное (в книге Шлезингера и Главача было обучение в переписке). Примеры кода здесь на Scheme (кажется, что это только увеличивает порог входа). Забавный факт - предисловие написал Питер Норвиг и сделал это "по правилам повествования" (в виде диалога).
59👍32😁14🤣3🤡1
#интересно
Более 10 лет назад была создана платформа для соревнований в анализе данных DrivenData - она поставила своей целью приспособить DS в первую очередь для блага общества (а не для выгоды коммерческих компаний). Недавно у них был юбилей, и они в своём блоге сделали очень неплохой пост, в котором подвели итоги 10-летней деятельности, описали удачи и проблемы.

https://drivendata.co/blog/10-years-of-data-science-for-social-good
👍4012🤡2🆒1
#таланты
Если кто-то умеет и хочет попридумывать задачки в стиле современных олимпиад по ИИ для школьников, то можно помочь Саше Гущину отобрать таланты в этом году.

Подробности по ссылке:
https://t.iss.one/aguschin_ai/113
👍12🔥32
#книга
Илья Шпигорь Искусственный интеллект в стратегических играх

Выложена на leanpub в открытом доступе. Мне в целом понравилась, что-то подобное искал и нашёл.

+ есть история исследования игр и логического перебора,
+ повествование доходит до AlphaZero и современных игровых движков,
+ попутно разбираются концепции машинного обучения,
- кажется, что некоторые концепции типа альфа-бета отсечений стоило бы разобрать подробнее,
- широта повествования может быть неудобна начинающим (например, объясняются свёрточные сети на задачах с картинками и тут же рассказывается, где они применяются в играх).

https://leanpub.com/ai-in-strategy-games
42👍21🔥32
#полезно
Очень классный источник обзорных статей с красивыми визуализациями от одного из авторов книги "Hands-On Large Language Models". Есть обзоры по LLM-агентам, рассуждающим моделям, смеси экспертов, квантованию, моделе Mamba.

https://newsletter.maartengrootendorst.com
👍599🥰5❤‍🔥2
#визуализация
Игра, в которой по картинке надо догадаться, что на ней изображено.
https://www.graphs.world

Когда я составлял свою книжку, такие задачи даже не рассматривал, думая, что интересно вряд ли получится. Теперь можно посмотреть, как получилось у других.
31👍15🗿6🔥2😭1
#математика
Лемма о малом искажении (Джонсона – Линденштрауса) утверждает, что множество точек многомерного пространства можно отобразить в пространство меньшей размерности так, что расстояния между точками почти не изменятся. Интересно, что этого можно добиться ортогональными проекциями.

Этот красивый результат упоминается даже в помощи sklearn, а доказательство можно найти в книге Roman Vershynin
«High-Dimensional Probability An Introduction with Applications in Data Science» (кстати, скоро выходит 2е издание).

П.С. Картинка к посту из материалов Джефри Гордона.
🔥64👍20🤔31
#визуализация
Интересная подборка визуализаций - порфолио Сантьяго Ортиза. Например, есть визуализация распределений вероятностей при генерации текстов с помощью языковых моделей.

https://moebio.com/
👍18🔥16
#книга
Хэйвилл Дж. «Замечательные математические кривые»

Математика для фанатов (и только для них, тут не будет кода или приложений) уровня студентов первых курсов. Я ожидал некоторую энциклопедию по всем кривым. Здесь скорее набор обзорных глав, каждая посвящена конкретной теме: эллиптические кривые, Безье, заполняющие пространство. Написано интересно, есть классные истории (некоторые ещё ниже напишу), вот на картинке одна из них.
🤯38👍21🔥156😁3😍1😎1
#соревнование
Обзор международных соревнований в DS за прошлый год: на каких платформах, что используют победители, какие конкурсы проходят и т.п. Такие отчёты каждый год выходят (но тут ни разу ссылок на них не давал).
https://mlcontests.com/state-of-machine-learning-competitions-2024/
42👍9🔥71🦄1
🚀 Уважаемые коллеги, кому интересна математика и машинное обучение, приглашаем Вас принять участие в неформальном научном проекте.

Мы разрабатываем новые методы и опен-соурс библиотеку CayleyPy, которая на основе МЛ/РЛ методов позволяет решить математические задачи, которые были не доступны ранее. Как пример наша система уже по всем параметрам на порядки превсходит аналогичные методы в системе компьютерной алгебры GAP (де-факто стандарт) - использующую алгоритмы доработанные самим Д. Кнутом.

Если у Вас желание поучаствовать в проекте, есть знание Питона и несколько свободных часов в неделю - то присоединяйтесь к нам - при активной работе - Вы будете соавтором научных публикаций. (Напишите @alexander_v_c - к.ф.-м.н. Александр Червов).

Краткая суть задачи может быть описана несколькими способами - нахождение пути на графе размером 10^20-10^200 (из-за размера обычные методы не применимы - только МЛ/РЛ). Решение пазла типа кубика Рубика, задача сортировки, математически - разложение элемента группы по образующим - все это в реальности одна и та же задача. Задача близка к прошедшему конкурсу Каггл Санта 2023. Более общо - это задача планирования - типичная для реинфорсмент ленинг - спланировать действия так чтобы кумулятивный эффект давал лучший результат - управлением манипулятором робота, системы АльфаГо, АльфаТензор, успех DeepSeek - это задачи - тесно связанные с тем, что мы делаем.

А зачем это нужно биологам ? А чтобы превращать людей в мышей ))) (А капусту в репу). Так назвал свои статьи известный биоинформатик П.Певзнер - оказывается эволюционная дистанция - соответствует дистанции на определенных графах - и наша цель улучшить ее оценку через МЛ/РЛ. Зачем нужно нужно в сетях - задержка сигнала (latency) сети определяется диаметром сети - оценка диаметра графов - одна из наших целей. В теории квантовых вычислений тоже нужны подобные графы и приложения этим не ограничены. И, кроме того, а знаете чем знаменит Билл Гейтс ?)) Он отлично сортировал блины ! Наша задача - побить его - через МЛ/РЛ)))

В нашем коллективе есть профессора математики, Каггл градмастеры, и легендарные иностранные специалисты - Tomas Rokicki , Herbert Kociemba - Вам будет у кого поучиться.

Подробнее о проекте вы можете узнать в наших статьях https://arxiv.org/abs/2502.18663 https://arxiv.org/abs/2502.13266 и в нашей группе https://t.iss.one/sberlogasci/1 и СТАВЬТЕ СТАРС (звездочки) на наш гитхаб: https://github.com/cayleypy/cayleypy
🔥44❤‍🔥147💩6👍4🙏2