Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.8K subscribers
2.24K photos
111 videos
64 files
4.65K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
💵 ТОП-15 самых востребованных профессий в ИТ: куда все катится в 2024 году

Мы часто обсуждаем зарплаты айтишников в России. Однако не стоит забывать про США, ведь это страна — мечта для многих программистов. В этой статье расскажем, сколько зарабатывают айтишники в США.

Вкатываться в айти в 2024 году однозначно стоит. Только в США базовые зарплаты всех ИТ-специалистов в США выросли на 2,6%, — спрос на квалифицированных ИТ-специалистов остаётся высоким.

🔗 Читать статью
🔗 Зеркало
🔥4🥱3
✍️ Illustrated Machine Learning

Это сайт с визуальными объяснениями различных концепций машинного обучения. Там можно найти иллюстрации на следующие темы:

▫️Введение в машинное обучение
▫️Линейная регрессия
▫️Логистическая регрессия
▫️Деревья решений
▫️Бэггинг и бустинг
▫️Кластеризация
▫️Нейронные сети и глубокое обучение и др.

🔗 Ссылка на сайт
🤩11
This media is not supported in your browser
VIEW IN TELEGRAM
👾 Чем KAN отличается от MLP?

Недавно исследователи из MIT выпустили статью с описанием альтернативы многослойному перцептрону (MLP). Её назвали KAN — Kolmogorov-Arnold Networks.

Идея, которая лежит в основе новой архитектуры, простая — давайте попробуем переместить функции активации с нейронов на рёбра нейросети. Но что это означает?

Для начала давайте вспомним, как вообще работает MLP. Такой сети подаются входы — ваши данные — а она делает выходы, то есть какие-то целевые значения. В процессе обучения нейросеть пытается найти функцию, обобщающую связь между входами и выходами. В классическом многослойном перцептроне поиск функции идёт на линейных слоях, где входы умножаются на веса ребёр. В каждом нейроне также находится функция активации, которая определяет выход нейрона на основе суммированного взвешенного входа. 

MLP полагается на теорему Цыбенко, которая доказывает, что нейросеть может аппроксимировать любую непрерывную функцию. KAN же полагается на другую теорему — Колмогорова-Арнольда.

🪅 Эта теорема доказывает, что аппроксимация непрерывной ограниченной функции от множества переменных сводится к нахождению полиномиального числа одномерных функций. Так, если в MLP функции активации статические и необучаемые, то в KAN они перемещаются на рёбра и могут адаптироваться в процессе обучения, действуя как веса и функции активации одновременно.

Исследователи утверждают, что KAN нужно меньше нейронов, чтобы достичь точности MLP. Кроме того, такие сети более интерпретируемы.
Please open Telegram to view this post
VIEW IN TELEGRAM
🤩6👍54🤔3
🐼 Как создавать сводные (pivot) таблицы в Pandas

Сводная таблица позволяет организовать большие объёмы информации в удобный для восприятия вид. Она группирует данные по выбранным категориям и вычисляет агрегированные значения.

Новое руководство на Real Python подробно рассказывает, как создавать сводные таблицы в Pandas. Оно охватывает следующие аспекты:
▫️Создание первой сводной таблицы;
▪️Вычисление нескольких значений в сводной таблице;
▫️Выполнение продвинутых агрегаций;
▪️Использование .groupby() и crosstab().

🔗 Читать статью
👍7
✍️ Jupyter-ноутбуки по KAN с игрушечным примером

Вдогонку к посту про архитектуру Kolmogorov-Arnold Networks нашли репозиторий с туториалом. Он разделён на четыре части, каждая из которых подробно объясняет:

▫️идею B-сплайнов, которые выступают в качестве функций активации KAN;
▫️как происходит обучение с B-сплайнами;
▫️какие преимущества есть у KAN;
▫️как обучать KAN, когда конкретные функции активации заранее определены и зафиксированы в символической формуле.

🔗 Ссылка на репозиторий
👍112
🏆👁️ Топовая задачка на Stack Overflow: как найти k пропущенных чисел в потоке данных

Это продолжение статьи про задачу, в которой нужно определить, какое число вынули из мешка со 100 уникальными числами. В новой части мы показываем решение с помощью алгоритма сверки множеств, симметрических функций и уравнения k-й степени.

🔗 Читать статью
🔗 Зеркало
👍8🌚32
👩‍💻 Женщины в DS и ML

В нашем канале большинство подписчиков — мужчины. По другим данным тоже видно, что в сфере есть гендерный дисбаланс.

💬 А вы считаете проблемой то, что в Data Science и Machine Learning женщин меньше, чем мужчин?

👾 — нет, не считаю
👍 — да, думаю, с этим нужно что-то делать

#интерактив
👾116👍40
🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
This media is not supported in your browser
VIEW IN TELEGRAM
👆 Шпаргалка по типам соединения таблиц в SQL👆 Пригодится перед собеседованием
👍20🥰71
✍️ Опишите алгоритм обратного распространения ошибки

В модели машинного обучения, по сути, происходит вычисление значения некоторой функции. Можно сказать, что движение идёт прямо по графу вычислений. Однако по нему же можно вычислить не только значение в точке, но и значения частных производных. Для этого нужно двигаться в обратном направлении по графу. Это и называется обратным распространением ошибки (backpropagation).

Алгоритм таков:

▪️Начинаем с вычисления ошибки на выходе модели. Это обычно разница между предсказанным значением и истинным значением.
▪️Затем вычисляется градиент, то есть вектор частных производных функции ошибки по выходному слою.
▪️Движение идёт обратно через слои модели. На каждом слое используется цепное правило для вычисления градиента ошибки по весам слоя.
▪️После того, как градиенты вычислены, веса модели корректируются в направлении, противоположном градиенту, чтобы уменьшить ошибку.
▪️Процесс повторяется до тех пор, пока модель не достигнет желаемой производительности или не сойдётся.

#вопросы_с_собеседований
👍10
📘 ТОП-9 книг по программированию для начинающих дата сайентистов в 2024 году

Хотите начать свой путь в Data science? поехали!
Мы подготовили подборку из девяти лучших книг, которые помогут освоить это направление. Начните свой путь в IT вместе с нами! 🔥

📌 Книги

Наш курс для Data science
➡️ Математика для Data science

Наши статьи
🔵 Где изучать Data Science в 2024 году?
🔵 Обучение Data science какие знания нужны по математике специалисту по анализу данных
🔵 Как выбрать специализацию и начать обучение Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍32😁1🥱1