Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.4K subscribers
2.41K photos
121 videos
64 files
4.86K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
#вопросы_с_собеседований
Что такое проблемы взрывающегося и затухающего градиента?

Градиент — это вектор частных производных функции потерь по весам нейросети. Он показывает вектор наибольшего роста функции для всех весов.

В процессе обучения при обратном распространении ошибки при прохождении через слои нейронной сети в элементах градиента могут накапливаться большие значения, что будет приводить к сильным изменениям весов. Это дестабилизирует алгоритм нейросети. Эта проблема называется взрывающимся градиентом.

Аналогичная обратная проблема, в которой при прохождении ошибки через слои градиент становится меньше, называется затухающим градиентом.

Чем больше количество слоев нейросети, тем выше риски данных ошибок. Для решения сложных задач с помощью нейронных сетей необходимо уметь определять и устранять её.
👍20🤔3
#вопросы_с_собеседований
Как работает ROC-кривая?

ROC-кривая — это графическое изображение контраста между показателями истинно положительных и ложноположительных результатов при различных пороговых значениях.

Если считать TPR и FPR для фиксированного порога μ є [0,1], то их можно представить в виде функций от аргумента μ:

TPR = TPR(μ), FPR = FPR(μ). При этом обе функции монотонно возрастают от 0 до 1, а значит, определена функция:

ROC(x) = TPR(FPR-1(x)), x є [0,1]

ROC-кривая — это график функции. Как правило, у хорошего классификатора кривая лежит по большей части либо целиком выше прямой y=x. Это связано с тем что при хорошей классификации надо получать максимальный TPR при минимальном FPR.
👍19
Для всех, кто интересуется Data Science — приглашаем на курс Математики для Data Science!

Курс вам подойдет, если вы:

• Начинающий Data Scientist;
• Вы прошли общие курсы по DS и вам не хватает математики;
• Вы занимаетесь DS, но хотите углубленное понимание математики для работы;
• Вы хотите поступить в Школу Анализа Данных Яндекса (курса будет достаточно для успешного поступления);
• Вы просто хотите подтянуть знания вышмата и использовать их в IT.

Программа разработана совместно с преподавателями ВМК МГУ — одного из лучших математических факультетов страны!

Курс включает 47 лекций и 150 практических заданий с проверкой.

Помимо математических заданий, в конце будет модуль машинного обучения, где на Python показаны примеры использования математики в задачах машинного обучения.

👉 Посмотреть программу и получить пробные занятия можно тут: https://proglib.io/w/4742484f

На курс действует гарантия!
🔥2
#вопросы_с_собеседований
Что такое закон больших чисел?

Это принцип теории вероятностей, который описывает результат выполнения одного и того же эксперимента множество раз.

При достаточно длительной серии экспериментов закон больших чисел гарантирует устойчивость средних значений от случайных событий. И среднее значение конечной выборки фиксированного распределения будет очень близко к математическому ожиданию выборки.

К примеру, при бросках шестигранного кубика. Чем больше бросков, тем больше среднее значение близится к математическому ожиданию 3,5.
👍32👎3
#вопросы_с_собеседований
Что такое ансамбль методов?

Ансамбль методов — это использование нескольких алгоритмов с целью получения более высокой эффективности прогнозирования, чем можно было бы получить, используя эти алгоритмы отдельно.
👎73👍2🤔1
#вопросы_с_собеседований
Перечислите этапы построения дерева решений

Взять весь набор входных данных.

Вычислить энтропию целевой переменной, а также прогнозные атрибуты.

Рассчитать прирост информации по всем атрибутам (информацию о том, как отсортировать разные объекты друг от друга).

Выбрать атрибут с наибольшим объёмом информации в качестве корневого узла.

Повторить ту же процедуру для каждой ветви, пока узел решения каждой ветви не будет завершён.
👍21👎5
YOLOv5 — Детектор лиц

Недавно у меня возникла необходимость сделать детектор лиц в реальном времени для дальнейшей сегментации и распознавания. В качестве детектора я использовал очень популярную сеть YOLOv5.

https://habr.com/ru/post/675590/
👍6👎1
#вопросы_с_собеседований
Что такое Random Forest?

Random Forest, или случайный лес, — это один из немногих универсальных алгоритмов обучения, который способен выполнять задачи классификации, регрессии и кластеризации.

Случайный лес состоит из большого количества отдельных деревьев решений, которые по сути являются ансамблем методов. Каждое дерево в случайном лесу возвращает прогноз класса, и класс с наибольшим количеством голосов становится прогнозом леса.
👍10👎8
#вопросы_с_собеседований
Что такое рекуррентные нейронные сети (RNN)?

Рекуррентные нейронные сети — это вид нейросетей, в которых связи между элементами образуют направленную последовательность. Это позволяет обрабатывать серии событий во времени или последовательные пространственные цепочки.

Они используются преимущественно для задач, где нечто цельное состоит из ряда объектов, например при распознавании рукописного текста или речи.
👍20👎6
⚠️ 10 самых распространенных ошибок, ежедневно допускаемых каждым программистом

Ошибаться свойственно человеку. Вместе разберемся с самыми распространёнными ошибками разработчиков и способами их решения.

https://proglib.io/sh/w5AN2X71H9
👍2