Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

#вопросы_с_собеседований
Как работает ROC-кривая?

ROC-кривая — это графическое изображение контраста между показателями истинно положительных и ложноположительных результатов при различных пороговых значениях.

Если считать TPR и FPR для фиксированного порога μ є [0,1], то их можно представить в виде функций от аргумента μ:

TPR = TPR(μ), FPR = FPR(μ). При этом обе функции монотонно возрастают от 0 до 1, а значит, определена функция:

ROC(x) = TPR(FPR-1(x)), x є [0,1]

ROC-кривая — это график функции. Как правило, у хорошего классификатора кривая лежит по большей части либо целиком выше прямой y=x. Это связано с тем что при хорошей классификации надо получать максимальный TPR при минимальном FPR.

👍19

3.9K views20:19

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

❗ Для всех, кто интересуется Data Science — приглашаем на курс Математики для Data Science!

Курс вам подойдет, если вы:

• Начинающий Data Scientist;
• Вы прошли общие курсы по DS и вам не хватает математики;
• Вы занимаетесь DS, но хотите углубленное понимание математики для работы;
• Вы хотите поступить в Школу Анализа Данных Яндекса (курса будет достаточно для успешного поступления);
• Вы просто хотите подтянуть знания вышмата и использовать их в IT.

⚡ Программа разработана совместно с преподавателями ВМК МГУ — одного из лучших математических факультетов страны!

Курс включает 47 лекций и 150 практических заданий с проверкой.

❗ Помимо математических заданий, в конце будет модуль машинного обучения, где на Python показаны примеры использования математики в задачах машинного обучения.

👉 Посмотреть программу и получить пробные занятия можно тут: https://proglib.io/w/4742484f

На курс действует гарантия!

🔥2

3.58K views16:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

#вопросы_с_собеседований
Что такое закон больших чисел?

Это принцип теории вероятностей, который описывает результат выполнения одного и того же эксперимента множество раз.

При достаточно длительной серии экспериментов закон больших чисел гарантирует устойчивость средних значений от случайных событий. И среднее значение конечной выборки фиксированного распределения будет очень близко к математическому ожиданию выборки.

К примеру, при бросках шестигранного кубика. Чем больше бросков, тем больше среднее значение близится к математическому ожиданию 3,5.

👍32👎3

4.13K views18:19

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

#вопросы_с_собеседований
Что такое ансамбль методов?

Ансамбль методов — это использование нескольких алгоритмов с целью получения более высокой эффективности прогнозирования, чем можно было бы получить, используя эти алгоритмы отдельно.

👎7❤3👍2🤔1

3.96K views14:50

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

5 продвинутых концепций SQL, которые вы должны знать в 2022 году.

https://proglib.io/w/c07e152f

Medium

5 Advanced SQL Concepts You Should Know in 2022

Master these time-saving, advanced SQL queries today.

👍10

4.34K views18:49

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

#вопросы_с_собеседований
Перечислите этапы построения дерева решений

Взять весь набор входных данных.

Вычислить энтропию целевой переменной, а также прогнозные атрибуты.

Рассчитать прирост информации по всем атрибутам (информацию о том, как отсортировать разные объекты друг от друга).

Выбрать атрибут с наибольшим объёмом информации в качестве корневого узла.

Повторить ту же процедуру для каждой ветви, пока узел решения каждой ветви не будет завершён.

👍21👎5

4.24K views14:55

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

YOLOv5 — Детектор лиц

Недавно у меня возникла необходимость сделать детектор лиц в реальном времени для дальнейшей сегментации и распознавания. В качестве детектора я использовал очень популярную сеть YOLOv5.

https://habr.com/ru/post/675590/

👍6👎1

4.36K views19:12

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

R против Python: в чем реальная разница между R и Python?

https://proglib.io/w/905853b5

Stxnext

R vs. Python: What’s the Real Difference Between R and Python?

Read our technical comparison of Python vs. R to learn more about the differences and similarities of two open-source programming languages: Python and R.

👍3

3.61K viewsedited 14:59

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Как мы будем использовать искусственный интеллект через 20 лет?

https://proglib.io/w/83bcfc2a

The Economist

How will we use artificial intelligence in 20 years’ time?

This week we speak to Kai-Fu Lee, one of the most prominent figures in China’s tech sector and author of “AI 2041”

👍2

3.73K views18:59

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

#вопросы_с_собеседований
Что такое Random Forest?

Random Forest, или случайный лес, — это один из немногих универсальных алгоритмов обучения, который способен выполнять задачи классификации, регрессии и кластеризации.

Случайный лес состоит из большого количества отдельных деревьев решений, которые по сути являются ансамблем методов. Каждое дерево в случайном лесу возвращает прогноз класса, и класс с наибольшим количеством голосов становится прогнозом леса.

👍10👎8

4.12K views19:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

#вопросы_с_собеседований
Что такое рекуррентные нейронные сети (RNN)?

Рекуррентные нейронные сети — это вид нейросетей, в которых связи между элементами образуют направленную последовательность. Это позволяет обрабатывать серии событий во времени или последовательные пространственные цепочки.

Они используются преимущественно для задач, где нечто цельное состоит из ряда объектов, например при распознавании рукописного текста или речи.

👍20👎6

4.13K views19:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Глубокое обучение и нейронные сети с Python и Pytorch, введение. Часть I

https://pythonist.ru/glubokoe-obuchenie-i-nejronnye-seti-s-python-i-pytorch-vvedenie-chast-i/

Pythonist

Глубокое обучение и нейронные сети с Python и Pytorch, введение. Часть I

Введение в нейронные сети глубокого обучения на базе фреймворка Pytorch. Раскрываем принципы работы нейронных сетей и основы библиотеки Pytorch.

👍8

4.16K views19:15

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

О принципах экономии и самосогласованности для возникновения интеллекта.

https://arxiv.org/abs/2207.04630

arXiv.org

On the Principles of Parsimony and Self-Consistency for the...

Ten years into the revival of deep networks and artificial intelligence, we propose a theoretical framework that sheds light on understanding deep networks within a bigger picture of Intelligence...

👍3

3.58K views19:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Обзор архитектур image-to-image translation.

https://habr.com/ru/company/nornickel/blog/676296/

Хабр

Обзор архитектур image-to-image translation

Привет, Хабр! Я работаю инженером компьютерного зрения в направлении искусственного интеллекта компании Норникель. Мы разрабатываем и внедряем модели с применением машинного обучения на наши...

👍4

3.86K views14:46

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Применение научного подхода при решении задач в Data Science.

https://habr.com/ru/company/pgk/blog/676706/

Хабр

Применение научного подхода при решении задач в Data Science

Привет! Меня зовут Евгений Мокшин, я занимаюсь аналитикой и машинным обучением в ПГК. Хочу рассказать, как можно применять научный подход при решении рабочих DS-задач. В большинстве статей,...

🔥5👍3

4.12K views18:33

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Как Spotify использует семантический поиск для подкастов.

https://www.pinecone.io/learn/spotify-podcast-search/

www.pinecone.io

How Spotify Uses Semantic Search for Podcasts

Want to add audio search to your applications just like Spotify? You’ll need a vector database like Pinecone. Try it now for free.

🥰2

3.93K views19:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Как структурировать код на Python.

https://guicommits.com/organize-python-code-like-a-pro/

Gui Commits

How to organize Python code 🐍📦

Python is very flexible and everything too flexible enhances the odds of bad decisions. I'm going to share experiences on naming and structure

👍8😁1

3.96K views18:44

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

⚠️ 10 самых распространенных ошибок, ежедневно допускаемых каждым программистом

Ошибаться свойственно человеку. Вместе разберемся с самыми распространёнными ошибками разработчиков и способами их решения.

https://proglib.io/sh/w5AN2X71H9

👍2

3.47K views14:57

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Список чтения критических исследований наборов данных.

https://knowingmachines.org/reading-list

👍5

3.64K views18:18

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

10 библиотек машинного обучения с открытым исходным кодом.

https://heartbeat.comet.ml/10-open-source-machine-learning-libraries-363e972e69a4

Medium

10 Open Source Machine Learning Libraries

The open-source movement is responsible for most of the technological innovation we see today, and machine learning is no exception. This…

👍4