Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Состояние инженерии данных в 2022.

https://proglib.io/w/1e691db1

The State of Data Engineering 2022 - lakeFS

Discover the latest tools and trends in data engineering for 2022. Get insights on advancements in Git for Data and how to stay ahead in the industry.

3.97K views14:41

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Внешний надзор: проектирование сторонней экосистемы аудита для управления ИИ.

https://proglib.io/w/8c7aaacd

👍2😁1

3.68K views19:10

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Измерение углеродного следа ИИ.

https://proglib.io/w/a97129db

IEEE Spectrum

Measuring AI’s Carbon Footprint

Machine-learning models are growing exponentially larger. At the same time, they require exponentially more energy to train, so that they can accurately process images or text or video. As the AI community grapples with its environmental impact, some conferences…

3.58K views18:46

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🗣 Решаем задачу перевода русской речи в текст с помощью Python и библиотеки Vosk

В статье научимся конвертировать русскую речь в текст (транскрибация) с помощью Python и библиотеки Vosk с её ML-моделями.

https://proglib.io/sh/tpL6wI4Pdk

👍10

3.82K views18:28

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

О корреляционном анализе в Python.

https://proglib.io/w/638789b8

Data Analysis Journal

Correlation Analysis 101 in Python - Issue 35

How to read and run correlation plots in Python Pandas

🥰3

4.76K views18:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

#вопросы_с_собеседований
Что такое нормализация данных и зачем она нам нужна?

Нормализация данных - очень важный этап предварительной обработки, используемый для изменения масштаба значений, чтобы они соответствовали определенному диапазону, чтобы обеспечить лучшую сходимость во время обратного распространения ошибки. В общем случае она сводится к вычитанию среднего значения и делению на стандартное отклонение.

Если этого не сделать, некоторые признаки будут иметь более высокий вес в функции стоимости. Нормализация позволяет сделать все признаки одинаково взвешенными.

👍26👎6

5.26K views12:41

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

#вопросы_с_собеседований
Что такое аугментация данных? Можете привести примеры?

Под аугментацией данных понимается увеличение выборки данных для обучения через модификацию существующих данных. Компьютерное зрение - одна из областей, где очень полезно увеличение объема данных. Есть много модификаций, которые мы можем сделать с изображениями:

— Изменить размер
— Горизонтально или вертикально перевернуть
— Добавить шум
— Деформировать
— Изменить цвета

👍13🔥1

3.85K views18:27

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Упражнения с ручкой и бумагой по машинному обучению.

https://proglib.io/w/1ebf3e0e

🔥3👍1

3.95K views18:27

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

#вопросы_с_собеседований
Как рассчитать точность прогноза, используя матрицу ошибок?

В матрице ошибок есть значения для общего количества данных, истинных значений и прогнозируемых значений.

👍7👎5

3.61K views15:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Как контролировать качество данных в Feature Store? И как сделать так, чтобы ML система не разваливалась от одного неудачного коммита?

Big Data МТС приглашает на ML-митап всех причастных к ML-проектам в контексте обучения моделей, их деплоя или построения ETL пайплайнов.

📆 Когда: 7 июля, 18.00

🔻 Расскажем, как автоматизировать контроль за качеством данных в Feature Store: рассмотрим базовые алгоритмы детекции дрейфа на признаковом пространстве моделей и их реализации в распределенном стеке.

🔻 Рассмотрим популярные проблемы ML-систем и способы их предотвращения: как сугубо инженерные подходы к тестированию всей системы, так и тесты, применимые исключительно к ML моделям.

🔻 Обсудим что происходит с RnD в промышленном Data Science. В качестве экспертов: Анатолий Орлов — СTO AliExpress Россия, Радослав Нечаев — лектор по ML и руководитель магистратуры MSAI МФТИ и Валерий Бабушкин - Head of Data Science Blockchain.com

Регистрация здесь.

mts-digital.timepad.ru

ML MEETUP MTS BIG DATA / События на TimePad.ru

МТС Big Data проведет четвертый онлайн-митап для дата-саентистов, дата-инженеров и специалистов, интересующихся машинным обучением

👍3🥰1

5.02K viewsedited 15:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Meerkat: dataPanels для машинного обучения.

https://proglib.io/w/90efaaeb

Personal on Notion

Meerkat: DataPanels for Machine Learning

Blog by Sabri Eyuboglu ([email protected]), Arjun Desai ([email protected]), Karan Goel ([email protected])

👍1

3.67K views19:22

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

#вопросы_с_собеседований
Что такое проблемы взрывающегося и затухающего градиента?

Градиент — это вектор частных производных функции потерь по весам нейросети. Он показывает вектор наибольшего роста функции для всех весов.

В процессе обучения при обратном распространении ошибки при прохождении через слои нейронной сети в элементах градиента могут накапливаться большие значения, что будет приводить к сильным изменениям весов. Это дестабилизирует алгоритм нейросети. Эта проблема называется взрывающимся градиентом.

Аналогичная обратная проблема, в которой при прохождении ошибки через слои градиент становится меньше, называется затухающим градиентом.

Чем больше количество слоев нейросети, тем выше риски данных ошибок. Для решения сложных задач с помощью нейронных сетей необходимо уметь определять и устранять её.

👍20🤔3

3.91K views18:26

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Фондовый рынок - самая загадочная система, которую может предсказать ИИ.

https://proglib.io/w/27a8a43a

Medium

Stock Market is the Most Enigmatic System to be Predicted by AI

And why it’s nearly impossible to do so

👍9👎4🤔1

3.78K views14:51

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

#вопросы_с_собеседований
Как работает ROC-кривая?

ROC-кривая — это графическое изображение контраста между показателями истинно положительных и ложноположительных результатов при различных пороговых значениях.

Если считать TPR и FPR для фиксированного порога μ є [0,1], то их можно представить в виде функций от аргумента μ:

TPR = TPR(μ), FPR = FPR(μ). При этом обе функции монотонно возрастают от 0 до 1, а значит, определена функция:

ROC(x) = TPR(FPR-1(x)), x є [0,1]

ROC-кривая — это график функции. Как правило, у хорошего классификатора кривая лежит по большей части либо целиком выше прямой y=x. Это связано с тем что при хорошей классификации надо получать максимальный TPR при минимальном FPR.

👍19

3.9K views20:19

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

❗ Для всех, кто интересуется Data Science — приглашаем на курс Математики для Data Science!

Курс вам подойдет, если вы:

• Начинающий Data Scientist;
• Вы прошли общие курсы по DS и вам не хватает математики;
• Вы занимаетесь DS, но хотите углубленное понимание математики для работы;
• Вы хотите поступить в Школу Анализа Данных Яндекса (курса будет достаточно для успешного поступления);
• Вы просто хотите подтянуть знания вышмата и использовать их в IT.

⚡ Программа разработана совместно с преподавателями ВМК МГУ — одного из лучших математических факультетов страны!

Курс включает 47 лекций и 150 практических заданий с проверкой.

❗ Помимо математических заданий, в конце будет модуль машинного обучения, где на Python показаны примеры использования математики в задачах машинного обучения.

👉 Посмотреть программу и получить пробные занятия можно тут: https://proglib.io/w/4742484f

На курс действует гарантия!

🔥2

3.58K views16:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

#вопросы_с_собеседований
Что такое закон больших чисел?

Это принцип теории вероятностей, который описывает результат выполнения одного и того же эксперимента множество раз.

При достаточно длительной серии экспериментов закон больших чисел гарантирует устойчивость средних значений от случайных событий. И среднее значение конечной выборки фиксированного распределения будет очень близко к математическому ожиданию выборки.

К примеру, при бросках шестигранного кубика. Чем больше бросков, тем больше среднее значение близится к математическому ожиданию 3,5.

👍32👎3

4.13K views18:19

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

#вопросы_с_собеседований
Что такое ансамбль методов?

Ансамбль методов — это использование нескольких алгоритмов с целью получения более высокой эффективности прогнозирования, чем можно было бы получить, используя эти алгоритмы отдельно.

👎7❤3👍2🤔1

3.96K views14:50

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

5 продвинутых концепций SQL, которые вы должны знать в 2022 году.

https://proglib.io/w/c07e152f

Medium

5 Advanced SQL Concepts You Should Know in 2022

Master these time-saving, advanced SQL queries today.

👍10

4.34K views18:49

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

#вопросы_с_собеседований
Перечислите этапы построения дерева решений

Взять весь набор входных данных.

Вычислить энтропию целевой переменной, а также прогнозные атрибуты.

Рассчитать прирост информации по всем атрибутам (информацию о том, как отсортировать разные объекты друг от друга).

Выбрать атрибут с наибольшим объёмом информации в качестве корневого узла.

Повторить ту же процедуру для каждой ветви, пока узел решения каждой ветви не будет завершён.

👍21👎5

4.24K views14:55

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

YOLOv5 — Детектор лиц

Недавно у меня возникла необходимость сделать детектор лиц в реальном времени для дальнейшей сегментации и распознавания. В качестве детектора я использовал очень популярную сеть YOLOv5.

https://habr.com/ru/post/675590/

👍6👎1

4.36K views19:12

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

R против Python: в чем реальная разница между R и Python?

https://proglib.io/w/905853b5

Stxnext

R vs. Python: What’s the Real Difference Between R and Python?

Read our technical comparison of Python vs. R to learn more about the differences and similarities of two open-source programming languages: Python and R.

👍3

3.61K viewsedited 14:59

About

Blog

Apps

Platform