Внешний надзор: проектирование сторонней экосистемы аудита для управления ИИ.
https://proglib.io/w/8c7aaacd
https://proglib.io/w/8c7aaacd
👍2😁1
🗣 Решаем задачу перевода русской речи в текст с помощью Python и библиотеки Vosk
В статье научимся конвертировать русскую речь в текст (транскрибация) с помощью Python и библиотеки Vosk с её ML-моделями.
https://proglib.io/sh/tpL6wI4Pdk
В статье научимся конвертировать русскую речь в текст (транскрибация) с помощью Python и библиотеки Vosk с её ML-моделями.
https://proglib.io/sh/tpL6wI4Pdk
👍10
#вопросы_с_собеседований
Что такое нормализация данных и зачем она нам нужна?
Нормализация данных - очень важный этап предварительной обработки, используемый для изменения масштаба значений, чтобы они соответствовали определенному диапазону, чтобы обеспечить лучшую сходимость во время обратного распространения ошибки. В общем случае она сводится к вычитанию среднего значения и делению на стандартное отклонение.
Если этого не сделать, некоторые признаки будут иметь более высокий вес в функции стоимости. Нормализация позволяет сделать все признаки одинаково взвешенными.
Что такое нормализация данных и зачем она нам нужна?
Нормализация данных - очень важный этап предварительной обработки, используемый для изменения масштаба значений, чтобы они соответствовали определенному диапазону, чтобы обеспечить лучшую сходимость во время обратного распространения ошибки. В общем случае она сводится к вычитанию среднего значения и делению на стандартное отклонение.
Если этого не сделать, некоторые признаки будут иметь более высокий вес в функции стоимости. Нормализация позволяет сделать все признаки одинаково взвешенными.
👍26👎6
#вопросы_с_собеседований
Что такое аугментация данных? Можете привести примеры?
Под аугментацией данных понимается увеличение выборки данных для обучения через модификацию существующих данных. Компьютерное зрение - одна из областей, где очень полезно увеличение объема данных. Есть много модификаций, которые мы можем сделать с изображениями:
— Изменить размер
— Горизонтально или вертикально перевернуть
— Добавить шум
— Деформировать
— Изменить цвета
Что такое аугментация данных? Можете привести примеры?
Под аугментацией данных понимается увеличение выборки данных для обучения через модификацию существующих данных. Компьютерное зрение - одна из областей, где очень полезно увеличение объема данных. Есть много модификаций, которые мы можем сделать с изображениями:
— Изменить размер
— Горизонтально или вертикально перевернуть
— Добавить шум
— Деформировать
— Изменить цвета
👍13🔥1
🔥3👍1
#вопросы_с_собеседований
Как рассчитать точность прогноза, используя матрицу ошибок?
В матрице ошибок есть значения для общего количества данных, истинных значений и прогнозируемых значений.
Как рассчитать точность прогноза, используя матрицу ошибок?
В матрице ошибок есть значения для общего количества данных, истинных значений и прогнозируемых значений.
👍7👎5
Как контролировать качество данных в Feature Store? И как сделать так, чтобы ML система не разваливалась от одного неудачного коммита?
Big Data МТС приглашает на ML-митап всех причастных к ML-проектам в контексте обучения моделей, их деплоя или построения ETL пайплайнов.
📆 Когда: 7 июля, 18.00
🔻 Расскажем, как автоматизировать контроль за качеством данных в Feature Store: рассмотрим базовые алгоритмы детекции дрейфа на признаковом пространстве моделей и их реализации в распределенном стеке.
🔻 Рассмотрим популярные проблемы ML-систем и способы их предотвращения: как сугубо инженерные подходы к тестированию всей системы, так и тесты, применимые исключительно к ML моделям.
🔻 Обсудим что происходит с RnD в промышленном Data Science. В качестве экспертов: Анатолий Орлов — СTO AliExpress Россия, Радослав Нечаев — лектор по ML и руководитель магистратуры MSAI МФТИ и Валерий Бабушкин - Head of Data Science Blockchain.com
Регистрация здесь.
Big Data МТС приглашает на ML-митап всех причастных к ML-проектам в контексте обучения моделей, их деплоя или построения ETL пайплайнов.
📆 Когда: 7 июля, 18.00
🔻 Расскажем, как автоматизировать контроль за качеством данных в Feature Store: рассмотрим базовые алгоритмы детекции дрейфа на признаковом пространстве моделей и их реализации в распределенном стеке.
🔻 Рассмотрим популярные проблемы ML-систем и способы их предотвращения: как сугубо инженерные подходы к тестированию всей системы, так и тесты, применимые исключительно к ML моделям.
🔻 Обсудим что происходит с RnD в промышленном Data Science. В качестве экспертов: Анатолий Орлов — СTO AliExpress Россия, Радослав Нечаев — лектор по ML и руководитель магистратуры MSAI МФТИ и Валерий Бабушкин - Head of Data Science Blockchain.com
Регистрация здесь.
mts-digital.timepad.ru
ML MEETUP MTS BIG DATA / События на TimePad.ru
МТС Big Data проведет четвертый онлайн-митап для дата-саентистов, дата-инженеров и специалистов, интересующихся машинным обучением
👍3🥰1
#вопросы_с_собеседований
Что такое проблемы взрывающегося и затухающего градиента?
Градиент — это вектор частных производных функции потерь по весам нейросети. Он показывает вектор наибольшего роста функции для всех весов.
В процессе обучения при обратном распространении ошибки при прохождении через слои нейронной сети в элементах градиента могут накапливаться большие значения, что будет приводить к сильным изменениям весов. Это дестабилизирует алгоритм нейросети. Эта проблема называется взрывающимся градиентом.
Аналогичная обратная проблема, в которой при прохождении ошибки через слои градиент становится меньше, называется затухающим градиентом.
Чем больше количество слоев нейросети, тем выше риски данных ошибок. Для решения сложных задач с помощью нейронных сетей необходимо уметь определять и устранять её.
Что такое проблемы взрывающегося и затухающего градиента?
Градиент — это вектор частных производных функции потерь по весам нейросети. Он показывает вектор наибольшего роста функции для всех весов.
В процессе обучения при обратном распространении ошибки при прохождении через слои нейронной сети в элементах градиента могут накапливаться большие значения, что будет приводить к сильным изменениям весов. Это дестабилизирует алгоритм нейросети. Эта проблема называется взрывающимся градиентом.
Аналогичная обратная проблема, в которой при прохождении ошибки через слои градиент становится меньше, называется затухающим градиентом.
Чем больше количество слоев нейросети, тем выше риски данных ошибок. Для решения сложных задач с помощью нейронных сетей необходимо уметь определять и устранять её.
👍20🤔3
Фондовый рынок - самая загадочная система, которую может предсказать ИИ.
https://proglib.io/w/27a8a43a
https://proglib.io/w/27a8a43a
Medium
Stock Market is the Most Enigmatic System to be Predicted by AI
And why it’s nearly impossible to do so
👍9👎4🤔1
#вопросы_с_собеседований
Как работает ROC-кривая?
ROC-кривая — это графическое изображение контраста между показателями истинно положительных и ложноположительных результатов при различных пороговых значениях.
Если считать TPR и FPR для фиксированного порога μ є [0,1], то их можно представить в виде функций от аргумента μ:
TPR = TPR(μ), FPR = FPR(μ). При этом обе функции монотонно возрастают от 0 до 1, а значит, определена функция:
ROC(x) = TPR(FPR-1(x)), x є [0,1]
ROC-кривая — это график функции. Как правило, у хорошего классификатора кривая лежит по большей части либо целиком выше прямой y=x. Это связано с тем что при хорошей классификации надо получать максимальный TPR при минимальном FPR.
Как работает ROC-кривая?
ROC-кривая — это графическое изображение контраста между показателями истинно положительных и ложноположительных результатов при различных пороговых значениях.
Если считать TPR и FPR для фиксированного порога μ є [0,1], то их можно представить в виде функций от аргумента μ:
TPR = TPR(μ), FPR = FPR(μ). При этом обе функции монотонно возрастают от 0 до 1, а значит, определена функция:
ROC(x) = TPR(FPR-1(x)), x є [0,1]
ROC-кривая — это график функции. Как правило, у хорошего классификатора кривая лежит по большей части либо целиком выше прямой y=x. Это связано с тем что при хорошей классификации надо получать максимальный TPR при минимальном FPR.
👍19
❗ Для всех, кто интересуется Data Science — приглашаем на курс Математики для Data Science!
Курс вам подойдет, если вы:
• Начинающий Data Scientist;
• Вы прошли общие курсы по DS и вам не хватает математики;
• Вы занимаетесь DS, но хотите углубленное понимание математики для работы;
• Вы хотите поступить в Школу Анализа Данных Яндекса (курса будет достаточно для успешного поступления);
• Вы просто хотите подтянуть знания вышмата и использовать их в IT.
⚡ Программа разработана совместно с преподавателями ВМК МГУ — одного из лучших математических факультетов страны!
Курс включает 47 лекций и 150 практических заданий с проверкой.
❗ Помимо математических заданий, в конце будет модуль машинного обучения, где на Python показаны примеры использования математики в задачах машинного обучения.
👉 Посмотреть программу и получить пробные занятия можно тут: https://proglib.io/w/4742484f
На курс действует гарантия!
Курс вам подойдет, если вы:
• Начинающий Data Scientist;
• Вы прошли общие курсы по DS и вам не хватает математики;
• Вы занимаетесь DS, но хотите углубленное понимание математики для работы;
• Вы хотите поступить в Школу Анализа Данных Яндекса (курса будет достаточно для успешного поступления);
• Вы просто хотите подтянуть знания вышмата и использовать их в IT.
⚡ Программа разработана совместно с преподавателями ВМК МГУ — одного из лучших математических факультетов страны!
Курс включает 47 лекций и 150 практических заданий с проверкой.
❗ Помимо математических заданий, в конце будет модуль машинного обучения, где на Python показаны примеры использования математики в задачах машинного обучения.
👉 Посмотреть программу и получить пробные занятия можно тут: https://proglib.io/w/4742484f
На курс действует гарантия!
🔥2
#вопросы_с_собеседований
Что такое закон больших чисел?
Это принцип теории вероятностей, который описывает результат выполнения одного и того же эксперимента множество раз.
При достаточно длительной серии экспериментов закон больших чисел гарантирует устойчивость средних значений от случайных событий. И среднее значение конечной выборки фиксированного распределения будет очень близко к математическому ожиданию выборки.
К примеру, при бросках шестигранного кубика. Чем больше бросков, тем больше среднее значение близится к математическому ожиданию 3,5.
Что такое закон больших чисел?
Это принцип теории вероятностей, который описывает результат выполнения одного и того же эксперимента множество раз.
При достаточно длительной серии экспериментов закон больших чисел гарантирует устойчивость средних значений от случайных событий. И среднее значение конечной выборки фиксированного распределения будет очень близко к математическому ожиданию выборки.
К примеру, при бросках шестигранного кубика. Чем больше бросков, тем больше среднее значение близится к математическому ожиданию 3,5.
👍32👎3
#вопросы_с_собеседований
Что такое ансамбль методов?
Ансамбль методов — это использование нескольких алгоритмов с целью получения более высокой эффективности прогнозирования, чем можно было бы получить, используя эти алгоритмы отдельно.
Что такое ансамбль методов?
Ансамбль методов — это использование нескольких алгоритмов с целью получения более высокой эффективности прогнозирования, чем можно было бы получить, используя эти алгоритмы отдельно.
👎7❤3👍2🤔1
#вопросы_с_собеседований
Перечислите этапы построения дерева решений
Взять весь набор входных данных.
Вычислить энтропию целевой переменной, а также прогнозные атрибуты.
Рассчитать прирост информации по всем атрибутам (информацию о том, как отсортировать разные объекты друг от друга).
Выбрать атрибут с наибольшим объёмом информации в качестве корневого узла.
Повторить ту же процедуру для каждой ветви, пока узел решения каждой ветви не будет завершён.
Перечислите этапы построения дерева решений
Взять весь набор входных данных.
Вычислить энтропию целевой переменной, а также прогнозные атрибуты.
Рассчитать прирост информации по всем атрибутам (информацию о том, как отсортировать разные объекты друг от друга).
Выбрать атрибут с наибольшим объёмом информации в качестве корневого узла.
Повторить ту же процедуру для каждой ветви, пока узел решения каждой ветви не будет завершён.
👍21👎5
YOLOv5 — Детектор лиц
Недавно у меня возникла необходимость сделать детектор лиц в реальном времени для дальнейшей сегментации и распознавания. В качестве детектора я использовал очень популярную сеть YOLOv5.
https://habr.com/ru/post/675590/
Недавно у меня возникла необходимость сделать детектор лиц в реальном времени для дальнейшей сегментации и распознавания. В качестве детектора я использовал очень популярную сеть YOLOv5.
https://habr.com/ru/post/675590/
👍6👎1