Как вы оттачиваете свои навыки SQL? [Обсуждение на Реддите].
https://www.reddit.com/r/dataengineering/comments/vj10xz/how_do_you_guys_ace_your_sql_skills/
https://www.reddit.com/r/dataengineering/comments/vj10xz/how_do_you_guys_ace_your_sql_skills/
Reddit
From the dataengineering community on Reddit
Explore this post and more from the dataengineering community
👍4
👍2
⚡️ VK Tech Talks · ML – митап для специалистов в ML. Спикеры расскажут об особенностях рекомендаций и поделятся своим опытом построения моделей.
Когда: 30 июня в 19:00.
Где: офлайн в офисе VK и онлайн в сообществе VK Team.
В программе:
🔹Контентные рекомендации в Delivery Club
🔹Шесть классификаторов по цене одного, или всё о детекторе токсичности ВКонтакте
🔹Автораспознавание объявлений: сложно — не значит тяжело
После регистрации участникам придет напоминание в календарь и ссылка на тематический чат участников. Не пропустите, будет много интересного!
👉 Зарегистрироваться
Когда: 30 июня в 19:00.
Где: офлайн в офисе VK и онлайн в сообществе VK Team.
В программе:
🔹Контентные рекомендации в Delivery Club
🔹Шесть классификаторов по цене одного, или всё о детекторе токсичности ВКонтакте
🔹Автораспознавание объявлений: сложно — не значит тяжело
После регистрации участникам придет напоминание в календарь и ссылка на тематический чат участников. Не пропустите, будет много интересного!
👉 Зарегистрироваться
👍4👎2
📊 «Сделай красиво и чтоб работало – это вместо ТЗ». Что больше всего раздражает программистов на работе? Результаты опроса «Библиотеки программиста»
Отправь эту статью коллеге или руководителю. Может что-нибудь поменяется.
https://proglib.io/sh/RHx4fjPaLT
Отправь эту статью коллеге или руководителю. Может что-нибудь поменяется.
https://proglib.io/sh/RHx4fjPaLT
👍7🔥1
Внешний надзор: проектирование сторонней экосистемы аудита для управления ИИ.
https://proglib.io/w/8c7aaacd
https://proglib.io/w/8c7aaacd
👍2😁1
🗣 Решаем задачу перевода русской речи в текст с помощью Python и библиотеки Vosk
В статье научимся конвертировать русскую речь в текст (транскрибация) с помощью Python и библиотеки Vosk с её ML-моделями.
https://proglib.io/sh/tpL6wI4Pdk
В статье научимся конвертировать русскую речь в текст (транскрибация) с помощью Python и библиотеки Vosk с её ML-моделями.
https://proglib.io/sh/tpL6wI4Pdk
👍10
#вопросы_с_собеседований
Что такое нормализация данных и зачем она нам нужна?
Нормализация данных - очень важный этап предварительной обработки, используемый для изменения масштаба значений, чтобы они соответствовали определенному диапазону, чтобы обеспечить лучшую сходимость во время обратного распространения ошибки. В общем случае она сводится к вычитанию среднего значения и делению на стандартное отклонение.
Если этого не сделать, некоторые признаки будут иметь более высокий вес в функции стоимости. Нормализация позволяет сделать все признаки одинаково взвешенными.
Что такое нормализация данных и зачем она нам нужна?
Нормализация данных - очень важный этап предварительной обработки, используемый для изменения масштаба значений, чтобы они соответствовали определенному диапазону, чтобы обеспечить лучшую сходимость во время обратного распространения ошибки. В общем случае она сводится к вычитанию среднего значения и делению на стандартное отклонение.
Если этого не сделать, некоторые признаки будут иметь более высокий вес в функции стоимости. Нормализация позволяет сделать все признаки одинаково взвешенными.
👍26👎6
#вопросы_с_собеседований
Что такое аугментация данных? Можете привести примеры?
Под аугментацией данных понимается увеличение выборки данных для обучения через модификацию существующих данных. Компьютерное зрение - одна из областей, где очень полезно увеличение объема данных. Есть много модификаций, которые мы можем сделать с изображениями:
— Изменить размер
— Горизонтально или вертикально перевернуть
— Добавить шум
— Деформировать
— Изменить цвета
Что такое аугментация данных? Можете привести примеры?
Под аугментацией данных понимается увеличение выборки данных для обучения через модификацию существующих данных. Компьютерное зрение - одна из областей, где очень полезно увеличение объема данных. Есть много модификаций, которые мы можем сделать с изображениями:
— Изменить размер
— Горизонтально или вертикально перевернуть
— Добавить шум
— Деформировать
— Изменить цвета
👍13🔥1
🔥3👍1
#вопросы_с_собеседований
Как рассчитать точность прогноза, используя матрицу ошибок?
В матрице ошибок есть значения для общего количества данных, истинных значений и прогнозируемых значений.
Как рассчитать точность прогноза, используя матрицу ошибок?
В матрице ошибок есть значения для общего количества данных, истинных значений и прогнозируемых значений.
👍7👎5
Как контролировать качество данных в Feature Store? И как сделать так, чтобы ML система не разваливалась от одного неудачного коммита?
Big Data МТС приглашает на ML-митап всех причастных к ML-проектам в контексте обучения моделей, их деплоя или построения ETL пайплайнов.
📆 Когда: 7 июля, 18.00
🔻 Расскажем, как автоматизировать контроль за качеством данных в Feature Store: рассмотрим базовые алгоритмы детекции дрейфа на признаковом пространстве моделей и их реализации в распределенном стеке.
🔻 Рассмотрим популярные проблемы ML-систем и способы их предотвращения: как сугубо инженерные подходы к тестированию всей системы, так и тесты, применимые исключительно к ML моделям.
🔻 Обсудим что происходит с RnD в промышленном Data Science. В качестве экспертов: Анатолий Орлов — СTO AliExpress Россия, Радослав Нечаев — лектор по ML и руководитель магистратуры MSAI МФТИ и Валерий Бабушкин - Head of Data Science Blockchain.com
Регистрация здесь.
Big Data МТС приглашает на ML-митап всех причастных к ML-проектам в контексте обучения моделей, их деплоя или построения ETL пайплайнов.
📆 Когда: 7 июля, 18.00
🔻 Расскажем, как автоматизировать контроль за качеством данных в Feature Store: рассмотрим базовые алгоритмы детекции дрейфа на признаковом пространстве моделей и их реализации в распределенном стеке.
🔻 Рассмотрим популярные проблемы ML-систем и способы их предотвращения: как сугубо инженерные подходы к тестированию всей системы, так и тесты, применимые исключительно к ML моделям.
🔻 Обсудим что происходит с RnD в промышленном Data Science. В качестве экспертов: Анатолий Орлов — СTO AliExpress Россия, Радослав Нечаев — лектор по ML и руководитель магистратуры MSAI МФТИ и Валерий Бабушкин - Head of Data Science Blockchain.com
Регистрация здесь.
mts-digital.timepad.ru
ML MEETUP MTS BIG DATA / События на TimePad.ru
МТС Big Data проведет четвертый онлайн-митап для дата-саентистов, дата-инженеров и специалистов, интересующихся машинным обучением
👍3🥰1
#вопросы_с_собеседований
Что такое проблемы взрывающегося и затухающего градиента?
Градиент — это вектор частных производных функции потерь по весам нейросети. Он показывает вектор наибольшего роста функции для всех весов.
В процессе обучения при обратном распространении ошибки при прохождении через слои нейронной сети в элементах градиента могут накапливаться большие значения, что будет приводить к сильным изменениям весов. Это дестабилизирует алгоритм нейросети. Эта проблема называется взрывающимся градиентом.
Аналогичная обратная проблема, в которой при прохождении ошибки через слои градиент становится меньше, называется затухающим градиентом.
Чем больше количество слоев нейросети, тем выше риски данных ошибок. Для решения сложных задач с помощью нейронных сетей необходимо уметь определять и устранять её.
Что такое проблемы взрывающегося и затухающего градиента?
Градиент — это вектор частных производных функции потерь по весам нейросети. Он показывает вектор наибольшего роста функции для всех весов.
В процессе обучения при обратном распространении ошибки при прохождении через слои нейронной сети в элементах градиента могут накапливаться большие значения, что будет приводить к сильным изменениям весов. Это дестабилизирует алгоритм нейросети. Эта проблема называется взрывающимся градиентом.
Аналогичная обратная проблема, в которой при прохождении ошибки через слои градиент становится меньше, называется затухающим градиентом.
Чем больше количество слоев нейросети, тем выше риски данных ошибок. Для решения сложных задач с помощью нейронных сетей необходимо уметь определять и устранять её.
👍20🤔3
Фондовый рынок - самая загадочная система, которую может предсказать ИИ.
https://proglib.io/w/27a8a43a
https://proglib.io/w/27a8a43a
Medium
Stock Market is the Most Enigmatic System to be Predicted by AI
And why it’s nearly impossible to do so
👍9👎4🤔1
#вопросы_с_собеседований
Как работает ROC-кривая?
ROC-кривая — это графическое изображение контраста между показателями истинно положительных и ложноположительных результатов при различных пороговых значениях.
Если считать TPR и FPR для фиксированного порога μ є [0,1], то их можно представить в виде функций от аргумента μ:
TPR = TPR(μ), FPR = FPR(μ). При этом обе функции монотонно возрастают от 0 до 1, а значит, определена функция:
ROC(x) = TPR(FPR-1(x)), x є [0,1]
ROC-кривая — это график функции. Как правило, у хорошего классификатора кривая лежит по большей части либо целиком выше прямой y=x. Это связано с тем что при хорошей классификации надо получать максимальный TPR при минимальном FPR.
Как работает ROC-кривая?
ROC-кривая — это графическое изображение контраста между показателями истинно положительных и ложноположительных результатов при различных пороговых значениях.
Если считать TPR и FPR для фиксированного порога μ є [0,1], то их можно представить в виде функций от аргумента μ:
TPR = TPR(μ), FPR = FPR(μ). При этом обе функции монотонно возрастают от 0 до 1, а значит, определена функция:
ROC(x) = TPR(FPR-1(x)), x є [0,1]
ROC-кривая — это график функции. Как правило, у хорошего классификатора кривая лежит по большей части либо целиком выше прямой y=x. Это связано с тем что при хорошей классификации надо получать максимальный TPR при минимальном FPR.
👍19
❗ Для всех, кто интересуется Data Science — приглашаем на курс Математики для Data Science!
Курс вам подойдет, если вы:
• Начинающий Data Scientist;
• Вы прошли общие курсы по DS и вам не хватает математики;
• Вы занимаетесь DS, но хотите углубленное понимание математики для работы;
• Вы хотите поступить в Школу Анализа Данных Яндекса (курса будет достаточно для успешного поступления);
• Вы просто хотите подтянуть знания вышмата и использовать их в IT.
⚡ Программа разработана совместно с преподавателями ВМК МГУ — одного из лучших математических факультетов страны!
Курс включает 47 лекций и 150 практических заданий с проверкой.
❗ Помимо математических заданий, в конце будет модуль машинного обучения, где на Python показаны примеры использования математики в задачах машинного обучения.
👉 Посмотреть программу и получить пробные занятия можно тут: https://proglib.io/w/4742484f
На курс действует гарантия!
Курс вам подойдет, если вы:
• Начинающий Data Scientist;
• Вы прошли общие курсы по DS и вам не хватает математики;
• Вы занимаетесь DS, но хотите углубленное понимание математики для работы;
• Вы хотите поступить в Школу Анализа Данных Яндекса (курса будет достаточно для успешного поступления);
• Вы просто хотите подтянуть знания вышмата и использовать их в IT.
⚡ Программа разработана совместно с преподавателями ВМК МГУ — одного из лучших математических факультетов страны!
Курс включает 47 лекций и 150 практических заданий с проверкой.
❗ Помимо математических заданий, в конце будет модуль машинного обучения, где на Python показаны примеры использования математики в задачах машинного обучения.
👉 Посмотреть программу и получить пробные занятия можно тут: https://proglib.io/w/4742484f
На курс действует гарантия!
🔥2
#вопросы_с_собеседований
Что такое закон больших чисел?
Это принцип теории вероятностей, который описывает результат выполнения одного и того же эксперимента множество раз.
При достаточно длительной серии экспериментов закон больших чисел гарантирует устойчивость средних значений от случайных событий. И среднее значение конечной выборки фиксированного распределения будет очень близко к математическому ожиданию выборки.
К примеру, при бросках шестигранного кубика. Чем больше бросков, тем больше среднее значение близится к математическому ожиданию 3,5.
Что такое закон больших чисел?
Это принцип теории вероятностей, который описывает результат выполнения одного и того же эксперимента множество раз.
При достаточно длительной серии экспериментов закон больших чисел гарантирует устойчивость средних значений от случайных событий. И среднее значение конечной выборки фиксированного распределения будет очень близко к математическому ожиданию выборки.
К примеру, при бросках шестигранного кубика. Чем больше бросков, тем больше среднее значение близится к математическому ожиданию 3,5.
👍32👎3
#вопросы_с_собеседований
Что такое ансамбль методов?
Ансамбль методов — это использование нескольких алгоритмов с целью получения более высокой эффективности прогнозирования, чем можно было бы получить, используя эти алгоритмы отдельно.
Что такое ансамбль методов?
Ансамбль методов — это использование нескольких алгоритмов с целью получения более высокой эффективности прогнозирования, чем можно было бы получить, используя эти алгоритмы отдельно.
👎7❤3👍2🤔1