Сеньор от мидла отличается как минимум несколькими цифрами в зарплате
Максимум — целой кучей скиллов, которые можно прокачать только на практике. Авито в хорошем тексте (без воды!) рассказывает, как на собеседованиях вычисляют аналитиков-сеньоров и как вы близко к тому, чтобы перепрыгнуть на следующий грейд.
👉 Статья на Хабре и матрица компетенций по уровням.
@data_analysis_ml
Максимум — целой кучей скиллов, которые можно прокачать только на практике. Авито в хорошем тексте (без воды!) рассказывает, как на собеседованиях вычисляют аналитиков-сеньоров и как вы близко к тому, чтобы перепрыгнуть на следующий грейд.
👉 Статья на Хабре и матрица компетенций по уровням.
@data_analysis_ml
❤9🔥5👍1🥱1
Конспекты лекций, материалы семинаров и домашние задания (теоретические, практические, соревнования) по курсу "Машинное обучение", проводимому на бакалаврской программе "Прикладная математика и информатика" Факультета компьютерных наук Высшей школы экономики.
Записи лекций и семинаров
▪Полный плейлист
▪Вводная лекция
▪Линейная регрессия
▪Линейная регрессия и градиентное обучение
▪Продвинутые градиентные методы, линейная классификация
▪Метрики качества классификации (+небольшое продолжение)
▪Логистическая регрессия (+продолжение)
▪Метод опорных векторов, многоклассовая классификация
▪Решающие деревья
▪Решающие деревья (продолжение), разложение ошибки на смещение и разброс
▪Случайные леса, градиентный бустинг
▪Градиентный бустинг (продолжение)
▪Стекинг. Обучение без учителя и кластеризация.
▪Визуализация, обучение представлений
▪Рекомендательные системы
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31🔥14❤8
💥 Шпаргалка scikit-learn: функции для машинного обучения
В этой статье мы рассмотрим 50 наиболее полезных функций, Sci-kitlearn для задач машинного обучения. От предварительной обработки данных до выбора и оценки модели — эти функции охватывают широкий спектр методов и методологий для решения реальных задач.
Мы будем использовать готовые наборы данных, чтобы проиллюстрировать применение каждой функции, чтобы вам было легче следовать и применять их в ваших собственных проектах.
Звучит фантастически? А теперь сюрприз: многие из этих функций просты в использовании и требуют для реализации всего несколько строк кода.
Независимо от того, являетесь ли вы опытным специалистом по данным или только начинаете, эта памятка поможет вам лучше познакомиться с мощными инструментами, доступными в Sci-kit, и позволит вам ускорить свои проекты по науке о данных и машинному обучению.
▪Читать
@data_analysis_ml
В этой статье мы рассмотрим 50 наиболее полезных функций, Sci-kitlearn для задач машинного обучения. От предварительной обработки данных до выбора и оценки модели — эти функции охватывают широкий спектр методов и методологий для решения реальных задач.
Мы будем использовать готовые наборы данных, чтобы проиллюстрировать применение каждой функции, чтобы вам было легче следовать и применять их в ваших собственных проектах.
Звучит фантастически? А теперь сюрприз: многие из этих функций просты в использовании и требуют для реализации всего несколько строк кода.
Независимо от того, являетесь ли вы опытным специалистом по данным или только начинаете, эта памятка поможет вам лучше познакомиться с мощными инструментами, доступными в Sci-kit, и позволит вам ускорить свои проекты по науке о данных и машинному обучению.
▪Читать
@data_analysis_ml
👍10❤4🔥1
Подход, о котором я расскажу, позволяет расширить функциональные возможности метода Наивного Байеса благодаря использованию весовых коэффициентов для различных групп признаков объекта датасета (модель может обучаться не только на отдельных словах в тексте, но также на некоторых метаданных, таких как авторы текста и источник информации).
С помощью разработанной ML‑модели можно улучшить качество классификации текстов при использовании обучающей выборки небольшого объёма (всего 30 объектов) и сократить время обучения модели.
Задача решалась в рамках разработки системы рекомендаций научных статей. Наработки могут быть использованы в любых задачах NLP и Text Mining.
▪Читать
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍6🔥3
Я совершенно уверен, что Pandas не нуждается в представлении. В этой статье мы продолжим изучать некоторые полезные функции pandas, о которых вы, возможно, не слышали.
Давайте начинать!
▪Читать
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14❤3🔥2
👁🗨 Гайд для новичков по распознаванию изображений ИИ: Python и OpenCV.
В этом руководстве основное внимание будет уделено использованию Python и OpenCV для выполнения задач распознавания изображений, включая загрузку и отображение изображений, предварительную обработку изображений, извлечение признаков, обучение и тестирование классификатора, а также оценку его производительности.
К концу этого руководства у вас будет прочная основа для создания проекта распознавания изображений с помощью ИИ и практические навыки для применения его к реальным задачам.
▪ Читать
@data_analysis_ml
В этом руководстве основное внимание будет уделено использованию Python и OpenCV для выполнения задач распознавания изображений, включая загрузку и отображение изображений, предварительную обработку изображений, извлечение признаков, обучение и тестирование классификатора, а также оценку его производительности.
К концу этого руководства у вас будет прочная основа для создания проекта распознавания изображений с помощью ИИ и практические навыки для применения его к реальным задачам.
▪ Читать
@data_analysis_ml
👍7❤4🔥1
За последние несколько лет статические анализаторы кода значительно оптимизировали разработку приложений. Статический анализ избавляет от необходимости отыскивать ошибки и уязвимости в системе продакшн или среде развертывания, указывая участок предполагаемого сбоя на основе типизации и других подсказок кода.
В статье мы подробно разберем несколько инструментов статического анализа с открытым ПО для Python. Посмотрим, как они работают и улучшают процесс программирования.
▪ Читать
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤2🔥1
Как сгенерировать поддельные изображения, которые выглядят реальными, всего с помощью нескольких строк кода (с помощью GAN)?
Вы когда-нибудь задумывались, как некоторые веб-сайты или приложения могут создавать реалистичные изображения людей, животных или мест, которых не существует в реальной жизни? Как они это делают? И каковы последствия создания и использования таких изображений?
В этой статье я познакомлю вас с одним из самых захватывающих и мощных методов в области машинного обучения: генеративными состязательными сетями, или сокращённо GAN.
GAN – это тип нейронной сети, которая может обучаться на наборах данных и генерировать новые данные с теми же характеристиками, что и обучающие данные.
Например, GAN, обученный на фотографиях человеческих лиц, может создавать реалистично выглядящие лица, которые являются полностью синтетическими.
GAN имеет множество применений в различных областях, таких как искусство, развлечения, безопасность, медицина и многое другое.
Он также может поднимать этические и социальные вопросы, такие как конфиденциальность, подлинность и ответственность.
В этой статье я покажу вам несколько примеров GAN в действии, объясню, как они работают и как реализовать их в Python с использованием популярного фреймворка, такого как TensorFlow или PyTorch. Также мы обсудим некоторые плюсы и минусы этой технологии.
▪Читать
@data_analysis_ml
Вы когда-нибудь задумывались, как некоторые веб-сайты или приложения могут создавать реалистичные изображения людей, животных или мест, которых не существует в реальной жизни? Как они это делают? И каковы последствия создания и использования таких изображений?
В этой статье я познакомлю вас с одним из самых захватывающих и мощных методов в области машинного обучения: генеративными состязательными сетями, или сокращённо GAN.
GAN – это тип нейронной сети, которая может обучаться на наборах данных и генерировать новые данные с теми же характеристиками, что и обучающие данные.
Например, GAN, обученный на фотографиях человеческих лиц, может создавать реалистично выглядящие лица, которые являются полностью синтетическими.
GAN имеет множество применений в различных областях, таких как искусство, развлечения, безопасность, медицина и многое другое.
Он также может поднимать этические и социальные вопросы, такие как конфиденциальность, подлинность и ответственность.
В этой статье я покажу вам несколько примеров GAN в действии, объясню, как они работают и как реализовать их в Python с использованием популярного фреймворка, такого как TensorFlow или PyTorch. Также мы обсудим некоторые плюсы и минусы этой технологии.
▪Читать
@data_analysis_ml
🔥8❤3👍1
В этой статье мы разработаем БД для практики. В этом проекте перед вами стоит задача создать реляционную базу данных для веб-сайта, предлагающего продажу подержанных автомобилей.
Общее описание этого проекта заключается в том, что любой желающий может предлагать свои товары (подержанные автомобили) в виде рекламы, а потенциальные покупатели могут осуществлять поиск по нескольким категориям.
▪ Читать дальше
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8👍7🔥1
💥 Снижаем размерность эмбеддингов предложений для задачи определения семантического сходства
Сегодня пойдет речь о методах снижения размерности эмбеддингов для задач определения семантического сходства предложений.
Для чего это необходимо. С каждым годом растет сложность моделей, решающих вопросы семантически- и контекстно-ориентированной обработки естественного языка (NLP). Также нельзя забывать и про проблемы мультиязычности моделей. Все это сильно сказывается на увеличении их размеров и системных требований к железу для их обучения, дообучения, да и просто запуска. Задачи NLP сегодня – это прикладные задачи, их хочется решать на доступном оборудовании за доступное время.
А если поконкретней? Передо мной стояла задача найти и обобщить текстовые данные, представляющие собой массив предложений. Я точно знал, что среди них есть семантически схожие фразы. Однако прямой подход для определения семантического сходства наборов фраз требовал очень много памяти и времени. Чтобы решить эту проблему, я попытался уменьшить размерность векторов признаков предложений, но как понять, когда остановиться и что это даст?
Ну и как понять? В рамках данной публикации посмотрим, как меняется оценка семантического сходства от изменения размерностей эмбеддингов разными классическими методами их уменьшения.
▪Читать
@data_analysis_ml
Сегодня пойдет речь о методах снижения размерности эмбеддингов для задач определения семантического сходства предложений.
Для чего это необходимо. С каждым годом растет сложность моделей, решающих вопросы семантически- и контекстно-ориентированной обработки естественного языка (NLP). Также нельзя забывать и про проблемы мультиязычности моделей. Все это сильно сказывается на увеличении их размеров и системных требований к железу для их обучения, дообучения, да и просто запуска. Задачи NLP сегодня – это прикладные задачи, их хочется решать на доступном оборудовании за доступное время.
А если поконкретней? Передо мной стояла задача найти и обобщить текстовые данные, представляющие собой массив предложений. Я точно знал, что среди них есть семантически схожие фразы. Однако прямой подход для определения семантического сходства наборов фраз требовал очень много памяти и времени. Чтобы решить эту проблему, я попытался уменьшить размерность векторов признаков предложений, но как понять, когда остановиться и что это даст?
Ну и как понять? В рамках данной публикации посмотрим, как меняется оценка семантического сходства от изменения размерностей эмбеддингов разными классическими методами их уменьшения.
▪Читать
@data_analysis_ml
👍9❤2🔥1
Сферы Data Science и Data Analysis в значительной степени зависят от манипулирования и обработки данных. Поскольку большие и сложные датасеты становятся всё более распространёнными, эффективные и масштабируемые решения для обработки данных имеют решающее значение для успеха в этой области. API-интерфейсы DataFrame стали мощными инструментами для работы со структурированными данными, предоставляя высокоуровневый интерфейс для обработки и анализа данных.
Два самых популярных API-интерфейса DataFrame в Python — это Pandas и Vaex.
▪️Читать
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍3🔥1
🖼 ML-подходы по поиску похожих изображений
В данном посте будет рассмотрена задача, называемая поиском похожих изображений, в которой нужно будет найти все похожие изображения из датасета на загруженную фотографию из того же датасета.
▪Читать
▪Код
@data_analysis_ml
В данном посте будет рассмотрена задача, называемая поиском похожих изображений, в которой нужно будет найти все похожие изображения из датасета на загруженную фотографию из того же датасета.
▪Читать
▪Код
@data_analysis_ml
👍9❤3👎1🔥1
Прокачать скилл с нуля и устроиться работать аналитиком данных можно всего за 2 месяца. Учебная программа одобрена экспертным советом Томского государственного университета.
Почему мы?
📚 Официальный образовательный партнер Томского государственного университета
🏅 Преподаватели-практики с высокой экспертизой
🎓 Удостоверение о повышении квалификации установленного образца
🙍♀️ Поддержка тьютора в зачислении и обучении
🙌 Увлеченное коммьюнити и новые полезные контакты
👥 Сотни довольных выпускников прошлых лет
Приглашаем принять участие:
— Студентов старшего курса и выпускников
— Женщин в декрете и неработающих мам детей до 7 лет
— Безработных и лиц под риском увольнения
— Лиц 50 лет и старше, предпенсионеров
Подробные условия участия на сайте проекта.
У нас есть и другие программы!
👨💻 Тестировщик ПО
🖌 Графический дизайн
🎲 Системный аналитик
📊 Аналитик маркетплейсов
Подайте заявку и начните учиться уже через 2 недели!
https://clck.ru/34GSDF
Почему мы?
📚 Официальный образовательный партнер Томского государственного университета
🏅 Преподаватели-практики с высокой экспертизой
🎓 Удостоверение о повышении квалификации установленного образца
🙍♀️ Поддержка тьютора в зачислении и обучении
🙌 Увлеченное коммьюнити и новые полезные контакты
👥 Сотни довольных выпускников прошлых лет
Приглашаем принять участие:
— Студентов старшего курса и выпускников
— Женщин в декрете и неработающих мам детей до 7 лет
— Безработных и лиц под риском увольнения
— Лиц 50 лет и старше, предпенсионеров
Подробные условия участия на сайте проекта.
У нас есть и другие программы!
👨💻 Тестировщик ПО
🖌 Графический дизайн
🎲 Системный аналитик
📊 Аналитик маркетплейсов
Подайте заявку и начните учиться уже через 2 недели!
https://clck.ru/34GSDF
😁7❤3👍3😐3
Создание наглядных визуализаций данных — это полезный навык. Несложно сделать визуализацию данных, которая вызывает больше вопросов, чем ответов.
В этом посте мы обсудим 8 советов о том, как посторить красивую, понятную и информативную визуализацию данных.
Читать
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21❤3🥰1
⚡️ Создайте свою собственную модель Transformer с нуля с помощью PyTorch
В этом уроке мы создадим базовую модель Transformer с нуля, используя PyTorch. Модель Transformer, представленная Vaswani et al. в статье «Attention is All You Need» — это архитектура глубокого обучения, предназначенная для последовательных задач, таких как машинный перевод и анализ текста.
Она основана на механизмах внутреннего внимания и стала основой для многих современных моделей обработки естественного языка, таких как GPT и BERT.
▪Читать
@data_analysis_ml
В этом уроке мы создадим базовую модель Transformer с нуля, используя PyTorch. Модель Transformer, представленная Vaswani et al. в статье «Attention is All You Need» — это архитектура глубокого обучения, предназначенная для последовательных задач, таких как машинный перевод и анализ текста.
Она основана на механизмах внутреннего внимания и стала основой для многих современных моделей обработки естественного языка, таких как GPT и BERT.
▪Читать
@data_analysis_ml
👍10❤2🥰1
15 лучших бесплатных курсов для изучения Python в 2023 году
Если вы новичок и ищете бесплатные ресурсы по Python, чтобы начать своё путешествие по программированию в 2023 году, то вы попали в нужное место.
В прошлом я делился лучшими книгами и курсами по изучению Python, а сегодня я поделюсь списком из лучших онлайн-курсов, которые вы можете пройти, чтобы бесплатно изучить программирование на Python.
▪Читать
@data_analysis_ml
Если вы новичок и ищете бесплатные ресурсы по Python, чтобы начать своё путешествие по программированию в 2023 году, то вы попали в нужное место.
В прошлом я делился лучшими книгами и курсами по изучению Python, а сегодня я поделюсь списком из лучших онлайн-курсов, которые вы можете пройти, чтобы бесплатно изучить программирование на Python.
▪Читать
@data_analysis_ml
👍13❤4❤🔥1👎1🔥1
Очистка набора данных FIFA 21 с использованием SQL
Популярная видеоигра FIFA 21 имеет большую базу данных статистики игроков и команд, известную как FIFA 21 dataset. Хотя этот набор данных может быть полезным инструментом для изучения производительности игроков и командной тактики, часто возникают проблемы с качеством данных, которые необходимо решить, прежде чем можно будет получить какую-либо полезную информацию.
Действие по обнаружению и устранению недостатков, несоответствий и неточностей в наборе данных известно как «очистка данных»
Читать
@data_analysis_ml
Популярная видеоигра FIFA 21 имеет большую базу данных статистики игроков и команд, известную как FIFA 21 dataset. Хотя этот набор данных может быть полезным инструментом для изучения производительности игроков и командной тактики, часто возникают проблемы с качеством данных, которые необходимо решить, прежде чем можно будет получить какую-либо полезную информацию.
Действие по обнаружению и устранению недостатков, несоответствий и неточностей в наборе данных известно как «очистка данных»
Читать
@data_analysis_ml
👍9❤1🥰1
01. Основы Python
02. Основы Python 2
03. Основы объектно-ориентированного программирования в Python
04. Основы Numpy
05. Основы Pandas
06. Лучшие практики
07. Iterators, generators, decorators
08. Визуализация данных с помощью matplotlib, seaborn; разведывательный анализ
09. Параллелизация в Python. HTTP запросы.
10. PIL, Scikit-Image, OpenCV
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍34🔥5❤2
⚡️ Введение в глубокое обучение (Deep Learning) Free course
▪week01_intro От регрессии к нейросети.
▪week02_backprop Алгоритм обратного распространения ошибки. 50 оттенков градиентного спуска.
▪week03_matrix_diff Матричное диффириенцирование. Тут я отменил один из семинаров. Его надо возместить.
▪week04_backprop_again Решаем задачи на алгорим обратного распространения ошибки и пробуем его закодить.
▪week05_neuro_lego Нейросети - конструктор LEGO. Обсуждаем разные слои.
▪week06 Свёрточные сети.
▪week07 Нормализация по батчам, лучшие практики для обучения нейросетей
▪week08 Современные архитектуры свёрточных сетей. Transfer learning.
Мидтёрм
▪week09 Рекурентные нейронные сетки: RNN, LSTM, GRU. Временные ряды.
▪week10 Работа с текстами, введение в NLP, идея эмбедингов: w2v.
▪week11 Автокодировщики: тексты, картинки, нейросети для графов
▪week12 Seq2seq модели. Механизмы внимания. Автопереводчики. Генерация текстов. (25 мая)
▪week13 Разбираемся с трансформерами. (1 июня)
▪week14 Генеративные нейронные сети. (8 июня - ???)
▪week15 Задачи компьютерного зрения + лекция про то, что ботать дальше, чтобы стать клёвым.
📌 Github
@data_analysis_ml
▪week01_intro От регрессии к нейросети.
▪week02_backprop Алгоритм обратного распространения ошибки. 50 оттенков градиентного спуска.
▪week03_matrix_diff Матричное диффириенцирование. Тут я отменил один из семинаров. Его надо возместить.
▪week04_backprop_again Решаем задачи на алгорим обратного распространения ошибки и пробуем его закодить.
▪week05_neuro_lego Нейросети - конструктор LEGO. Обсуждаем разные слои.
▪week06 Свёрточные сети.
▪week07 Нормализация по батчам, лучшие практики для обучения нейросетей
▪week08 Современные архитектуры свёрточных сетей. Transfer learning.
Мидтёрм
▪week09 Рекурентные нейронные сетки: RNN, LSTM, GRU. Временные ряды.
▪week10 Работа с текстами, введение в NLP, идея эмбедингов: w2v.
▪week11 Автокодировщики: тексты, картинки, нейросети для графов
▪week12 Seq2seq модели. Механизмы внимания. Автопереводчики. Генерация текстов. (25 мая)
▪week13 Разбираемся с трансформерами. (1 июня)
▪week14 Генеративные нейронные сети. (8 июня - ???)
▪week15 Задачи компьютерного зрения + лекция про то, что ботать дальше, чтобы стать клёвым.
📌 Github
@data_analysis_ml
👍25🔥5❤4
Курс Data Analysis with Python, Анализ данных на python, коллекция весна 2022 и весна 2023
▪sem01 Тратим полтора часа на то, чтобы запустить анаконду. Вводимся в python, git и делаем import this.
▪sem02 Говорим про циклы, условия, списки, что такое range (концепция генераторов на пальцах).
▪sem03 Говорим про изменяемые и незименяемые типы данных: списки, кортежи, строки и методы работы с ними. Обсуждаем как питон работает с памятью и где можно из-за этого накосячить.
▪sem04 Говорим о функциях и рекурсии. Решаем задачи на циклы и оформляем их в виде функций.
▪sem05 Говорим про словарики и множества
▪sem06 Решаем задачи на словари и множества. Немного говорим про collections.
sem07 Полезный функционал: list comprehension, map, lambda-функции, all, any, max, sorted, lambda внутри них как key и т.п. Мб про operator, collections и itertools
▪sem08 Чтение и запись в файлы. Типы файлов: txt, json, csv, tsv, pickle. Введение в pandas: подгрузили табличку и сделали минимальное её шатание. Сразу забыли про пандас до следующего года. На экзамене им пользоваться нельзя.
▪sem09 Учимся собирать данные, пишем парсеры.
▪sem10 Работа с API
🖥 Github
@data_analysis_ml
▪sem01 Тратим полтора часа на то, чтобы запустить анаконду. Вводимся в python, git и делаем import this.
▪sem02 Говорим про циклы, условия, списки, что такое range (концепция генераторов на пальцах).
▪sem03 Говорим про изменяемые и незименяемые типы данных: списки, кортежи, строки и методы работы с ними. Обсуждаем как питон работает с памятью и где можно из-за этого накосячить.
▪sem04 Говорим о функциях и рекурсии. Решаем задачи на циклы и оформляем их в виде функций.
▪sem05 Говорим про словарики и множества
▪sem06 Решаем задачи на словари и множества. Немного говорим про collections.
sem07 Полезный функционал: list comprehension, map, lambda-функции, all, any, max, sorted, lambda внутри них как key и т.п. Мб про operator, collections и itertools
▪sem08 Чтение и запись в файлы. Типы файлов: txt, json, csv, tsv, pickle. Введение в pandas: подгрузили табличку и сделали минимальное её шатание. Сразу забыли про пандас до следующего года. На экзамене им пользоваться нельзя.
▪sem09 Учимся собирать данные, пишем парсеры.
▪sem10 Работа с API
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤23👍10🔥4