Forwarded from Азбука айтишника
📊 Data Science и Big Data: сходства и различия
В нашей статье разложим по полочкам сходства и различия между специализациями Data Science и Big Data.
🌻 Что внутри?
▪️ Термины
▪️ Применение
▪️ Навыки
▪️ Карьерные перспективы
👉 Ссылка на Статью
В нашей статье разложим по полочкам сходства и различия между специализациями Data Science и Big Data.
▪️ Термины
▪️ Применение
▪️ Навыки
▪️ Карьерные перспективы
Please open Telegram to view this post
VIEW IN TELEGRAM
😁3
С проектами найти работу проще, а на ML-собеседованиях это даст вам значительное преимущество. Вот подборка из 5 проектов, которые стоит сделать каждому ML новичку:
Определите, стоит ли давать кредит. Возьмите датасет с Kaggle (например, GiveMeSomeCredit). Сделайте EDA, подготовьте данные, реализуйте базовую модель (логистическую регрессию), затем попробуйте другие: случайный лес, бустинг и т.п. Сравните метрики и презентуйте результаты. Отличный проект для новичков.
Реализуйте классификатор спама. Подготовьте данные: удалите числа, знаки препинания, сделайте стемминг/лемматизацию. Затем постройте словарь и вычислите вероятности. Пример реализации: Naive Bayes на Kaggle. Углубитесь в теорию: вероятностные модели.
Попробуйте развернуть минимальный прод: телеграм-бот или FastAPI. Освойте инструменты для автоматизации пайплайна (AirFlow) и запустите всё в облаке. Для более серьёзных проектов: изучите Docker, Kubernetes, Hadoop, Spark.
Заинтересовали проект, но не знаешь с чего начать? Тогда забирай курс:
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1😁1
Привет, друзья! 👋
Мы готовим статью о распространенных ошибках в карьере программиста и хотели бы услышать ваше мнение! Поделитесь своими мыслями и опытом, и самые полезные советы мы включим в нашу статью. Вот несколько вопросов для вас:
🤔 С какими ошибками в своей карьере программиста вы сталкивались? Как вы их преодолели?
📚 Какие советы вы бы дали начинающим разработчикам, чтобы избежать распространенных ловушек в программировании?
🖥 Что, по вашему мнению, важно учитывать при планировании своей карьеры в IT, чтобы минимизировать сожаления в будущем?
Спасибо за ваше участие! 🚀
Мы готовим статью о распространенных ошибках в карьере программиста и хотели бы услышать ваше мнение! Поделитесь своими мыслями и опытом, и самые полезные советы мы включим в нашу статью. Вот несколько вопросов для вас:
🤔 С какими ошибками в своей карьере программиста вы сталкивались? Как вы их преодолели?
📚 Какие советы вы бы дали начинающим разработчикам, чтобы избежать распространенных ловушек в программировании?
🖥 Что, по вашему мнению, важно учитывать при планировании своей карьеры в IT, чтобы минимизировать сожаления в будущем?
Спасибо за ваше участие! 🚀
👍1😁1
Какие действия предпримешь, при эвакуации?
🔥 — Радикально и эффективно
😁 — Запущу антивирус 80-го уровня
🌚 — Активирую режим «ничего не видел, ничего не знаю»
#memes
😁 — Запущу антивирус 80-го уровня
#memes
Please open Telegram to view this post
VIEW IN TELEGRAM
🌚9😁2🔥1
Forwarded from Библиотека задач по Data Science | тесты, код, задания
✍️ Воскресный разбор задач
Сегодня разберём вопрос про зависимость смещения и дисперсии от параметра lambda в линейной регрессии с регуляризацией.
🔹Регуляризация — это способ добавить к модели дополнительное ограничение на вектор весов. Обычно для этого используются L1- и L2-нормы. Их смысл заключается в добавлении к формуле линейной регрессии регуляризационного члена, который состоит из суммы весов, умноженной на lambda — коэффициент регуляризации.
Нетрудно догадаться, что lambda довольно сильно влияет на качество итогового решения. Если этот параметр, например, равен 1, то мы не прибавляем к формуле ничего кроме суммы весов, а если он равен 10, то прибавка, соответственно, становится десятикратной суммой весов.
👀 А теперь, держа это знание в голове, подумаем: что будет со смещением и дисперсией, когда мы увеличиваем lambda?
Напомним, смещение — это матожидание разности между истинным значением и тем, что было выдано моделью. Дисперсия — это разброс ответов модели, то есть мера того, насколько эти ответы варьируются в зависимости от данных.
Если мы прибавляем к ответу модели сумму весов, да ещё и умноженную на 10, то матожидание между этим ответом и истинным значением, конечно, станет больше. То есть смещение увеличится. Но при этом модель будет, вероятно, лучше обобщать данные, и её дисперсия уменьшится. Поэтому стоит помнить, что что слишком большое значение lambda может привести к тому, что модель начнёт недообучаться.
#разбор_задач
Сегодня разберём вопрос про зависимость смещения и дисперсии от параметра lambda в линейной регрессии с регуляризацией.
🔹Регуляризация — это способ добавить к модели дополнительное ограничение на вектор весов. Обычно для этого используются L1- и L2-нормы. Их смысл заключается в добавлении к формуле линейной регрессии регуляризационного члена, который состоит из суммы весов, умноженной на lambda — коэффициент регуляризации.
Нетрудно догадаться, что lambda довольно сильно влияет на качество итогового решения. Если этот параметр, например, равен 1, то мы не прибавляем к формуле ничего кроме суммы весов, а если он равен 10, то прибавка, соответственно, становится десятикратной суммой весов.
👀 А теперь, держа это знание в голове, подумаем: что будет со смещением и дисперсией, когда мы увеличиваем lambda?
Если мы прибавляем к ответу модели сумму весов, да ещё и умноженную на 10, то матожидание между этим ответом и истинным значением, конечно, станет больше. То есть смещение увеличится. Но при этом модель будет, вероятно, лучше обобщать данные, и её дисперсия уменьшится. Поэтому стоит помнить, что что слишком большое значение lambda может привести к тому, что модель начнёт недообучаться.
#разбор_задач
Топ 5 книг для начинающих программистов
Делимся книгами для начинающих программистов, чтобы начать свой путь в IT.
Делимся книгами для начинающих программистов, чтобы начать свой путь в IT.
👍3
Онлайн-курс «Frontend Basic: принцип работы современного вебас нуля до первого интернет-магазина»
Курс от Proglib.academy, который подойдет разработчикам так и начинающим в IT
⭐ Стек который вы узнаете:
HTML / CSS / REACT / GIT / JAVASCRIPT
🌻 А что будет после обучения?
После обучения вы:
1️⃣ Сверстаете свой первый адаптивный макет с учетом семантики и множества декоративных элементов на HTML и CSS
2️⃣ Научитесь работать в связке JavaScript, HTML и CSS.
3️⃣ Поймете, как с помощью JavaScript разрабатывать пользовательские интерфейсы
4️⃣ Разберетесь как JavaScript используется в работе с Backend и создадите проект: обмен данными сервером
5️⃣ Углубитесь в более сложную разработку на React. js и напишете интернет магазин
➡️ Какой формат обучения?
Изучите основы Frontend'а вместе с нашим курсом:
🔵 Frontend Basic: принцип работы современного веба
Курс от Proglib.academy, который подойдет разработчикам так и начинающим в IT
HTML / CSS / REACT / GIT / JAVASCRIPT
После обучения вы:
Обучение проходит в формате видео-лекций и текстовых конспектов. Также нашим студентам важны домашние задания и обратная связь
Изучите основы Frontend'а вместе с нашим курсом:
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
Продолжение прошлого поста:
Начни с изучения задач ранжирования и примеров в интернете.
Основные подходы: поточечный, попарный, списочный. Рекомендуем начать с поточечного.
Будем предсказывать оценку релевантности для запросов тестового датасета. Попутно можно научиться парсить и собирать сырые данные, размечая их в Яндекс.Толока. Попробуй регрессию, затем Random Forest, XGBoost, LightGBM, CatBoost. Продвинутым можно поэкспериментировать с языковыми моделями: FastText, Word2Vec, BERT.
Очень актуальная задача. Начни с простых подходов: content-based рекомендации, KNN. Затем попробуй факторизацию матриц через SVD или ALS. Для продвинутых: W2V, DSSM, SasRec/Bert4Rec, MultVAE, графовые нейронки (GCN), обучение с подкреплением (многорукие бандиты). Рекомендации можно также рассматривать как задачу ранжирования.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
👨💼 Профессия системного аналитика в 2024 году: что нужно знать и где учиться
Освоить эту профессию непросто. Порог входа довольно высок, да и изучить придется немало. Однако, если разработчик не хочет идти в тимлиды или становиться менеджером, системная аналитика — перспективный вариант дальнейшей карьеры.
Рассматриваешь вариант стать системным аналитиком, тогда забирай курс:
🔵 Математика для Data Science
🔗 Статья
Освоить эту профессию непросто. Порог входа довольно высок, да и изучить придется немало. Однако, если разработчик не хочет идти в тимлиды или становиться менеджером, системная аналитика — перспективный вариант дальнейшей карьеры.
Рассматриваешь вариант стать системным аналитиком, тогда забирай курс:
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
👨💼 Молодая профессия: всё о бизнес-аналитике
Работа бизнес-аналитика высоко оплачивается, имеет массу перспектив и востребована на рынке труда. Специалисты в этой области помогают устранять проблемы на предприятиях, повышают их репутацию и делают конкурентоспособными на рынке.
В статье на Proglib разбираемся, какие задачи выполняет бизнес-аналитик, какие навыки ему необходимы и как этому обучиться.
👉 Читать статью
Работа бизнес-аналитика высоко оплачивается, имеет массу перспектив и востребована на рынке труда. Специалисты в этой области помогают устранять проблемы на предприятиях, повышают их репутацию и делают конкурентоспособными на рынке.
В статье на Proglib разбираемся, какие задачи выполняет бизнес-аналитик, какие навыки ему необходимы и как этому обучиться.
👉 Читать статью
👍3
✏️ Вопрос с реального собеседования по Python
В чем разница между «is» и «==»?
is проверяет идентичность, а == проверяет равенство.
Создайте несколько списков и назначьте им имена. Обратите внимание, что ниже b указывает на тот же объект, что и a:
Проверьте равенство и обратите внимание, что все объекты равны:
Но являются ли все они идентичными? Нет:
Можем проверить это, распечатав их идентификаторы объектов:
#собес_academy
В чем разница между «is» и «==»?
is проверяет идентичность, а == проверяет равенство.
Создайте несколько списков и назначьте им имена. Обратите внимание, что ниже b указывает на тот же объект, что и a:
a = [1,2,3]
b = a
c = [1,2,3]
Проверьте равенство и обратите внимание, что все объекты равны:
print(a == b)
print(a == c)
#=> True
#=> True
Но являются ли все они идентичными? Нет:
print(a is b)
print(a is c)
#=> True
#=> False
Можем проверить это, распечатав их идентификаторы объектов:
print(id(a))
print(id(b))
print(id(c))
#=> 4369567560
#=> 4369567560
#=> 4369567624
#собес_academy
👍5
📌 Простая истина от наших подписчиков
Продолжаем раскрывать прошлую тему: что вы считаете наиболее важным для успешного старта в IT-сфере:
«Интерес, быть с ПК на «Ты» (любовь), английский (чтение лит-ры), умение гуглить (без этого все пропало) и способность к самообучению. И самое главное старт в нужном месте»
«Высокая обучаемость. Уделять побольше времени саморазвитию,В сфере IT. Следить за новостями в данной области»
«Должны учить сеньоры работающие, знающие современный стек. Показывать примеры реальных проектов»
«Умение искать и обрабатывать большое количество информации, находить помощь сообщества или коллег в тупиковых ситуациях»
Продолжаем раскрывать прошлую тему: что вы считаете наиболее важным для успешного старта в IT-сфере:
«Интерес, быть с ПК на «Ты» (любовь), английский (чтение лит-ры), умение гуглить (без этого все пропало) и способность к самообучению. И самое главное старт в нужном месте»
«Высокая обучаемость. Уделять побольше времени саморазвитию,В сфере IT. Следить за новостями в данной области»
«Должны учить сеньоры работающие, знающие современный стек. Показывать примеры реальных проектов»
«Умение искать и обрабатывать большое количество информации, находить помощь сообщества или коллег в тупиковых ситуациях»
Мнения разделились, но стоит учитывать все советы☝️
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
Forwarded from Библиотека собеса по Data Science | вопросы с собеседований
🧑💻 Какие вопросы задать интервьюеру на собеседовании?
Это полезный репозиторий, в котором собраны советы по «обратному собеседованию».В конце концов, не только вы должны отвечать на вопросы во время интервью.
▪️Что спросить о должностных обязанностях?
▪️Как узнать больше про используемые технологии?
▪️Что выяснить про будущих коллег?
▪️Какие вопросы задать про условия работы?
🔗 Список вопросов находится по этой ссылке
Это полезный репозиторий, в котором собраны советы по «обратному собеседованию».
▪️Что спросить о должностных обязанностях?
▪️Как узнать больше про используемые технологии?
▪️Что выяснить про будущих коллег?
▪️Какие вопросы задать про условия работы?
🔗 Список вопросов находится по этой ссылке
👍4
Что такое Бустинг в машинном обучении
Бустинг — это один из мощных методов повышения качества моделей машинного обучения. Его цель — объединение нескольких слабых моделей (обычно простых алгоритмов) для создания одной сильной модели, которая улучшает точность предсказаний.
🌻 Как это работает?
▪️ Итеративное обучение: Модели обучаются поочередно. Каждая следующая модель стремится исправить ошибки предыдущей
▪️ Вес ошибок: Большое внимание уделяется тем данным, на которых предыдущие модели ошибались. Это позволяет концентрироваться на сложных для предсказания примерах
▪️ Комбинирование результатов: Финальный результат формируется путем взвешенного объединения предсказаний всех моделей
🌻 Когда использовать?
Бустинг особенно полезен, когда базовые алгоритмы не дают нужной точности. Например, он широко применяется в задачах классификации и регрессии, а также на соревнованиях по анализу данных, таких как Kaggle
В нашем курсе узнаете подробнее о машинном обучении, в частности, о бустинге:
🔵 Базовые модели ML и приложения
#машинное_обучение
Бустинг — это один из мощных методов повышения качества моделей машинного обучения. Его цель — объединение нескольких слабых моделей (обычно простых алгоритмов) для создания одной сильной модели, которая улучшает точность предсказаний.
▪️ Итеративное обучение: Модели обучаются поочередно. Каждая следующая модель стремится исправить ошибки предыдущей
▪️ Вес ошибок: Большое внимание уделяется тем данным, на которых предыдущие модели ошибались. Это позволяет концентрироваться на сложных для предсказания примерах
▪️ Комбинирование результатов: Финальный результат формируется путем взвешенного объединения предсказаний всех моделей
Бустинг особенно полезен, когда базовые алгоритмы не дают нужной точности. Например, он широко применяется в задачах классификации и регрессии, а также на соревнованиях по анализу данных, таких как Kaggle
В нашем курсе узнаете подробнее о машинном обучении, в частности, о бустинге:
#машинное_обучение
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
✏️ Разбор задачи с экзамена ШАД
Условие: На пространстве многочленов от переменной x с вещественными коэффициентами задано скалярное произведение 1️⃣. Найдите длину ортогональной проекции многочлена 2️⃣ на линейную оболочку многочленов 3️⃣
Решение: Пусть 4️⃣ Коэффициенты a1, a2 в разложении 5️⃣ находятся из условия ортогональности 6️⃣
Ответ: 6️⃣
#задачи_шад
Условие: На пространстве многочленов от переменной x с вещественными коэффициентами задано скалярное произведение 1️⃣. Найдите длину ортогональной проекции многочлена 2️⃣ на линейную оболочку многочленов 3️⃣
Решение: Пусть 4️⃣ Коэффициенты a1, a2 в разложении 5️⃣ находятся из условия ортогональности 6️⃣
Ответ: 6️⃣
#задачи_шад
👍2