✏️ Подборка актуальных стажировок по анализу данных на осень 2024
🔹 Young&Yandex
Сроки подачи заявки: набор идет круглый год
Особые условия: скорее всего не будет удалёнки, стажировку можно пройти в офисах Яндекса в Москве, Санкт-Петербурге, Екатеринбурге, Сочи, Новосибирске и Нижнем Новгороде
🔹 Ozon Camp
Сроки подачи заявки: набор откроется осенью 2024
Особые условия: кроме скрининга и тестового, нужно написать мотивационное письмо, локация - Москва
🔹 WB техношкола, курс-стажировка по направлению Дата Сайенс от Wildberries
Сроки подачи заявки: набор открыт
Особые условия: неоплачиваемая стажировка, 3 месяца. Лучших студентов, которые пройдут все этапы и защитят итоговый проект, пригласят на работу в Wildberries
🔹 Sber Seasons
Сроки подачи заявки: набор откроется в сентябре 2024
Особые условия: нужно быть действующим студентом очной формы обучения
🔹 Т-банк Старт
Сроки подачи заявки: до 16 сентября 2024 включительно
Особые условия: занятость от 20 часов в неделю
Вакансии для стажёров:
МТС Старт
Сбер
AlfaStudents от Альба банка
Ставьте 🔥, если было полезно! Желаем удачи в поисках стажировки 🫶
🔹 Young&Yandex
Сроки подачи заявки: набор идет круглый год
Особые условия: скорее всего не будет удалёнки, стажировку можно пройти в офисах Яндекса в Москве, Санкт-Петербурге, Екатеринбурге, Сочи, Новосибирске и Нижнем Новгороде
🔹 Ozon Camp
Сроки подачи заявки: набор откроется осенью 2024
Особые условия: кроме скрининга и тестового, нужно написать мотивационное письмо, локация - Москва
🔹 WB техношкола, курс-стажировка по направлению Дата Сайенс от Wildberries
Сроки подачи заявки: набор открыт
Особые условия: неоплачиваемая стажировка, 3 месяца. Лучших студентов, которые пройдут все этапы и защитят итоговый проект, пригласят на работу в Wildberries
🔹 Sber Seasons
Сроки подачи заявки: набор откроется в сентябре 2024
Особые условия: нужно быть действующим студентом очной формы обучения
🔹 Т-банк Старт
Сроки подачи заявки: до 16 сентября 2024 включительно
Особые условия: занятость от 20 часов в неделю
Вакансии для стажёров:
МТС Старт
Сбер
AlfaStudents от Альба банка
Ставьте 🔥, если было полезно! Желаем удачи в поисках стажировки 🫶
🔥46❤🔥7❤4👍1
Автор нашего канала Рома Васильев дал интервью для новой рубрики канале Карьера в Data | LEFT JOIN — Завтра в Data
В мини-интервью можно узнать про первую работу Романа, подводные камни в профессии и как развиваться в Data новичку 🙂
В мини-интервью можно узнать про первую работу Романа, подводные камни в профессии и как развиваться в Data новичку 🙂
👍5❤3🤩2
Forwarded from LEFT JOIN Insider
Завтра в Data №1: от анализа данных при продаже кумыса до руководителя международной аналитики
Запускаем новую рубрику, где расскажем об экспертах в сфере Data — об их крутых проектах, пройденном пути и накопленном опыте.
🔜 Гость пилотного выпуска — Роман Васильев, руководитель международной аналитики «Яндекс Поиск».
Автор Telegram-каналов Start Career in DS и я так понимаю, Роман Васильев.
О чем это интервью?
🔵 Как развиваться в Data новичку: университет, курсы или самостоятельное обучение.
🔵 О факторах, влияющих на успех в сфере.
🔵 О подводных камнях в работе.
🔵 Что читать и смотреть, чтобы развиваться в Data (ссылки оставили в комментариях).
Все подробности — в карточках 🔥
А задать любые интересующие вопросы Роману можно в комментариях!
🔜 @leftjoin_career
Запускаем новую рубрику, где расскажем об экспертах в сфере Data — об их крутых проектах, пройденном пути и накопленном опыте.
Автор Telegram-каналов Start Career in DS и я так понимаю, Роман Васильев.
О чем это интервью?
Все подробности — в карточках 🔥
А задать любые интересующие вопросы Роману можно в комментариях!
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥19🔥3❤2😁1
🔎 Аналитик данных и data scientist — в чём разница?
Data Science это совокупность различных дисциплин. Термином data scientist работодатели в описании вакансий обозначают большой спектр навыков и задач: работа в Excel, написание скриптов в SQL, визуализация данных, а/б тесты, создание рекомендательных систем, создание систем компьютерного зрения и тд.
Мы предлагаем поделить профессии согласно схеме на картинке по 3 параметрам: domain (сфера бизнеса, экспертные знания), math (метрики, ав-тесты, математизация процессов), dev (разработка, технические инструменты). Разберем три самые распространенные направления:
▪️ ML Engineer — сконцентрирован на построении моделей машинного обучения.
Глубоко разбирается в своём направлении с точки зрения техники, изучает статьи по нужной тематике, спокойно может реализовывать новые подходы
▪️ Data Analyst — работает на стыке бизнеса и данных.
Разбирается в доменной области, проводит исследования на данных, разрабатывает дашборды и сетапит АВ-тесты. Как правило, не погружается глубоко в технические задачи
▪️ Data Engineer — управляет потоками данных.
Эти ребята, как правило, отвечают за потоки данных: настраивают процессы обновления витрин, следят за полнотой доезжающих данных, пишут сложные Data-пайплайны.
Но важно понимать, что от компании к компании роли могут меняться кардинально.
Где-то Data Analyst может строить модели, а где-то ML-инженеров припрягают разбираться в бизнес-проблемах 🙂
Хорошие материалы на поизучать:
- Видео Валерия Бабушкина, в котором он рассказывает про напрввления в Data Science
- Статья Евгения Смирнова на Хабре, в которой он пишет про то, что нужно спросить у работодателя на собеседовании, в том числе про роль дата сайентиста в компании
Data Science это совокупность различных дисциплин. Термином data scientist работодатели в описании вакансий обозначают большой спектр навыков и задач: работа в Excel, написание скриптов в SQL, визуализация данных, а/б тесты, создание рекомендательных систем, создание систем компьютерного зрения и тд.
Мы предлагаем поделить профессии согласно схеме на картинке по 3 параметрам: domain (сфера бизнеса, экспертные знания), math (метрики, ав-тесты, математизация процессов), dev (разработка, технические инструменты). Разберем три самые распространенные направления:
▪️ ML Engineer — сконцентрирован на построении моделей машинного обучения.
Глубоко разбирается в своём направлении с точки зрения техники, изучает статьи по нужной тематике, спокойно может реализовывать новые подходы
▪️ Data Analyst — работает на стыке бизнеса и данных.
Разбирается в доменной области, проводит исследования на данных, разрабатывает дашборды и сетапит АВ-тесты. Как правило, не погружается глубоко в технические задачи
▪️ Data Engineer — управляет потоками данных.
Эти ребята, как правило, отвечают за потоки данных: настраивают процессы обновления витрин, следят за полнотой доезжающих данных, пишут сложные Data-пайплайны.
Но важно понимать, что от компании к компании роли могут меняться кардинально.
Где-то Data Analyst может строить модели, а где-то ML-инженеров припрягают разбираться в бизнес-проблемах 🙂
Хорошие материалы на поизучать:
- Видео Валерия Бабушкина, в котором он рассказывает про напрввления в Data Science
- Статья Евгения Смирнова на Хабре, в которой он пишет про то, что нужно спросить у работодателя на собеседовании, в том числе про роль дата сайентиста в компании
❤22👍9
📊 Метрики качества в задаче мультиклассовой классификации [2/2]
🎯 Расширяя ваш кругозор в решении задачи мультиклассовой классификации из первой части, сегодня поговорим про то, как в подобных задачах правильно оценивать качество работы нашей модели.
☑️ Метрики, используемые для оценки качества модели в задачах с множеством классов, никак не отличаются от задачи с бинарными метками: все также используется Accuracy, Recall, Precision, F1-measure, ROC-AUC.
Однако, из-за наличия нескольких классов меняется подход к их расчету, где существует: micro-усреднение, macro-усреднение и weighted-усреднение.
Разберем каждый по порядку:
1. Micro-average:
Означает долю верных срабатываний по всем классам, что аналогично метрике accuracy. Потому micro-усреднение любой метрики будет выдавать одинаковое значение равное accuracy.
Подходит, когда важно общее количество правильных предсказаний без учета дисбаланса классов.
2. Macro-average:
Вычисляет конкретную метрику, например, recall для каждого класса отдельно и затем берет среднее арифметическое, что и будет финальной величиной метрики по macro-усреднению. Работает аналогично для любой другой метрики классификации.
Подходит для оценки производительности модели одинаково по всем классам, независимо от дисбаланса классов в датасете.
3. Weighted-average:
Также вычисляет целевую метрику для каждого класса отдельно, как в п.2, но усреднение происходит по взвешенному способу, в зависимости от количества объектов в каждом классе.
Применяется, когда классы несбалансированы и важно учесть их численность в итоговой оценке.
❗️Чтобы поменять подход к расчету метрики в sklearn, требуется использовать параметр average (default="binary"), передав в него один из следующих аргументов {‘micro’, ‘macro’, ‘samples’, ‘weighted’, ‘binary’}:
📚 В каких местах ещё можно погрузиться в эту тему:
- База по метрикам в любых задачах, включая по multiclass, от ЯндексУчебника
- Отличная визуализация принципов усреднения различных F-мер для нескольких классов
- Про все разновидности метрик классификации читай тут
- Очень доступное объяснение на русском языке для новичков на YouTube
- Обширная лекция по метрикам качества в многоклассовой задаче
Ставьте ❤️ и 🔥 если данная информация была вам полезна!
Пишите свои комментарии и вопросы под постом👇
🎯 Расширяя ваш кругозор в решении задачи мультиклассовой классификации из первой части, сегодня поговорим про то, как в подобных задачах правильно оценивать качество работы нашей модели.
☑️ Метрики, используемые для оценки качества модели в задачах с множеством классов, никак не отличаются от задачи с бинарными метками: все также используется Accuracy, Recall, Precision, F1-measure, ROC-AUC.
Однако, из-за наличия нескольких классов меняется подход к их расчету, где существует: micro-усреднение, macro-усреднение и weighted-усреднение.
Разберем каждый по порядку:
1. Micro-average:
Означает долю верных срабатываний по всем классам, что аналогично метрике accuracy. Потому micro-усреднение любой метрики будет выдавать одинаковое значение равное accuracy.
Подходит, когда важно общее количество правильных предсказаний без учета дисбаланса классов.
2. Macro-average:
Вычисляет конкретную метрику, например, recall для каждого класса отдельно и затем берет среднее арифметическое, что и будет финальной величиной метрики по macro-усреднению. Работает аналогично для любой другой метрики классификации.
Подходит для оценки производительности модели одинаково по всем классам, независимо от дисбаланса классов в датасете.
3. Weighted-average:
Также вычисляет целевую метрику для каждого класса отдельно, как в п.2, но усреднение происходит по взвешенному способу, в зависимости от количества объектов в каждом классе.
Применяется, когда классы несбалансированы и важно учесть их численность в итоговой оценке.
❗️Чтобы поменять подход к расчету метрики в sklearn, требуется использовать параметр average (default="binary"), передав в него один из следующих аргументов {‘micro’, ‘macro’, ‘samples’, ‘weighted’, ‘binary’}:
from sklearn.metrics import precision_score
y_true = [0, 1, 2, 0, 1, 2]
y_pred = [0, 2, 1, 0, 0, 1]
precision_score(y_true, y_pred, average='macro’)
# Output: 0.22...
📚 В каких местах ещё можно погрузиться в эту тему:
- База по метрикам в любых задачах, включая по multiclass, от ЯндексУчебника
- Отличная визуализация принципов усреднения различных F-мер для нескольких классов
- Про все разновидности метрик классификации читай тут
- Очень доступное объяснение на русском языке для новичков на YouTube
- Обширная лекция по метрикам качества в многоклассовой задаче
Ставьте ❤️ и 🔥 если данная информация была вам полезна!
Пишите свои комментарии и вопросы под постом👇
❤23❤🔥5🔥4👍2
🧑🏫 Как найти ментора?
Менторство это отличный способ развития и прокачки скиллов в короткие сроки. В комментах к посту про карьерные консультации вы спрашивали про менторство. Самый быстрый способ найти ментора — специальные сервисы для поиска менторов:
Getmentor Выбираете специалиста в каталоге и оставляете заявку. Есть бесплатные и платные менторы. 2000+ специалистов из Авито, Яндекса, Google и других компаний.
Solvery.io Бесплатных менторов нет, но нижняя граница прайса около 2000 рублей. Есть бесплатное тестовое занятие на 15 минут, чтобы познакомиться с ментором и есть помощь в подборе ментора.
Эйч Гораздо меньше менторов, чем в первых двух сервисах, но тоже можно найти того самого. Бесплатных менторов нет, но есть помощь в подборе ментора.
Самостоятельный поиск ментора. Если сервисы для поиска вам не по душе, то менторов можно искать в соц сетях. Например, многие спецы ведут каналы/блоги и одновременно занимаются менторством. Такой способ имеет преимущество — можно заочно и бесплатно познакомиться с человеком через его контент.
▪️LinkedIn. Соц сеть подходит как для поиска работы, так и для поиска ментора. Можно увидеть места работы, стек, почитать посты и понять подходит вам человек ли нет.
▪️Telegram. Обращайте внимание на небольшие тг каналы от специалистов из индустрии. Часто такие блоги создаются для личного использования, но их авторы могут быть ценными специалистами, с которыми можно попробовать договориться о менторстве.
💡Бонус — если учитесь в хорошем техническом университете, можно найти ментора среди студентов старших курсов. Старшекурсники часто обладают значительными знаниями и готовы поделиться опытом.
Также можно искать ментора на офлайн/онлайн митапах, на вашей текущей работе, на форумах, и тд
Ставьте ❤️ и делитесь своими лайфхаками по поиску ментора в комментариях 👇
Менторство это отличный способ развития и прокачки скиллов в короткие сроки. В комментах к посту про карьерные консультации вы спрашивали про менторство. Самый быстрый способ найти ментора — специальные сервисы для поиска менторов:
Getmentor Выбираете специалиста в каталоге и оставляете заявку. Есть бесплатные и платные менторы. 2000+ специалистов из Авито, Яндекса, Google и других компаний.
Solvery.io Бесплатных менторов нет, но нижняя граница прайса около 2000 рублей. Есть бесплатное тестовое занятие на 15 минут, чтобы познакомиться с ментором и есть помощь в подборе ментора.
Эйч Гораздо меньше менторов, чем в первых двух сервисах, но тоже можно найти того самого. Бесплатных менторов нет, но есть помощь в подборе ментора.
Самостоятельный поиск ментора. Если сервисы для поиска вам не по душе, то менторов можно искать в соц сетях. Например, многие спецы ведут каналы/блоги и одновременно занимаются менторством. Такой способ имеет преимущество — можно заочно и бесплатно познакомиться с человеком через его контент.
▪️LinkedIn. Соц сеть подходит как для поиска работы, так и для поиска ментора. Можно увидеть места работы, стек, почитать посты и понять подходит вам человек ли нет.
▪️Telegram. Обращайте внимание на небольшие тг каналы от специалистов из индустрии. Часто такие блоги создаются для личного использования, но их авторы могут быть ценными специалистами, с которыми можно попробовать договориться о менторстве.
💡Бонус — если учитесь в хорошем техническом университете, можно найти ментора среди студентов старших курсов. Старшекурсники часто обладают значительными знаниями и готовы поделиться опытом.
Также можно искать ментора на офлайн/онлайн митапах, на вашей текущей работе, на форумах, и тд
Ставьте ❤️ и делитесь своими лайфхаками по поиску ментора в комментариях 👇
❤27🔥6😁3👍2❤🔥1
🤗 Hugging Face Hub и библиотека transformers: что стоит знать и как лучше использовать
🤖 Сегодня поговорим про Hugging Face Hub и библиотеку transformers, которую в первую очередь стоит использовать при работе с ML-моделями основанными на архитектуре Transformer. Об этих моделях рассказывали тут и тут.
💯Ключевые особенности библиотеки transformers:
1. Разнообразие моделей на Hugging Face Hub:
Огромное количество предобученных моделей на базе архитектуры Transformer: BERT, LLaMA, T5, ViT, LLaVA и много других, доступных "из коробки" на HF-Hub.
2. Мультимодальность, многозадачность и доступность
- Поддержка моделей, работающих не только с текстом (генерация, классификация, перевод), но и с другими модальностями: таблицами, изображениями, звуком и др.
- Возможность выбора модели подходящего размера для каждой модальности и задачи в зависимости от доступных вычислительных ресурсов.
3. Простота использования
Загрузка и применение моделей может быть выполнено буквально в несколько строк кода:
4. Поддержка различных фреймворков и инструментов
- Поддержка PyTorch, TensorFlow, и JAX.
- Возможность дообучать модели на своих данных и под свою задачу, используя дополнительные Hugging Face библиотеки datasets и trl.
- Возможность оптимизировать обучение модели через библиотеки accelerate, peft и др.
5. Бесплатные ресурсы и обучающие курсы
Разработчики библиотеки очень активно развивает работу с open-source, включая бесплатные обучающие материалы и курсы для коммьюнити.
6. Работа со Spaces
Также Hugging Face позволяет разработчикам использовать бесплатные мощности для создания LLM-driven приложений в интернете.
А недавно в рамках программы ZeroGPU команда выделила ресурсы для предоставления доступа разработчикам к GPU за очень выгодную стоимость.
🔝Основные ссылки:
- Маршрутизация по Hugging Face Hub
- Документация Hub'a
- Курс от Hugging Face по NLP на русском
- Туториал по работе с библиотекой и Hugging Face Hub'ом
Попробуйте добавить свои преимущества использования библиотеки transformers в комментарии!
Ставьте ❤️ и 🔥 если этот пост был полезным!
🤖 Сегодня поговорим про Hugging Face Hub и библиотеку transformers, которую в первую очередь стоит использовать при работе с ML-моделями основанными на архитектуре Transformer. Об этих моделях рассказывали тут и тут.
💯Ключевые особенности библиотеки transformers:
1. Разнообразие моделей на Hugging Face Hub:
Огромное количество предобученных моделей на базе архитектуры Transformer: BERT, LLaMA, T5, ViT, LLaVA и много других, доступных "из коробки" на HF-Hub.
2. Мультимодальность, многозадачность и доступность
- Поддержка моделей, работающих не только с текстом (генерация, классификация, перевод), но и с другими модальностями: таблицами, изображениями, звуком и др.
- Возможность выбора модели подходящего размера для каждой модальности и задачи в зависимости от доступных вычислительных ресурсов.
3. Простота использования
Загрузка и применение моделей может быть выполнено буквально в несколько строк кода:
# Простой пример с анализом настроения текста
!pip install -q transformers
from transformers import pipeline
classifier = pipeline("sentiment-analysis")
result = classifier("I love machine learning!")
print(result)
4. Поддержка различных фреймворков и инструментов
- Поддержка PyTorch, TensorFlow, и JAX.
- Возможность дообучать модели на своих данных и под свою задачу, используя дополнительные Hugging Face библиотеки datasets и trl.
- Возможность оптимизировать обучение модели через библиотеки accelerate, peft и др.
5. Бесплатные ресурсы и обучающие курсы
Разработчики библиотеки очень активно развивает работу с open-source, включая бесплатные обучающие материалы и курсы для коммьюнити.
6. Работа со Spaces
Также Hugging Face позволяет разработчикам использовать бесплатные мощности для создания LLM-driven приложений в интернете.
А недавно в рамках программы ZeroGPU команда выделила ресурсы для предоставления доступа разработчикам к GPU за очень выгодную стоимость.
🔝Основные ссылки:
- Маршрутизация по Hugging Face Hub
- Документация Hub'a
- Курс от Hugging Face по NLP на русском
- Туториал по работе с библиотекой и Hugging Face Hub'ом
Попробуйте добавить свои преимущества использования библиотеки transformers в комментарии!
Ставьте ❤️ и 🔥 если этот пост был полезным!
❤🔥17❤7🔥6👍3
📊 Обзор библиотек для визуализации данных
🔘 Matplotlib
Одна из самых старых и широко используемых библиотек. Позволяет создавать и отображать почти любой график, но для сложной визуализации потребуется больше кода, чем в продвинутых библиотеках.
[eng]Matplotlib Crash Course, видео курс
🔘 Seaborn
Библиотека основана на Matplotlib и с ней можно создать специфическую визуализацию: тепловые карты, временные ряды и скрипичные диаграммы. Плюс по умолчанию диаграммы более визуально приятные.
Подробный гайд по Seaborn
🔘 Plotly
Умеет создавать графики и диаграммы аналогичные Matplotlib и Seaborn. Плюс позволяет создавать интерактивные визуализации данных — пользователи могут масштабировать, перемещать графики, кликать на элементы и всячески взаимодействовать с графиками.
Шпаргалка по Plotly для начинающих
🔘 Bokeh
Базируется на JavaScript-библиотеке D3.js и поддерживает создание интерактивных и динамических визуализаций, позволяет масштабировать, перемещать, выделять и аннотировать элементы. Графики можно легко интегрировать в веб-страницы.
[eng] Гайд по использованию Bokeh
🔘 Dash
Пстроена на базе Plotly, позволяет создавать интерактивные дашборды, используя только код Python.
Подробный обзор библиотеки на Хабре
Дополнительно:
- Библиотеки с нестандартными стялями визуализации
- Полезная статья с базовыми правилами - как создавать понятные и эффективные визуализации
Не забываем, что визуализация должна быть не только красивой и интерактивной, но и полезной. Основная цель графиков — донести мысль)
Ждем ❤️ и 🔥! И рассказывайте в комментариях про ваш опыт работы с библиотеками по визуализации!
🔘 Matplotlib
Одна из самых старых и широко используемых библиотек. Позволяет создавать и отображать почти любой график, но для сложной визуализации потребуется больше кода, чем в продвинутых библиотеках.
[eng]Matplotlib Crash Course, видео курс
🔘 Seaborn
Библиотека основана на Matplotlib и с ней можно создать специфическую визуализацию: тепловые карты, временные ряды и скрипичные диаграммы. Плюс по умолчанию диаграммы более визуально приятные.
Подробный гайд по Seaborn
🔘 Plotly
Умеет создавать графики и диаграммы аналогичные Matplotlib и Seaborn. Плюс позволяет создавать интерактивные визуализации данных — пользователи могут масштабировать, перемещать графики, кликать на элементы и всячески взаимодействовать с графиками.
Шпаргалка по Plotly для начинающих
🔘 Bokeh
Базируется на JavaScript-библиотеке D3.js и поддерживает создание интерактивных и динамических визуализаций, позволяет масштабировать, перемещать, выделять и аннотировать элементы. Графики можно легко интегрировать в веб-страницы.
[eng] Гайд по использованию Bokeh
🔘 Dash
Пстроена на базе Plotly, позволяет создавать интерактивные дашборды, используя только код Python.
Подробный обзор библиотеки на Хабре
Дополнительно:
- Библиотеки с нестандартными стялями визуализации
- Полезная статья с базовыми правилами - как создавать понятные и эффективные визуализации
Не забываем, что визуализация должна быть не только красивой и интерактивной, но и полезной. Основная цель графиков — донести мысль)
Ждем ❤️ и 🔥! И рассказывайте в комментариях про ваш опыт работы с библиотеками по визуализации!
❤35🔥16👍3
📝 Как составлять промпты для нейросетей
🖋️ Основные техники написания промптов:
◾️Zero-shot подход. Запрос без специфики, без дополнительных данных и без примеров ответа, подразумевается короткий ответ, часто просто положительный или отрицательный
◾️One-shot и few-shot подходы. Запрос должен быть четким и конкретным, должен содержать контекст и детали + один или более пример ответа
◾️Chain-of-thought подход ❗️ Запрос содержит вопрос и пример ответа с описанием процесса как прийти к этому ответу. Буквально нужно описать ход своих мыслей
❗️В новой модели OpenAI серии o1 не требуется использовать подход CoT. Модели o1 ‘обдумывают’ ответ и могут создавать длинную внутреннюю цепочку рассуждений, прежде чем одать ответ.
В промптах этих моделей сдедует писать запрос просто и коротко, и избегать промптов в виде цепочки мыслей (так как модель делает это сама). Подробнее про новую модельммодно почитать тут.
🔍 Гайды для промптинга:
[eng]Prompt engineering guide - гайд от Open AI
Руководство по промпт-инжинирингу - подробный гайд с описанием
техник и примерами применения
[eng]Prompt Engineering Guide - гайд от простого к сложному, подойдет для новичков и для продвинутых пользователей
🧠 Идеи использования нейросетей в жизни:
👉 Найти ошибку в коде: просто даем код и просим найти ошибку или добавляем контекста и возможные варианты ошибок
👉 Создать задачи для отработки навыков написания кода или sql запросов: Создай задачи на закрепления материала по теме joins in postgre sql
👉 Объяснить простыми словами методы/техники: написать объяснение работы метода tostring в numpy, с примерами кода и задачами для закрепления материала
👉 Создать scv датасет: создай csv датасет - 40 рядов и 5 столбцов, датасет содержит данные клиентов сети фитнес клубов
👉 Брейншторм идей: запрос на генерацию списков по теме мозгового штурма
Ставтье 🔥 и делитесь в комментариях для чего вы используете нейросети в работе и в жизни 🙌
🖋️ Основные техники написания промптов:
◾️Zero-shot подход. Запрос без специфики, без дополнительных данных и без примеров ответа, подразумевается короткий ответ, часто просто положительный или отрицательный
◾️One-shot и few-shot подходы. Запрос должен быть четким и конкретным, должен содержать контекст и детали + один или более пример ответа
◾️Chain-of-thought подход ❗️ Запрос содержит вопрос и пример ответа с описанием процесса как прийти к этому ответу. Буквально нужно описать ход своих мыслей
❗️В новой модели OpenAI серии o1 не требуется использовать подход CoT. Модели o1 ‘обдумывают’ ответ и могут создавать длинную внутреннюю цепочку рассуждений, прежде чем одать ответ.
В промптах этих моделей сдедует писать запрос просто и коротко, и избегать промптов в виде цепочки мыслей (так как модель делает это сама). Подробнее про новую модельммодно почитать тут.
🔍 Гайды для промптинга:
[eng]Prompt engineering guide - гайд от Open AI
Руководство по промпт-инжинирингу - подробный гайд с описанием
техник и примерами применения
[eng]Prompt Engineering Guide - гайд от простого к сложному, подойдет для новичков и для продвинутых пользователей
🧠 Идеи использования нейросетей в жизни:
👉 Найти ошибку в коде: просто даем код и просим найти ошибку или добавляем контекста и возможные варианты ошибок
👉 Создать задачи для отработки навыков написания кода или sql запросов: Создай задачи на закрепления материала по теме joins in postgre sql
👉 Объяснить простыми словами методы/техники: написать объяснение работы метода tostring в numpy, с примерами кода и задачами для закрепления материала
👉 Создать scv датасет: создай csv датасет - 40 рядов и 5 столбцов, датасет содержит данные клиентов сети фитнес клубов
👉 Брейншторм идей: запрос на генерацию списков по теме мозгового штурма
Ставтье 🔥 и делитесь в комментариях для чего вы используете нейросети в работе и в жизни 🙌
🔥37❤5👍2😁1
🦾Классический ML – база: справочник основных алгоритмов
🆙 Сегодня будем разговорить про основу основ – про существующие алгоритмы машинного обучения в рамках ключевого справочника, к которому вы сможете обратиться, если что-то вдруг забыли.
1️⃣ Линейные модели:
- Две части разбора алгоритма линейной регрессии и подготовка к собеседованиям по теме данной теме на нашем YouTube-канале: Ч.1 и Ч.2
- Про основы линейной регрессии читайте тут.
- Как насчет вспомнить работу логистической регрессии? Читайте подробный обзор про LogReg на Хабре.
- Также разберите особенности и принципы работы алгоритма "метод опорных векторов" на пальцах. В данном алгоритме есть ключевой гиперпараметр - kernel. С ним можете познакомиться по этой ссылке.
❗️Почитать про линейные модели от Яндекс Учебника можете тут либо изучить мини-курс по линейным моделям от ODS.
2️⃣ Деревья и их ансамбли:
- Понять работу решающих деревьев, на котором строятся самые сильные ансамбли, можете тут. Также для визуалов смотрите ML-Course про деревья и их ансамбли на ODS. Документация и объяснение работы решающих деревьев из scikit-learn.
- Разобраться, как работает случайный лес (RandomForest), можете, изучив следующие материалы: ML для начинающих с разбором RandomForest, про Бутстрэп и Бэггинг и документация scikit-learn.
- Бустим свои знания о градиентном бустинге. Также читаем статью "Градиентный бустинг - просто о сложном".
❗️Дополнительно:
- Про построение всех ансамблей в ML от Яндекс Учебника.
- Особенности алгоритмов CatBoost и LightGBM - статья на Хабре.
- Сравнение всех 3-х алгоритмов градиентного бустинга [ENG].
- Случайный лес в Spark ML.
3️⃣ Временные ряды:
- Хорошая статья про анализ временных рядом.
- Познакомиться с решением задачи временных рядов можно в статье на Яндекс Учебнике.
- Качественный вводный курс по ключевым моментам в задаче временных рядов.
- Модели вида ARIMA.
- Используем statsmodels для временных рядов или пробуем предсказать будущее с помощью библиотеки Prophet.
4️⃣ Кластеризация:
- Избыточный гайд по кластеризации в ML c теорией и практикой
- Кластеризация на Яндекс Учебнике
- Обзор всех методов кластеризации на scikit-learn
- Метод локтя - или как правильно выбирать количество кластеров
- Оценка качества кластеризации - полная статья на Хабре
🔥Курсы и доп. материалы:
- Осенний курс по всем ML-моделям от ODS
- Курс на GitHub с множеством русскоязычных ресурсов по всем темам Data Science и Machine Learning
- Старый, но всегда полезный курс Евгения Соколова по машинному обучению, выложенный на GitHub
- Англо-говорящим рекомендуется от ODS
☝️Помните: глубокое понимание каждого ML-алгоритма +1 к вашему спокойствию на следующем собесе!
🔝Не стесняйтесь в комментариях предлагать ресурсы и материалы, которыми вы пользуетесь!
Ставьте ❤️ и 🔥 за активный труд нашей команды!
🆙 Сегодня будем разговорить про основу основ – про существующие алгоритмы машинного обучения в рамках ключевого справочника, к которому вы сможете обратиться, если что-то вдруг забыли.
1️⃣ Линейные модели:
- Две части разбора алгоритма линейной регрессии и подготовка к собеседованиям по теме данной теме на нашем YouTube-канале: Ч.1 и Ч.2
- Про основы линейной регрессии читайте тут.
- Как насчет вспомнить работу логистической регрессии? Читайте подробный обзор про LogReg на Хабре.
- Также разберите особенности и принципы работы алгоритма "метод опорных векторов" на пальцах. В данном алгоритме есть ключевой гиперпараметр - kernel. С ним можете познакомиться по этой ссылке.
❗️Почитать про линейные модели от Яндекс Учебника можете тут либо изучить мини-курс по линейным моделям от ODS.
2️⃣ Деревья и их ансамбли:
- Понять работу решающих деревьев, на котором строятся самые сильные ансамбли, можете тут. Также для визуалов смотрите ML-Course про деревья и их ансамбли на ODS. Документация и объяснение работы решающих деревьев из scikit-learn.
- Разобраться, как работает случайный лес (RandomForest), можете, изучив следующие материалы: ML для начинающих с разбором RandomForest, про Бутстрэп и Бэггинг и документация scikit-learn.
- Бустим свои знания о градиентном бустинге. Также читаем статью "Градиентный бустинг - просто о сложном".
❗️Дополнительно:
- Про построение всех ансамблей в ML от Яндекс Учебника.
- Особенности алгоритмов CatBoost и LightGBM - статья на Хабре.
- Сравнение всех 3-х алгоритмов градиентного бустинга [ENG].
- Случайный лес в Spark ML.
3️⃣ Временные ряды:
- Хорошая статья про анализ временных рядом.
- Познакомиться с решением задачи временных рядов можно в статье на Яндекс Учебнике.
- Качественный вводный курс по ключевым моментам в задаче временных рядов.
- Модели вида ARIMA.
- Используем statsmodels для временных рядов или пробуем предсказать будущее с помощью библиотеки Prophet.
4️⃣ Кластеризация:
- Избыточный гайд по кластеризации в ML c теорией и практикой
- Кластеризация на Яндекс Учебнике
- Обзор всех методов кластеризации на scikit-learn
- Метод локтя - или как правильно выбирать количество кластеров
- Оценка качества кластеризации - полная статья на Хабре
🔥Курсы и доп. материалы:
- Осенний курс по всем ML-моделям от ODS
- Курс на GitHub с множеством русскоязычных ресурсов по всем темам Data Science и Machine Learning
- Старый, но всегда полезный курс Евгения Соколова по машинному обучению, выложенный на GitHub
- Англо-говорящим рекомендуется от ODS
☝️Помните: глубокое понимание каждого ML-алгоритма +1 к вашему спокойствию на следующем собесе!
🔝Не стесняйтесь в комментариях предлагать ресурсы и материалы, которыми вы пользуетесь!
Ставьте ❤️ и 🔥 за активный труд нашей команды!
❤65🔥26👍12❤🔥1
📚Deep Learning: теоретический справочник по базовым концепциям
🔥Предыдущий пост в виде справочника по Machine Learning обрадовал нас вашей реакцией, и поэтому хотим сделать аналогичную подборку для изучения Deep Learning.
1️⃣ Введение в Deep Learning:
- Знакомство с полносвязанными нейронными сетями на Яндекс Учебнике
- Лекция от Нейчева Радослава по «Введению в нейронные сети»
- Поверхностное погружение в глубинное обучение
- Русский перевод «Что же такое нейронная сеть» от 3Blue1Brown на YouTube
- Как обучаются нейронные сети или про метод обратного распространения ошибки
- Видео на YouTube про градиентный спуск в нейронных сетях
2️⃣ Функции активации:
- Статья на Хабре про самые распространенные функции активации и как выбрать подходящую для вашей задачи
- Статья с разбором основных функций активаций
- Видео-обзор на YouTube про функции активации нейронных сетей с практикой
3️⃣ Оптимизаторы в нейронных сетях:
- Принципы работы оптимизаторов - объяснение на пальцах
- Методы оптимизации в Deep Learning от Яндекс Учебника
- Наиболее распространенные методы оптимизации с математическим объяснением для более продвинутых
- Optimizers for Neural Networks на Medium
4️⃣ Регуляризация глубоких нейронных сетей:
- Про инициализацию весов в нейронных сетях и виды регуляризации на Яндекс Учебнике
- Dropout - как метод решения проблемы переобучения нейронных сетей
- Что такое Weight Decay - простой объяснение на LinkedIn
- Огромная презентация с подробным объяснением методов регуляризации в нейронных сетях
5️⃣ Нормализация в нейронных сетях:
- Про все виды нормализации в нейронных сетях на Medium
- Что такое Batch Normalization
- Доступное объяснение нормализации в нейронных сетях на русском
- RMSNorm на GitHub
📌 Что ещё:
- Ответы на интересные вопросы нашего квиза по Deep Learning
- С этих постов можно начать изучение LLM - тут, тут и тут
- Пост про ТОП-вопросов из собеседований по NLP
- Самый популярный фреймворк для любой работы с нейронными сетями PyTorch и статья на Хабре о его возможностях
- Бесплатный курс видео-лекций по Deep Learning от Сергея Балакирева на YouTube
- Курс с лекциями от преподавателей МФТИ, начиная с Введения в Deep Learning и заканчивая более продвинутыми темами
- Немного практики для новичков
- Краткий курс по нейронным сетям в виде большой статьи на Хабре
- Книга с теорией + практика в Jupyter-ноутбуках: Understanding Deep Learning
Ставьте ❤️ и 🔥 если ждете подобные справочники и материалы для изучения Computer Vision и NLP!
Делитесь своими ресурсами в комментариях!
До встречи👋
🔥Предыдущий пост в виде справочника по Machine Learning обрадовал нас вашей реакцией, и поэтому хотим сделать аналогичную подборку для изучения Deep Learning.
1️⃣ Введение в Deep Learning:
- Знакомство с полносвязанными нейронными сетями на Яндекс Учебнике
- Лекция от Нейчева Радослава по «Введению в нейронные сети»
- Поверхностное погружение в глубинное обучение
- Русский перевод «Что же такое нейронная сеть» от 3Blue1Brown на YouTube
- Как обучаются нейронные сети или про метод обратного распространения ошибки
- Видео на YouTube про градиентный спуск в нейронных сетях
2️⃣ Функции активации:
- Статья на Хабре про самые распространенные функции активации и как выбрать подходящую для вашей задачи
- Статья с разбором основных функций активаций
- Видео-обзор на YouTube про функции активации нейронных сетей с практикой
3️⃣ Оптимизаторы в нейронных сетях:
- Принципы работы оптимизаторов - объяснение на пальцах
- Методы оптимизации в Deep Learning от Яндекс Учебника
- Наиболее распространенные методы оптимизации с математическим объяснением для более продвинутых
- Optimizers for Neural Networks на Medium
4️⃣ Регуляризация глубоких нейронных сетей:
- Про инициализацию весов в нейронных сетях и виды регуляризации на Яндекс Учебнике
- Dropout - как метод решения проблемы переобучения нейронных сетей
- Что такое Weight Decay - простой объяснение на LinkedIn
- Огромная презентация с подробным объяснением методов регуляризации в нейронных сетях
5️⃣ Нормализация в нейронных сетях:
- Про все виды нормализации в нейронных сетях на Medium
- Что такое Batch Normalization
- Доступное объяснение нормализации в нейронных сетях на русском
- RMSNorm на GitHub
📌 Что ещё:
- Ответы на интересные вопросы нашего квиза по Deep Learning
- С этих постов можно начать изучение LLM - тут, тут и тут
- Пост про ТОП-вопросов из собеседований по NLP
- Самый популярный фреймворк для любой работы с нейронными сетями PyTorch и статья на Хабре о его возможностях
- Бесплатный курс видео-лекций по Deep Learning от Сергея Балакирева на YouTube
- Курс с лекциями от преподавателей МФТИ, начиная с Введения в Deep Learning и заканчивая более продвинутыми темами
- Немного практики для новичков
- Краткий курс по нейронным сетям в виде большой статьи на Хабре
- Книга с теорией + практика в Jupyter-ноутбуках: Understanding Deep Learning
Ставьте ❤️ и 🔥 если ждете подобные справочники и материалы для изучения Computer Vision и NLP!
Делитесь своими ресурсами в комментариях!
До встречи👋
❤62🔥27👍10🤩1