Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.7K subscribers
2.25K photos
113 videos
64 files
4.66K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
💰 Распределение зарплат в DS

Таблицу предоставил Виктор Кантор, работавший Chief Data Scientist в МТС. Данные он собрал благодаря опросу в своём Telegram-канале.

Кантор напомнил, что при переходе на какой-то грейд, скорее всего, вы будете в нижней части распределения по зарплате.
👍7🌚3
🔋Hard & Soft skills для дата-сайентиста

Рассмотрим необходимые скиллы для начинающего Data Science специалиста в карточках.👆

Ознакомьтесь со скиллами для Data Science, а также вы можете забрать наши курсы:
🔵 Базовые модели ML и приложения
🔵 Математика для Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍1
Привет, друзья! 👋

Мы готовим статью о важных soft skills для сеньоров, тимлидов и других старших IT-специалистов. Нам очень интересно узнать ваше мнение! Поделитесь своими мыслями, ответив на следующие вопросы:

Какой из перечисленных soft skills вы считаете самым важным для успешной работы в IT? 🤔

- Умение говорить «нет» 🚫
- Давать конструктивный фидбэк 💬
- Брать на себя ответственность 💪
- Общаться с токсичными людьми 🧘
- Доводить процессы до завершения
- Организовывать эффективные совещания 📊
- Импровизировать на публике 🎭
- Сохранять спокойствие в сложных ситуациях 😌

Какой дополнительный soft skill вы бы добавили в этот список? 🆕
Как вы развиваете свои soft skills? 📈

Поделитесь своими мыслями и опытом в комментариях! Самые интересные идеи и предложения мы обязательно включим в нашу статью. Спасибо за участие! 🙏
🔥4
👾🎮 «ИИ и игры» — новая бесплатная книга

Книга «Искусственный интеллект и игры (2-е издание)» авторов Георгиоса Н. Яннакакиса и Джулиана Тогелиуса посвящена применению методов ИИ в игровой индустрии. Она охватывает основные аспекты использования искусственного интеллекта для создания и анализа видеоигр, а также для повышения качества взаимодействия пользователей с игрой.

🔗 Скачать можно по этой ссылке
2
😺 Как работает Catboost кодирование категориальных переменных

CatBoost — это алгоритм машинного обучения, используйющий градиентный бустинг над решающими деревьями. Он поддерживает работу как с числовыми признаками, так и с категориальными (то есть теми, которые выражены как строковые значения или набор ограниченных значений).

Когда речь идет о категориальных признаках, CatBoost автоматически преобразует их в числовые, используя несколько методов. Основные этапы этого процесса включают:

1️⃣ Перемешивание данных:
Набор данных перемешивается в случайном порядке, чтобы избежать зависимости от порядка объектов.

2️⃣ Преобразование меток:
Значения меток преобразуются из числовых с плавающей точкой в целые числа, что упрощает дальнейшие вычисления.

3️⃣ Использование различных методов кодирования (метод определяется стартовыми параметрами):

▪️Borders, то есть вычисление среднего значения целевой переменной для каждой корзины данных.
▪️Bucket, или вычисление среднего для всех корзин.
▪️BinarizedTargetMeanValue. Этот метод использует средние значения целевых переменных, бинаризованных по некоторому порогу.
▪️Counter. В этом методе для каждой уникальной категории вычисляется количество объектов.

В результате каждому значению категориального признака присваивается числовой признак.
4👍3🥱3
🤗 Вышло обновление библиотеки Transformers

В версии v4.44.0 появилось следующее:

🧡 Сквозная компиляция для метода model.generate, что позволяет улучшить производительность генерации текста с использованием предобученных моделей;

🧡 Ускорение процесса компиляции в 3-5 раз;

🧡 Возможность выгружать кэш на процессор (CPU), что особенно полезно, если у вас ограниченные ресурсы GPU;

🧡 Поддержка Gemma 2, Codestral и Nemotron.

🔗 В подробностях можно почитать здесь
🔥62
📖 Обзор книги "Программирование на Python с помощью GitHub Copilot и ChatGPT", Портер Л., Зингаро Д.

Направление: #proglib_python
Уровень: #proglib_junior

Это практическое руководство помогает разработчикам использовать передовые инструменты искусственного интеллекта для создания качественного кода. Книга охватывает ключевые аспекты Python и показывает, как GitHub Copilot и ChatGPT могут изменить и улучшить процесс программирования.

💬 Что говорят люди:

Книга произвела сильное впечатление на читателей благодаря новому предлагаемому подходу к обучению ращработке на Python с помощью искусственного интеллекта. Многие отмечают, что использование ИИ-инструментов существенно облегчает процесс написания кода и ускоряет работу. Однако некоторые читатели испытывают трудности с непредсказуемым поведением Copilot и считают, что написать код "вручную" быстрее.

Плюсы

- Книга отлично подходит для новичков, помогая им быстрее освоить язык программирования с использованием ИИ.
- В книге представлено множество полезных примеров и упражнений, которые делают процесс обучения удобнее и эффективнее.
- Описание новейших технологий и их применение делают книгу ценной для современных разработчиков.
- Книга помогает понять, как ИИ меняет правила игры и может изменить процесс программирования, делая его более эффективным.

Минусы

- Некоторые читатели сталкиваются с проблемами при использовании Copilot, отмечая его непредсказуемость и трудности с установкой.
- Некоторые разделы могут показаться сложными для тех, кто только начинает изучать программирование.

🖊 Об авторах

Лео Портер — профессор, преподаватель Калифорнийского университета, специалист в области компьютерных наук и искусственного интеллекта.
Даниэль Зингаро — доцент, преподаватель Университета Торонто. Автор популярных книг “Алгоритмы на практике” и “Python без проблем”.

Книга: Ссылка
🥱3👍2🤔21😁1
✍️ Feature engineering от A до Z

Это справочник по всем методам отбора и создания признаков.

Каждая глава описывает определённый метод с примерами кода на R и Python.

🔗 Ссылка на справочник
👍6🤩5
📚🤖 Подборка книг по ИИ

▪️Machine Learning For Network Traffic and Video Quality Analysis

Книга начинается с углубления в NTMA, объяснения фундаментальных концепций и обзора существующих приложений и исследований в этой области

▪️Атлас искусственного интеллекта: руководство для будущего

Кейт Кроуфорд — старший научный сотрудник Microsoft, профессор Калифорнийского университета — предлагает нам книгу-исследование, обращая наше внимание на темную сторону успеха и скрытые издержки искусственного интеллекта.

▪️Машинное обучение доступным языком

Относительно небольшое руководство для новичков в машинном обучении. Автор раскрывает базовые понятия, концепции, рассказывает об инструментах и приводит примеры кода. Каждая глава — новый рассказ о том, как разрабатывать модели на базе различных данных

▪️Как учится машина

В книге Лекун делится своим научным подходом на стыке компьютерных наук и нейробиологии, помогая читателю яснее представить будущее ИИ, а также связанные с ним проблемы и перспективы

▪️ Создаём нейронную сеть

Книга — введение в теорию и практику создания нейронных сетей. Автор поэтапно описывает создание функционального кода на языке Python.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥51👍1
📊 Как начинающий Data Scientist может заработать на фрилансе?

Хотите начать карьерный путь в Data Science в качестве фрилансера? В нашей статье подготовили для вас 8 простых шагов: от регистрации на платформе до обустройства рабочего места.

🔗 Статья
Media is too big
VIEW IN TELEGRAM
👾👀 Как работает архитектура Transformer

Исследователи опубликовали Transformer Explainer — интерактивный инструмент визуализации, который помогает понять, как работают модели на основе Transformer (такие как GPT).

▪️Инструмент запускает GPT-2 прямо в вашем браузере,
▪️Позволяет экспериментировать с текстом и в реальном времени наблюдать, как взаимодействуют внутренние компоненты Transformer.

👉 Попробовать можно по этой ссылке
👉 А это ссылка на репозиторий проекта
8👍3
🔎 «Как я разработал собственную рекомендательную систему вакансий c hh.ru, и почему вам это тоже может пригодиться»

Автор статьи на «Хабре» рассказывает, как создавал систему поиска IT-вакансий.

Система работает в три этапа:

▪️Получение списка вакансий через API сайта и сохранение их в базе данных.
▪️Получение полного текста каждой вакансии через API и сохранение в БД.
▪️Локальный анализ данных различными методами.

Все подробности можно прочесть по этой ссылке

🔗 Ссылка на репозиторий с кодом проекта
14
🫖 tea-tasting — библиотека для статистического анализа A/B-тестов

Это новая библиотека, которая:

▪️поддерживает такие методы, как t-тест Стьюдента, Bootstrap, CUPED и др.;
▪️может работать с широким спектром хранилищ данных, таких как BigQuery, ClickHouse, PostgreSQL, Snowflake, Spark, Pandas;
▪️позволяет определять собственные метрики.

🔗 Ссылка на репозиторий tea-tasting
👏15👍6