Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.8K subscribers
2.24K photos
111 videos
64 files
4.65K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
💸📊 На сколько просели зарплаты в ИТ в 2024 году?

Благодаря открытым данным с сайта Хабр Карьера мы узнали, какие основные тенденции ждать в зарплатном секторе, и сколько получают ИТ-специалисты сейчас.

🤔 Например, в первом полугодии 2023 года в среднем джунам предлагали 80 тысяч рублей, а спустя год это число упало до 72,5 тысячи рублей.

👉 Остальные данные — в статье
👉 Зеркало
😢17🤔2👍1
📖 ТОП-10 книг о том, как правильно построить карьеру в IT

Хотите преуспеть в IT? Ознакомьтесь с нашим списком лучших книг, которые помогут вам выстроить успешную карьеру в этой динамичной отрасли!

Читать статью, чтобы ознакомиться со всеми книгами 👉 https://proglib.io/sh/glq68BCSKj
🔥3👾2
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️Свежий #дайджест по DS и ML

👾 Ютубер сделал нейронку для предсказания рукописных цифр в Minecraft (см. видео)
Автор ролика рассказывает, что решил использовать архитектуру MLP, а не CNN. Изначально алгоритм был написан на Python с помощью Keras и датасета MNIST. Благодаря mcschematic автор смог экспортировать необходимые веса в Minecraft.

🧡 Вышли JupyterLab 4.2 и Notebook 7.2
Теперь можно управлять рабочими пространствами из JupyterLab с помощью графического интерфейса, также улучшена настройка горячих клавиш и добавлена тема Dark High Contrast.

💩Распознавание капчи при помощи CNN модели
Автор статьи рассказывает о генерации данных с помощью библиотеки captcha, и обучении свёрточной нейронной сети. Материал полезен для начинающих.

💩 Вышла YOLOv.10
Это обновление в линейке моделей YOLO для распознавания объектов в реальном времени. Утверждается, что YOLOv10-B имеет на 46% меньшую задержку и на 25% меньше параметров по сравнению с YOLOv9-C при той же производительности.
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍1
💬 Есть ли среди вас цифровые кочевники?

Вы цифровой кочевник, или диджитал-номад, если, например, работаете на компанию в одной стране, а живёте в другой. Этот статус может быть официальным и давать вам право на специальную визу.

❤️ — да, я
👍 — у меня всё по старинке

#интерактив
👍4811😢3
🤯 Как простая задачка поставила в тупик программистов (и как они из него выбрались)

В 2010 году пользователь Stack Overflow не справился с задачей на собеседовании. Обсуждение способов решения этого задания стало одной из самых популярных тем на платформе.

Об этой истории, а также о способах решения задачи, читайте в нашей статье
👉 Ссылка
👉 Зеркало
👍5
✍️ Что такое критерий Джини и где он используется

Критерий Джини используется для поиска оптимального условия для ветвления в решающем дереве. Это альтернатива энтропии, про которую вы, возможно, слышали чаще.

🔹Критерий Джини рассчитывается для каждого нецелевого признака p. Он отражает вероятность того, что выбранный случайно объект будет классифицирован неправильно. Поэтому наиболее оптимальным признаком для ветвления будет тот, у которого значение Джини наименьшее.

Простой пример

Представьте, что у нас есть данные о студентах, и мы хотим предсказать, сдадут ли они экзамен, основываясь на количестве проведённых за учёбой часов. Вот алгоритм:

1. Собираем данные: количество часов учёбы и целевой признак (сдал экзамен или нет).
2. Мы рассматриваем признак «часы учёбы» для разделения студентов на две группы.
3. Для каждой возможной точки разделения (например, 1 час, 2 часа и т.д.) мы рассчитываем значение Джини для двух подмножеств (студенты, которые учились меньше определённого количества часов, и студенты, которые учились больше).
4. Мы выбираем ту точку разделения, где значение критерия Джини наименьшее, то есть где группы будут наиболее «чистыми» (максимально разделены студенты, сдавшие и не сдавшие экзамен).
👍162
🤖 Итоги недели в мире ИИ и обзоры новых сервисов

У нас вышла новая статья на 📰 по мотивам еженедельной рассылки про последние новости и тенденции в мире ИИ.

Ниже — небольшая выдержка из статьи, а целиком читайте здесь 👈

💬 Новости

🔘OpenAI убрала голос Sky, который слишком сильно напоминал Скарлетт Йоханссон из фильма «Она».
🔘Microsoft представила новое поколение компьютеров Copilot+ PC, в которых все заточено под работу с ИИ — от NPU чипа и полностью переосмысленной Windows 11 до фичи Recall, которая будет запоминать всё, что когда-либо происходило на экране.
🔘Microsoft также представила мультимодальную версию миниатюрной модели Phi-3 Vision, способную работать с изображениями и графиками.

🛠 Инструменты

🔘ComfyUI — мощный и удобный интерфейс для Stable Diffusion.
🔘Ilus — генерирует профессиональные иллюстрации в различных стилях, поддерживает файнтюнинг и экспорт в png/svg.
🔘AI Meme Generator — генерирует мемы по описаниям и ссылкам.

🔍Обзоры

🔘10 лучших приложений для создания ИИ-персонажей — подборка нейронок, специально предназначенных для генерации аватарок и портретов во всевозможных стилях на основе фото.

Вы можете подписаться на email-рассылку здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1😁1
🔥Коллекция Jupyter-ноутбуков с примерами использования Mistral

У команды Mistral есть свой Cookbook — репозиторий, в котором собраны примеры кода с LLM. Вот некоторые:

🔸Базовый Retrieval-augmented generation (RAG)
🔸Работа с эмбеддингами
🔸Система преобразования текста в SQL-запросы с использованием Mistral AI, Neon и LangChain
🔸Использование function calling

🚀 А ещё Mistral выпустила опенсорсную модель Codestral, которая предназначена для работы с кодом.
🐳 Что ж, давайте об актуальном: а вы используете Docker в рабочих проектах?

👍 — использую
👾 — нет

#интерактив
👍94👾47🥰2
🐼💛 Ускоряем Pandas в 50 раз в Colab

Библиотека NVIDIA Rapids cuDF стала доступна по умолчанию в Google Colab. Она способна ускорить работу Pandas, при это вам не нужно вносить никакие изменения в код.

👉 Это колаб-ноутбук с гайдом по новой фиче
6😁2
🐍🎓 Подборка материалов, чтобы выучить Python для позиции DS- или ML-специалиста

▪️Python: основы и применение
Бесплатный курс на Stepik, который охватывает не только само программирование на Python, но и работу с API, скачивание и парсинг HTML, JSON и др.

▪️«Поколение Python»: курс для начинающих
Ещё один бесплатный курс на Stepik, рассчитанный на тех, кто никогда раньше не программировал.

▪️Python от ods.ai
Это онлайн-учебник, который помимо прочего знакомит с Jupyter Notebook. Да и вообще каждая глава довольно неплохо объясняет тему и иллюстрирует её кодом.

▪️Python Tutorial for Beginners (with mini-projects)
Это почти 9-часовое видео, в котором наглядно показываются основные темы программирования на Python. Вот репозиторий к ролику.

▪️Efficient Python Tricks and Tools for Data Scientists
Это онлайн-книга, которая предлагает множество советов и инструментов для эффективного использования Python в области науки о данных.
10
🎦 Прогнозируем результаты российского кинопроката с помощью ML

Как предсказать, окупится ли фильм в прокате? Автор новой статьи предлагает поэкспериментировать на небольшом датасете российского кинопроката, включающем данные с 2004 года. Он построил много моделей и в результате лучшей оказалась CatBoost.

🔗 Читать статью целиком
🔗 Репозиторий с кодом
🔗 Датасет
👍7