Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📖 ТОП-10 книг о том, как правильно построить карьеру в IT

Хотите преуспеть в IT? Ознакомьтесь с нашим списком лучших книг, которые помогут вам выстроить успешную карьеру в этой динамичной отрасли!

Читать статью, чтобы ознакомиться со всеми книгами 👉 https://proglib.io/sh/glq68BCSKj

🔥3👾2

2.13K views07:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️Свежий #дайджест по DS и ML

👾

Ютубер сделал нейронку для предсказания рукописных цифр в Minecraft

(см. видео)

Автор ролика рассказывает, что решил использовать архитектуру MLP, а не CNN. Изначально алгоритм был написан на Python с помощью Keras и датасета MNIST. Благодаря mcschematic автор смог экспортировать необходимые веса в Minecraft.

🧡

Вышли JupyterLab 4.2 и Notebook 7.2
Теперь можно управлять рабочими пространствами из JupyterLab с помощью графического интерфейса, также улучшена настройка горячих клавиш и добавлена тема Dark High Contrast.

💩

Распознавание капчи при помощи CNN модели
Автор статьи рассказывает о генерации данных с помощью библиотеки captcha, и обучении свёрточной нейронной сети. Материал полезен для начинающих.

💩

Вышла YOLOv.10
Это обновление в линейке моделей YOLO для распознавания объектов в реальном времени. Утверждается, что YOLOv10-B имеет на 46% меньшую задержку и на 25% меньше параметров по сравнению с YOLOv9-C при той же производительности.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👍1

3.36K views12:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💬 Есть ли среди вас цифровые кочевники?

Вы цифровой кочевник, или диджитал-номад, если, например, работаете на компанию в одной стране, а живёте в другой. Этот статус может быть официальным и давать вам право на специальную визу.

❤️ — да, я
👍 — у меня всё по старинке

#интерактив

👍48❤11😢3

3.07K views18:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤯 Как простая задачка поставила в тупик программистов (и как они из него выбрались)

В 2010 году пользователь Stack Overflow не справился с задачей на собеседовании. Обсуждение способов решения этого задания стало одной из самых популярных тем на платформе.

Об этой истории, а также о способах решения задачи, читайте в нашей статье
👉 Ссылка
👉 Зеркало

👍5

39.5K views07:09

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

✍️ Что такое критерий Джини и где он используется

Критерий Джини используется для поиска оптимального условия для ветвления в решающем дереве. Это альтернатива энтропии, про которую вы, возможно, слышали чаще.

🔹Критерий Джини рассчитывается для каждого нецелевого признака p. Он отражает вероятность того, что выбранный случайно объект будет классифицирован неправильно. Поэтому наиболее оптимальным признаком для ветвления будет тот, у которого значение Джини наименьшее.

✅ Простой пример

Представьте, что у нас есть данные о студентах, и мы хотим предсказать, сдадут ли они экзамен, основываясь на количестве проведённых за учёбой часов. Вот алгоритм:

1. Собираем данные: количество часов учёбы и целевой признак (сдал экзамен или нет).
2. Мы рассматриваем признак «часы учёбы» для разделения студентов на две группы.
3. Для каждой возможной точки разделения (например, 1 час, 2 часа и т.д.) мы рассчитываем значение Джини для двух подмножеств (студенты, которые учились меньше определённого количества часов, и студенты, которые учились больше).
4. Мы выбираем ту точку разделения, где значение критерия Джини наименьшее, то есть где группы будут наиболее «чистыми» (максимально разделены студенты, сдавшие и не сдавшие экзамен).

👍16❤2

3.15K views18:08

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека нейрокартинок | Midjourney, DALL-E, Stable Diffusion

🤖

Итоги недели в мире ИИ и обзоры новых сервисов

У нас вышла новая статья на 📰 по мотивам еженедельной рассылки про последние новости и тенденции в мире ИИ.

Ниже — небольшая выдержка из статьи, а целиком читайте здесь 👈

💬

Новости

🔘OpenAI убрала голос Sky, который слишком сильно напоминал Скарлетт Йоханссон из фильма «Она».
🔘Microsoft представила новое поколение компьютеров Copilot+ PC, в которых все заточено под работу с ИИ — от NPU чипа и полностью переосмысленной Windows 11 до фичи Recall, которая будет запоминать всё, что когда-либо происходило на экране.
🔘Microsoft также представила мультимодальную версию миниатюрной модели Phi-3 Vision, способную работать с изображениями и графиками.

🛠 Инструменты

🔘

ComfyUI — мощный и удобный интерфейс для Stable Diffusion.

🔘

Ilus — генерирует профессиональные иллюстрации в различных стилях, поддерживает файнтюнинг и экспорт в png/svg.

🔘

AI Meme Generator — генерирует мемы по описаниям и ссылкам.

🔍

Обзоры

🔘

10 лучших приложений для создания ИИ-персонажей — подборка нейронок, специально предназначенных для генерации аватарок и портретов во всевозможных стилях на основе фото.

➡

Вы можете подписаться на email-рассылку здесь

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1😁1

2.78K views07:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔥Коллекция Jupyter-ноутбуков с примерами использования Mistral

У команды Mistral есть свой Cookbook — репозиторий, в котором собраны примеры кода с LLM. Вот некоторые:

🔸Базовый Retrieval-augmented generation (RAG)
🔸Работа с эмбеддингами
🔸Система преобразования текста в SQL-запросы с использованием Mistral AI, Neon и LangChain
🔸Использование function calling

🚀 А ещё Mistral выпустила опенсорсную модель Codestral, которая предназначена для работы с кодом.

3.89K views11:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🐳 Что ж, давайте об актуальном: а вы используете Docker в рабочих проектах?

👍 — использую
👾 — нет

#интерактив

👍94👾47🥰2

3.3K views18:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🐼💛 Ускоряем Pandas в 50 раз в Colab

Библиотека NVIDIA Rapids cuDF стала доступна по умолчанию в Google Colab. Она способна ускорить работу Pandas, при это вам не нужно вносить никакие изменения в код.

👉 Это колаб-ноутбук с гайдом по новой фиче

Google

rapids-cudf-pandas-accelerator-mode.ipynb

Colab notebook

❤6😁2

3.43K views07:11

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🐍🎓 Подборка материалов, чтобы выучить Python для позиции DS- или ML-специалиста

▪️Python: основы и применение
Бесплатный курс на Stepik, который охватывает не только само программирование на Python, но и работу с API, скачивание и парсинг HTML, JSON и др.

▪️«Поколение Python»: курс для начинающих
Ещё один бесплатный курс на Stepik, рассчитанный на тех, кто никогда раньше не программировал.

▪️Python от ods.ai
Это онлайн-учебник, который помимо прочего знакомит с Jupyter Notebook. Да и вообще каждая глава довольно неплохо объясняет тему и иллюстрирует её кодом.

▪️Python Tutorial for Beginners (with mini-projects)
Это почти 9-часовое видео, в котором наглядно показываются основные темы программирования на Python. Вот репозиторий к ролику.

▪️Efficient Python Tricks and Tools for Data Scientists
Это онлайн-книга, которая предлагает множество советов и инструментов для эффективного использования Python в области науки о данных.

❤10

3.59K views18:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🎦 Прогнозируем результаты российского кинопроката с помощью ML

Как предсказать, окупится ли фильм в прокате? Автор новой статьи предлагает поэкспериментировать на небольшом датасете российского кинопроката, включающем данные с 2004 года. Он построил много моделей и в результате лучшей оказалась CatBoost.

🔗 Читать статью целиком
🔗 Репозиторий с кодом
🔗 Датасет

👍7

2.95K views07:16

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Proglib.academy | IT-курсы

💵 ТОП-15 самых востребованных профессий в ИТ: куда все катится в 2024 году

Мы часто обсуждаем зарплаты айтишников в России. Однако не стоит забывать про США, ведь это страна — мечта для многих программистов. В этой статье расскажем, сколько зарабатывают айтишники в США.

Вкатываться в айти в 2024 году однозначно стоит. Только в США базовые зарплаты всех ИТ-специалистов в США выросли на 2,6%, — спрос на квалифицированных ИТ-специалистов остаётся высоким.

🔗 Читать статью
🔗 Зеркало

🔥4🥱3

2.62K views18:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

✍️ Illustrated Machine Learning

Это сайт с визуальными объяснениями различных концепций машинного обучения. Там можно найти иллюстрации на следующие темы:

▫️Введение в машинное обучение
▫️Линейная регрессия
▫️Логистическая регрессия
▫️Деревья решений
▫️Бэггинг и бустинг
▫️Кластеризация
▫️Нейронные сети и глубокое обучение и др.

🔗 Ссылка на сайт

🤩11

3.41K views07:07

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

👾 Чем KAN отличается от MLP?

Недавно исследователи из MIT выпустили статью с описанием альтернативы многослойному перцептрону (MLP). Её назвали KAN — Kolmogorov-Arnold Networks.

Идея, которая лежит в основе новой архитектуры, простая — давайте попробуем переместить функции активации с нейронов на рёбра нейросети. Но что это означает?

✅ Для начала давайте вспомним, как вообще работает MLP. Такой сети подаются входы — ваши данные — а она делает выходы, то есть какие-то целевые значения. В процессе обучения нейросеть пытается найти функцию, обобщающую связь между входами и выходами. В классическом многослойном перцептроне поиск функции идёт на линейных слоях, где входы умножаются на веса ребёр. В каждом нейроне также находится функция активации, которая определяет выход нейрона на основе суммированного взвешенного входа.

MLP полагается на теорему Цыбенко, которая доказывает, что нейросеть может аппроксимировать любую непрерывную функцию. KAN же полагается на другую теорему — Колмогорова-Арнольда.

🪅 Эта теорема доказывает, что аппроксимация непрерывной ограниченной функции от множества переменных сводится к нахождению полиномиального числа одномерных функций. Так, если в MLP функции активации статические и необучаемые, то в KAN они перемещаются на рёбра и могут адаптироваться в процессе обучения, действуя как веса и функции активации одновременно.

❤ Исследователи утверждают, что KAN нужно меньше нейронов, чтобы достичь точности MLP. Кроме того, такие сети более интерпретируемы.

Please open Telegram to view this post

VIEW IN TELEGRAM

🤩6👍5❤4🤔3

3.03K views18:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🚀 Ускоряем код для DS

На сайте Pythonspeed можно найти множество гайдов по ускорению различных процессов при обработке данных.

Вот примеры статей:

🔹Когда ваши данные не помещаются в память: основные техники
🔹Почему Polars использует меньше памяти, чем Pandas
🔹Уменьшение использования памяти NumPy за счет сжатия без потерь
🔹Самый быстрый способ прочитать CSV в Pandas
🔹Оптимизация алгоритма локальной медианной пороговой обработки изображения

🔗 Ссылка на список статей

👍11

3.08K views07:13

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🐼 Как создавать сводные (pivot) таблицы в Pandas

Сводная таблица позволяет организовать большие объёмы информации в удобный для восприятия вид. Она группирует данные по выбранным категориям и вычисляет агрегированные значения.

Новое руководство на Real Python подробно рассказывает, как создавать сводные таблицы в Pandas. Оно охватывает следующие аспекты:
▫️Создание первой сводной таблицы;
▪️Вычисление нескольких значений в сводной таблице;
▫️Выполнение продвинутых агрегаций;
▪️Использование .groupby() и crosstab().

🔗 Читать статью

👍7

2.99K views18:05

About

Blog

Apps

Platform