Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.7K subscribers
2.25K photos
113 videos
64 files
4.66K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
✍️ Реализация методов масштабирования признаков

Условие: Напишите функцию, которая выполняет масштабирование признаков, используя как стандартизацию, так и нормализацию min-max. Функция должна принимать на вход 2D массив NumPy, где каждая строка представляет образец данных, а каждый столбец — признак. Она должна возвращать два 2D массива NumPy: один, масштабированный с помощью стандартизации, а другой — с нормализацией min-max. Все результаты должны быть округлены до четырёх знаков после запятой.

Пример:

вход: data = np.array([[1, 2], [3, 4], [5, 6]])
выход: ([[-1.2247, -1.2247], [0.0, 0.0], [1.2247, 1.2247]], [[0.0, 0.0], [0.5, 0.5], [1.0, 1.0]])

Решение: смотрите на картинке выше👆
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🎉3
📖 От Кнута до Седжвика: классика алгоритмической литературы

Обзор лучших книг по алгоритмам для программистов всех уровней. От иллюстрированных пособий для начинающих до фундаментальных трудов для экспертов.

🔗 Читать подборку
🎉5👍4
cookbook.pdf
642.4 KB
✍️ Гайд по тензорам

Эта небольшая книжка из 50 страниц исчерпывающе расскажет обо всём, что связано с тензорами.

Тензор — это обобщающий термин для матриц с произвольным количеством измерений. Тензорами являются и скаляры (тензор нулевого ранга), и векторы (тензор первого ранга), и матрицы (тензор второго ранга).

🔗 Ссылка на сайт The Tensor Cookbook
10
Привет, друзья! 👋

Мы готовим статью о самых странных и уникальных дистрибутивах Linux, и нам нужно ваше мнение! 🤔💬

1️⃣ Какой самый необычный дистрибутив Linux вы когда-либо пробовали? Почему он вас удивил?

2️⃣ Есть ли у вас советы для новичков, которые только начинают работать с Linux? 🐧

Поделитесь своими идеями в комментариях! Самые интересные идеи и предложения мы обязательно включим в нашу статью. Спасибо за участие! 🙌
👍1
🤥 Наврал в резюме: 5 вариантов, что делать

Каждый из нас хотя бы раз в жизни хотел выглядеть немного лучше, чем он есть на самом деле. В этой статье хочется поговорить о том, что делать, если вы наврали в резюме, но очень хотите получить работу и теперь не знаете, как быть и что делать.
Чтобы не было казусов с ложью в резюме: забирайте наш курс для программистов:

Не хочешь преукрашивать в резюме — тогда забирай курс по Алгоритмам от базы до эксперт уровня:
🔵 Алгоритмы и структуры данных

🔗 Ссылка на статью
Please open Telegram to view this post
VIEW IN TELEGRAM
😢3👍1😁1
😎 Times составил список 100 самых влиятельных людей в AI-индустрии

Список делится на разные категории. Вот главные лица категорий:

🔹 Лидеры: Сундар Пичаи — CEO Google и Alphabet. Попал в список за стремление компании занять главенствующую позицию в ИИ-индустрии.

🔹 Инноваторы: Лиза Су — CEO AMD. Текущее поколение ИИ-чипов компании, MI300, является самым быстрорастущим её продуктом.

🔹 Мыслители: Рэй Курцвейл — американский изобретатель и футуролог. В 1990 году Курцвейл верно спрогнозировал, что ИИ победит лучшего шахматиста до наступления нового тысячелетия, и что мобильные устройства, подключенные к глобальной информационной сети, появятся в следующем десятилетии. В 1999 году он предсказал, что к 2029 году компьютеры сравняются с человеческим интеллектом во всех областях.

🔹 Созидатели: Амандип Сингх Джилл — Посланник Генерального секретаря ООН по технологиям. Координирует сотрудничество между государствами-членами организации и представителями промышленности и гражданского общества.

🔗 Посмотреть весь список можно по этой ссылке
😁7🔥6👍4🤔3
This media is not supported in your browser
VIEW IN TELEGRAM
👆Шпаргалка по пошаговой работе над ИИ-проектом👆
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12
This media is not supported in your browser
VIEW IN TELEGRAM
🌲 Supertree — инструмент для создания интерактивных виузализаций деревьев решений

🟣 Работает с Jupyter Notebooks, Jupyter Lab, Google Colab и другими ноутбуками, поддерживающими рендеринг HTML;

🟣 Позволяет зумить деревья;

🟣 Позволяет разворачивать и сворачивать выбранные узлы.

🔗 Ссылка на репозиторий проекта
👍11😁41
⚔️ Почему R лучше Python для Data Science

Это целый репозиторий, в котором автор перечисляет все преимущества использования языка R в науке о данных. Конечно же, это субъективное мнение.

Вот некоторые из перечисленных плюсов:

🔹RStudio удобнее Jupyter ноутбуков (например, там лучше устроена отладка кода, а также просмотр таблиц интерактивен по умолчанию);
🔹Экосистема R лучше настроена для работы с временными рядами;
🔹Агрегирование и окна проще реализовать в R с помощью dplyr, чем в Pandas.

🔗 Ознакомиться с репозиторием можно здесь
👍12😁12🌚5🥱4🤔1
🗄 Что такое ORM и зачем это нужно дата-сайентисту

Object-Relational Mapper (ORM) — это технология, которая позволяет работать с базами данных так, словно это объекты. Она упрощает взаимодействие с БД в коде и даже делает его более безопасным.

🧑‍💻 В Python одна из наиболее известных ORM — это SQLAlchemy. Она поддерживает MySQL, PostgreSQL, SQLite, Oracle и др. Вот как будет выглядеть подключение к базе данных SQLite с помощью SQLAlchemy:
from sqlalchemy import create_engine

db_url = 'sqlite:///mydatabase.db'
engine = create_engine(db_url)

with engine.connect() as conn:
result = conn.execute('SELECT 1')
print(result.fetchone())


👀 Для дата-сайентиста важно то, что SQLAlchemy предоставляет множество методов для манипуляций с данными. Вы можете легко вставлять, обновлять и удалять записи, а также выполнять SQL-запросы.
👍32
📊 Основные методы анализа данных для новичков

Вот как работают ключевые методы Data Science:

Описательная статистика — анализируйте средние значения, разброс и распределение данных для лучшего понимания

Регрессия — предсказывайте будущее: найдите связь между переменными и используйте её для прогнозов

Классификация — автоматически разделяйте данные на категории, например, определяя клиентов по предпочтениям

Кластеризация — объединяйте похожие данные в группы для выявления скрытых закономерностей

Чтобы применить основные методы анализа данных, сначала откройте Python. Установите библиотеку Pandas, которая поможет работать с данными. Далее загрузите свой файл, чтобы начать анализ.

#база
Please open Telegram to view this post
VIEW IN TELEGRAM
4👾2👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Google выпустила инструмент для превращения любой научной статьи в подкаст

Illuminate — это text-to-audio сервис, который помогает быстро ознакомиться с содержимым научных статей.

Пока инструмент доступен только по запросу — нужно встать в список ожидания. Однако на странице Illuminate уже есть подкасты по известным в сфере ИИ научным статьям:

▪️Attention is All You Need
▪️Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
▪️On Limitations of the Transformer Architecture
▪️MLP-Mixer: An all-MLP Architecture for Vision

🔗 Ссылка на Illuminate
9🔥4
🐍 Python Training — курс по Python для бизнес-аналитиков JPMorgan

Небольшой курс сосредоточен на введении в вычисления и визуализацию данных в Python. Подходит для тех, кто не имеет опыта программирования.

Вот темы, которые охватывает курс:

▪️основы Python (в Jupyter);
▪️базовые вычисления и работа с данными (NumPy, Pandas);
▪️работа с API;
▪️визуализация данных (Matplotlib, Seaborn);
▪️лучшие практики Python.

🔗 Ссылка на курс
6🥰2