Data Science | Machinelearning [ru] – Telegram

Data Science | Machinelearning [ru]

18.1K subscribers

480 photos

17 videos

29 files

3.37K links

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD

Download Telegram

About

Blog

Apps

Platform

Data Science | Machinelearning [ru]

18.1K subscribers

Data Science | Machinelearning [ru]

🧠

Создаем свой RAG: введение в LangGraph

В статье объясняют, что такое RAG и как использовать LangGraph для генерации с дополненной выборкой: основы, примеры и подготовка к созданию собственных RAG-систем.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡5❤1

1.96K views10:07

Data Science | Machinelearning [ru]

🤔

Выбираем MLOps инструменты с учётом зрелости команды

В статье разбирают, как выбрать MLOps-инструменты под уровень зрелости команды: почему решений много, но не все подходят, и как не утонуть в многообразии вариантов.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

1.76K views14:07

Data Science | Machinelearning [ru]

Data-специалисты — общий сбор 💪

В этом году на IT-конференции GoCloud Tech будет отдельный трек про данные и аналитику:

➡️ Платформа данных в облаке
➡️ Как настраивать потоковое чтение с геораспределенных хранилищ
➡️ Как работают быстрые NVMe-oF RDMA-диски
➡️ Тренды в мире данных: куда стремятся СУБД
➡️ Как работать на автопилоте с Jupyter-ноутбуком

А еще будут отдельные треки про тренды в AI&ML, облачную инфраструктуру и инструменты, ускоряющие разработку.

Где и когда

⬇️

3 сентября, Москва, Гоэлро Лофт

Регистрируйтесь

🖱

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1⚡1👎1

1.84K views15:07

Data Science | Machinelearning [ru]

👩‍💻

Чем отличается метод .transform() от .apply() в pandas?

В pandas методы .transform() и .apply() часто используются для обработки данных по столбцам и строкам, но они работают по-разному. Метод .apply() применяет функцию к каждому элементу или ряду, и возвращает объект любой формы (например, DataFrame или Series). В отличие от него, .transform() применяет функцию к каждой ячейке или группе и возвращает объект той же формы, что и входной.

➡️ Пример:

import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3], 'B': [10, 20, 30]})

# Используем .apply() для вычисления суммы по столбцам
print(df.apply(sum))  # Вернет Series с суммами столбцов

# Используем .transform() для нормализации каждого значения в столбце
print(df.transform(lambda x: (x - x.mean()) / x.std()))
# Вернет DataFrame с нормализованными значениями

🗣 .apply() подходит для сложных операций и агрегаций, а .transform() удобно использовать для обработки данных с сохранением исходной структуры.

🖥

Подробнее тут

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5⚡1

1.85K views18:07

Data Science | Machinelearning [ru]

⚙️

Когда обучение не идет. Loss is NaN. Причины и решения

В статье разберут, почему при обучении нейросети loss внезапно становится NaN и модель ломается. Расскажут, какие бывают причины этого трэша и как спасти обучение без лишней боли.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡2❤1

1.89K views10:07

Data Science | Machinelearning [ru]

👩‍💻 Напишите функцию для расчёта Accuracy вручную

В машинном обучении Accuracy — это метрика качества классификации. Показывает, сколько предсказаний модель сделала правильно.

Решение задачи🔽

def accuracy_score(y_true, y_pred):
correct = 0
for true, pred in zip(y_true, y_pred):
if true == pred:
correct += 1
return correct / len(y_true)

# Пример использования:
y_true = [1, 0, 1, 1, 0, 1]
y_pred = [1, 0, 0, 1, 0, 1]

print(accuracy_score(y_true, y_pred)) # 0.833...

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4⚡1

1.71K views14:07

Data Science | Machinelearning [ru]

🔥Приглашаем вас на три бесплатных вебинара курса «Data Engineer»🔥

📚Вебинар №1: «Как построить Lakehouse на Iceberg и S3»

⏰27 августа в 20:00 мск

✅На вебинаре:

• Data Warehouse, Data Lake, Data Lakehouse: история развития, что и когда использовать?
• Обзор Apache Iceberg: архитектура, преимущества и кейсы использования.
• Хранение данных в S3: настройка бакетов, управление доступом, cost optimization.
• Развертывание Iceberg на S3.
• Работа с Iceberg на Spark и Trino.

📚Вебинар №2: «DWH, Data Lake и Data Lakehouse: архитектурные различия и практическое применение»

⏰ 8 сентября в 20:00 мск

На вебинаре:

• Data Warehouse (DWH): Классическая архитектура и принципы
• Data Lake: Хранение "сырых" данных любого формата. Проблемы управления и governance
• Data Lakehouse: лучшие практики DWH и Data Lake ACID-транзакции и поддержка BI-аналитики
• Сравнительный анализ: Критерии выбора для разных задач Примеры реализаций (Snowflake, Databricks Delta Lake)
• Кейсы применения: Когда выбрать DWH, а когда — Lakehouse Миграция между подходами

📚Вебинар №3: «Развертывание Spark кластера с помощью Terraform в облаке»

⏰ 23 сентября в 18:00 мск

✅На вебинаре:

• Разберем один из принципов развертывания Spark кластера в облачных провайдерах.
• Покажем Terraform конфигурации для автоматизированного развертывания кластера.
• Продемонстрируем подключение к кластеру для работы из IDE.

🎁Участники вебинаров получат подарки на почту🎁

Регистрация на вебинары ➡️ https://vk.cc/cOZRfW

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

⚡1❤1

1.68K views17:37

Data Science | Machinelearning [ru]

🔥

Самые интересные статьи за последние дни:

• Что читали на Хабре в 2024 году: анализ статей с Node.js, Google Sheets и каплей ChatGPT

• Поднимаем в облаке расшифровку речи в текст с помощью нейросетей. VPS на пределе возможностей

• Стоит ли ChatGPT о1 Pro своих денег? Небольшой тест-драйв модели

• Возможности LLM и RAG на примере реализации бота для поддержки клиентов

• Гетерогенные вычисления: проектирование и разработка вычислительной системы для нейросетей

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡2❤1

1.77K views20:37

Data Science | Machinelearning [ru]

⚙️

Организация ML-проекта с примерами

Организация - это важно. То же относится к ML-проектам. Из каких компонент он должен состоять? Как оформить проект, чтобы всего хватало и было удобно это масштабировать? Рассмотрим организацию по шаблону CookieCutter с примерами.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4⚡1👍1

1.77K views10:07

Data Science | Machinelearning [ru]

📈

Подборка статей для вашей карьеры

• Эволюция архитектур нейросетей в компьютерном зрении: сегментация изображений

• Заяц не вырастет в акулу. Или секреты гибкой инженерной культуры от Александра Бындю

• Все, пора увольняться: что я поняла после работы в токсичных командах

• Базовое программирование, или Почему джуны не могут пройти к нам собеседование

• Я стал аналитиком, потому что не смог быть программистом

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4⚡1

1.77K views14:07

Data Science | Machinelearning [ru]

⚙️

Рекомендательная система для вашего каталога научных работ (и не только!)

Показано, как собрать рекомендательную систему на своём архиве документов, даже если там куча форматов. NLP + графы = машинный архивариус, который сам подсовывает нужные файлы.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5⚡1

1.86K views18:07

Data Science | Machinelearning [ru]

⚙️

Анализ данных: от EDA до Tinder-битвы графиков

Расскажу, как мы в МТС учили студентов EDA не лекциями, а игрой по типу Tinder, только для графиков. Был фан, был хардкор и крутые визуализации.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡4❤1

1.73K views10:07

Data Science | Machinelearning [ru]

⚙️

Что такое StandardScaler из scikit-learn и зачем он нужен?

StandardScaler — это инструмент из библиотеки scikit-learn, который стандартизирует данные: приводит их к распределению со средним 0 и стандартным отклонением 1. Это важно перед обучением моделей, особенно для алгоритмов, чувствительных к масштабу (например, SVM, KNN, линейная регрессия).

➡️

Пример:

from sklearn.preprocessing import StandardScaler
import numpy as np

X = np.array([[10, 200], [15, 300], [14, 250]])

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

print(X_scaled)

➡️ После трансформации признаки будут нормализованы, что помогает улучшить сходимость и стабильность модели.

🗣️ StandardScaler — must-have шаг в пайплайне предварительной обработки данных для большинства классических ML-моделей

🖥

Подробнее тут

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3⚡1

1.79K views14:07

Data Science | Machinelearning [ru]

⚙️

Как я сделала свой первый AI-продукт с ChatGPT и капелькой любви

В этой статье я расскажу о моем опыте самостоятельного изучения основ Python и Machine Learning и создании первого проекта OneLove на базе собственной модели искусственного интеллекта (ИИ).

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5

1.7K views18:07

Data Science | Machinelearning [ru]

⚙️

Архитектура проекта автоматического обучения ML-моделей

В статье ребята из Ингосстраха делятся, как автоматизировали запуск и внедрение моделей, чтобы быстрее закрывать запросы бизнеса, не утонув в бэклоге.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5⚡1

1.96K views09:07

Data Science | Machinelearning [ru]

🌌 Делай мини-проекты из собственных болей

Бесит, что каждый день ищешь одну и ту же команду в истории? Или вручную обрезаешь скриншоты? Это подсказки.

👉 Совет: собирай такие мелкие «боли» и превращай их в свои pet-проекты или утилиты. Это не только помогает себе, но и тренирует навык быстрого решения задач и проектирования под реальную жизнь.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7

1.68K views14:07

Data Science | Machinelearning [ru]

🚀 Data Picnic Х5 Tech в Сфере — встречаемся 9 сентября в Парке Горького!

На летней площадке «Сфера» Х5 Tech соберет data-сообщество, чтобы обсудить масштабируемые архитектуры, big data-решения и практики работы с миллиардами событий. Вас ждут четыре доклада от экспертов X5 Tech, Сбера и Битрикс24, а после — афтерпати с пиццей, пивом и диджеем.

Программа:
🗣 Павел Середин, X5 Tech — Шина метаданных для координации работы дата-хабов: как мы перешли с монолита на архитектуру data-mesh и решили проблему взаимодействия хабов.

🗣 Андрей Березин, Сбер — Система realtime-аналитики на 5+ млрд событий в день: эволюция платформы, архитектура и опыт масштабирования.

🗣 Анатолий Зубков, X5 Tech — Дата-контракты: теория и практика: как формализованные соглашения между командами повышают прозрачность и доверие к данным.

🗣 Александр Сербул, Битрикс24 — Опыт экстремальной миграции сервисов с Java/Netty на Rust/Tokio: что это дало в производительности и изменении подходов к разработке.

📍 Где: Сфера, Парк Горького
🕒 Когда: 9 сентября, сбор гостей с 19:15
🎶 После 22:00 — афтерпати: диджей, пицца, пиво, нетворкинг

🎟 Регистрация: по ссылке

❤3⚡2

1.75K views15:07

Data Science | Machinelearning [ru]

⚙️

Как обучить русскоязычную модель рассуждений — LRM?

В статье разбор мультиязычных моделей рассуждений от Lightblue: как они научили DeepSeek "думать" на русском, откуда взяли датасет и зачем запускали LLM как фильтр рассудительности.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4⚡1

1.95K views18:07

Data Science | Machinelearning [ru]

👩‍💻

Под капотом asyncio: принципы работы и ключевые концепции

Библиотека asyncio предоставляет полный набор инструментов для организации параллельного выполнения кода в Python с использованием концепции асинхронности. Но как на самом деле работает asyncio? Давайте разберемся в ключевых принципах и понятиях.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2🔥2⚡1

1.9K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Задачка по Python

Создайте Python-скрипт для обработки данных. Задача состоит в том, чтобы построить ETL-процесс, который очищает и агрегирует данные из CSV-файлов о продажах, а затем сохраняет агрегированные данные в новом файле.

Очистка данных: удаление записей с пустыми значениями в столбцах price или quantity.

Агрегация: подсчет общего количества проданных товаров и общей суммы по каждому продукту.

➡️ Пример:

• python app.py sales_data.csv — создает новый файл aggregated_data.csv с общей суммой и количеством проданных товаров по каждому продукту.

Решение задачи ⬇️

import pandas as pd
import sys

def clean_and_aggregate(file_path):
# Загружаем данные
data = pd.read_csv(file_path)

# Удаляем строки с пустыми значениями в колонках 'price' и 'quantity'
data.dropna(subset=['price', 'quantity'], inplace=True)

# Преобразуем колонки в числовой формат, ошибки игнорируем
data['price'] = pd.to_numeric(data['price'], errors='coerce')
data['quantity'] = pd.to_numeric(data['quantity'], errors='coerce')

# Удаляем строки с некорректными значениями
data.dropna(subset=['price', 'quantity'], inplace=True)

# Агрегируем данные
aggregated_data = data.groupby('product_id').agg(
total_quantity=('quantity', 'sum'),
total_sales=('price', 'sum')
).reset_index()

# Сохраняем в новый CSV
aggregated_data.to_csv('aggregated_data.csv', index=False)
print("Агрегация завершена. Данные сохранены в 'aggregated_data.csv'.")

if __name__ == "__main__":
if len(sys.argv) != 2:
print("Использование: python app.py <путь к файлу CSV>")
sys.exit(1)

file_path = sys.argv[1]
clean_and_aggregate(file_path)

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5⚡1

1.97K views14:07

Data Science | Machinelearning [ru]

➡️

Самые интересные статьи за последние дни:

• Эксперимент: даём ChatGPT полный доступ к компьютеру

• Правильный путь создания python-библиотеки: от создания до публикации

• Запускаем Yolo на пятирублёвой монете или Luckfox Pico Mini

• Более мощное семейство моделей YandexGPT 4: рост качества ответов, длинный контекст, пошаговые рассуждения

• Как мы обучили Mistral 7B русскому языку и адаптировали для объявлений Авито

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥3❤1⚡1

2K views18:07