Data Science | Machinelearning [ru]

🔥

Самые интересные статьи за последние дни:

• Что читали на Хабре в 2024 году: анализ статей с Node.js, Google Sheets и каплей ChatGPT

• Поднимаем в облаке расшифровку речи в текст с помощью нейросетей. VPS на пределе возможностей

• Стоит ли ChatGPT о1 Pro своих денег? Небольшой тест-драйв модели

• Возможности LLM и RAG на примере реализации бота для поддержки клиентов

• Гетерогенные вычисления: проектирование и разработка вычислительной системы для нейросетей

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡2❤1

1.65K views20:37

Data Science | Machinelearning [ru]

⚙️

Организация ML-проекта с примерами

Организация - это важно. То же относится к ML-проектам. Из каких компонент он должен состоять? Как оформить проект, чтобы всего хватало и было удобно это масштабировать? Рассмотрим организацию по шаблону CookieCutter с примерами.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3⚡1👍1

1.63K views10:07

Data Science | Machinelearning [ru]

📈

Подборка статей для вашей карьеры

• Эволюция архитектур нейросетей в компьютерном зрении: сегментация изображений

• Заяц не вырастет в акулу. Или секреты гибкой инженерной культуры от Александра Бындю

• Все, пора увольняться: что я поняла после работы в токсичных командах

• Базовое программирование, или Почему джуны не могут пройти к нам собеседование

• Я стал аналитиком, потому что не смог быть программистом

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3⚡1

1.64K views14:07

Data Science | Machinelearning [ru]

⚙️

Рекомендательная система для вашего каталога научных работ (и не только!)

Показано, как собрать рекомендательную систему на своём архиве документов, даже если там куча форматов. NLP + графы = машинный архивариус, который сам подсовывает нужные файлы.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5⚡1

1.72K views18:07

Data Science | Machinelearning [ru]

⚙️

Анализ данных: от EDA до Tinder-битвы графиков

Расскажу, как мы в МТС учили студентов EDA не лекциями, а игрой по типу Tinder, только для графиков. Был фан, был хардкор и крутые визуализации.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡3❤1

1.59K views10:07

Data Science | Machinelearning [ru]

⚙️

Что такое StandardScaler из scikit-learn и зачем он нужен?

StandardScaler — это инструмент из библиотеки scikit-learn, который стандартизирует данные: приводит их к распределению со средним 0 и стандартным отклонением 1. Это важно перед обучением моделей, особенно для алгоритмов, чувствительных к масштабу (например, SVM, KNN, линейная регрессия).

➡️

Пример:

from sklearn.preprocessing import StandardScaler
import numpy as np

X = np.array([[10, 200], [15, 300], [14, 250]])

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

print(X_scaled)

➡️ После трансформации признаки будут нормализованы, что помогает улучшить сходимость и стабильность модели.

🗣️ StandardScaler — must-have шаг в пайплайне предварительной обработки данных для большинства классических ML-моделей

🖥

Подробнее тут

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3⚡1

1.64K views14:07

Data Science | Machinelearning [ru]

⚙️

Как я сделала свой первый AI-продукт с ChatGPT и капелькой любви

В этой статье я расскажу о моем опыте самостоятельного изучения основ Python и Machine Learning и создании первого проекта OneLove на базе собственной модели искусственного интеллекта (ИИ).

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5

1.54K views18:07

Data Science | Machinelearning [ru]

⚙️

Архитектура проекта автоматического обучения ML-моделей

В статье ребята из Ингосстраха делятся, как автоматизировали запуск и внедрение моделей, чтобы быстрее закрывать запросы бизнеса, не утонув в бэклоге.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5⚡1

1.71K views09:07

Data Science | Machinelearning [ru]

🌌 Делай мини-проекты из собственных болей

Бесит, что каждый день ищешь одну и ту же команду в истории? Или вручную обрезаешь скриншоты? Это подсказки.

👉 Совет: собирай такие мелкие «боли» и превращай их в свои pet-проекты или утилиты. Это не только помогает себе, но и тренирует навык быстрого решения задач и проектирования под реальную жизнь.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7

1.52K views14:07

Data Science | Machinelearning [ru]

🚀 Data Picnic Х5 Tech в Сфере — встречаемся 9 сентября в Парке Горького!

На летней площадке «Сфера» Х5 Tech соберет data-сообщество, чтобы обсудить масштабируемые архитектуры, big data-решения и практики работы с миллиардами событий. Вас ждут четыре доклада от экспертов X5 Tech, Сбера и Битрикс24, а после — афтерпати с пиццей, пивом и диджеем.

Программа:
🗣 Павел Середин, X5 Tech — Шина метаданных для координации работы дата-хабов: как мы перешли с монолита на архитектуру data-mesh и решили проблему взаимодействия хабов.

🗣 Андрей Березин, Сбер — Система realtime-аналитики на 5+ млрд событий в день: эволюция платформы, архитектура и опыт масштабирования.

🗣 Анатолий Зубков, X5 Tech — Дата-контракты: теория и практика: как формализованные соглашения между командами повышают прозрачность и доверие к данным.

🗣 Александр Сербул, Битрикс24 — Опыт экстремальной миграции сервисов с Java/Netty на Rust/Tokio: что это дало в производительности и изменении подходов к разработке.

📍 Где: Сфера, Парк Горького
🕒 Когда: 9 сентября, сбор гостей с 19:15
🎶 После 22:00 — афтерпати: диджей, пицца, пиво, нетворкинг

🎟 Регистрация: по ссылке

❤3⚡2

1.61K views15:07

Data Science | Machinelearning [ru]

⚙️

Как обучить русскоязычную модель рассуждений — LRM?

В статье разбор мультиязычных моделей рассуждений от Lightblue: как они научили DeepSeek "думать" на русском, откуда взяли датасет и зачем запускали LLM как фильтр рассудительности.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4⚡1

1.77K views18:07

Data Science | Machinelearning [ru]

👩‍💻

Под капотом asyncio: принципы работы и ключевые концепции

Библиотека asyncio предоставляет полный набор инструментов для организации параллельного выполнения кода в Python с использованием концепции асинхронности. Но как на самом деле работает asyncio? Давайте разберемся в ключевых принципах и понятиях.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2🔥2⚡1

1.67K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Задачка по Python

Создайте Python-скрипт для обработки данных. Задача состоит в том, чтобы построить ETL-процесс, который очищает и агрегирует данные из CSV-файлов о продажах, а затем сохраняет агрегированные данные в новом файле.

Очистка данных: удаление записей с пустыми значениями в столбцах price или quantity.

Агрегация: подсчет общего количества проданных товаров и общей суммы по каждому продукту.

➡️ Пример:

• python app.py sales_data.csv — создает новый файл aggregated_data.csv с общей суммой и количеством проданных товаров по каждому продукту.

Решение задачи ⬇️

import pandas as pd
import sys

def clean_and_aggregate(file_path):
# Загружаем данные
data = pd.read_csv(file_path)

# Удаляем строки с пустыми значениями в колонках 'price' и 'quantity'
data.dropna(subset=['price', 'quantity'], inplace=True)

# Преобразуем колонки в числовой формат, ошибки игнорируем
data['price'] = pd.to_numeric(data['price'], errors='coerce')
data['quantity'] = pd.to_numeric(data['quantity'], errors='coerce')

# Удаляем строки с некорректными значениями
data.dropna(subset=['price', 'quantity'], inplace=True)

# Агрегируем данные
aggregated_data = data.groupby('product_id').agg(
total_quantity=('quantity', 'sum'),
total_sales=('price', 'sum')
).reset_index()

# Сохраняем в новый CSV
aggregated_data.to_csv('aggregated_data.csv', index=False)
print("Агрегация завершена. Данные сохранены в 'aggregated_data.csv'.")

if __name__ == "__main__":
if len(sys.argv) != 2:
print("Использование: python app.py <путь к файлу CSV>")
sys.exit(1)

file_path = sys.argv[1]
clean_and_aggregate(file_path)

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5⚡1

1.7K views14:07

Data Science | Machinelearning [ru]

➡️

Самые интересные статьи за последние дни:

• Эксперимент: даём ChatGPT полный доступ к компьютеру

• Правильный путь создания python-библиотеки: от создания до публикации

• Запускаем Yolo на пятирублёвой монете или Luckfox Pico Mini

• Более мощное семейство моделей YandexGPT 4: рост качества ответов, длинный контекст, пошаговые рассуждения

• Как мы обучили Mistral 7B русскому языку и адаптировали для объявлений Авито

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥2⚡1

1.77K views18:07

Data Science | Machinelearning [ru]

Алиса спорит с майором, нейросети стучат и «нано-бананы» летят. Кратко опишем новости недели.

Технологии снова удивляют: Яндекс оштрафовали за круглосуточный доступ ФСБ к «Алисе», а OpenAI напомнили, что чатбот может сообщить властям о подозрительных действиях пользователей. Между тем, нейросеть Сбера GigaChat успела проявить неожиданные либеральные наклонности, предлагая «неправильные» источники новостей, но после вмешательства снова перешла на официальный курс.

В мире финансов и технологий тоже кипит жизнь: Google выпустил забавную модель «nano-banana» для редактирования фото, Rutube проводит массовые сокращения айтишников, а Илон Маск строит конкурента Microsoft — Macrohard. В США Трамп вновь оспаривает пошлины и пытается уволить членов ФРС, а вирус PromptLock впервые применил ИИ для генерации вредоносного кода прямо на компьютере жертвы.

Что из этого удивило больше всего? Пишите в комментариях!

😮

Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

1.72K views10:07

Data Science | Machinelearning [ru]

GPT-5 совершила большой скачок, но заметили его немногие

Хотя GPT-5 значительно опережает GPT-4 на новых тестах — приросты доходят до 80 процентных пунктов на самых сложных задачах — релиз восприняли скорее как эволюционное обновление, а не прорыв. В Epoch AI называют две причины такой реакции.

— Первая: модели теперь выходят очень часто. Между GPT-3 и GPT-4 был всего один крупный апдейт — GPT-3.5, а после GPT-4 появлялись Turbo-версии, мини- и high-варианты, o1, o3 и, наконец, GPT-5. При таком темпе, когда новые версии выходят едва ли не каждый месяц, эффект рывка заметить сложно.

— Вторая: насыщение старых бенчмарков. Например, MMLU с почти 16 000 вопросов был пройден GPT-4 почти на 86%, а последующие версии показали лишь небольшое улучшение.

GPT-5 тестировали уже на усложненной версии MMLU-Pro, где результат составил 86%, но при переходе на новые задачи прогресс впечатляет: GPQA Diamond +54 п.п., MATH Level 5 +75 п.п., Mock AIME +80 п.п. METR Time Horizons, где оценивают сложность задач по времени решения человеком, также показал огромный скачок: GPT-3 справлялась с задачами, требующими около 9 секунд, GPT-4 — с задачами до 5,36 минут, а GPT-5 — до 137 минут. То есть прорыв GPT-5 к GPT-4 укладывается в долгосрочную экспоненту, просто он заметен не всем 😂

Как вы воспринимаете новые релизы GPT?

👍 — Эволюция, ничего сверхъестественного
🤔 — Сложно заметить разницу

Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9🐳7❤5😁4👎1🔥1

1.61K views14:07

Data Science | Machinelearning [ru]

«У нас большие планы на будущее»: Microsoft представила свои первые собственные модели ИИ

Microsoft AI сделала крупный шаг к независимому развитию искусственного интеллекта, анонсировав сразу две новые модели: MAI-Voice-1 и MAI-1-preview.

Первая умеет превращать текст в аудиозапись длиной в минуту за меньше чем секунду на одном GPU — то есть говорить быстрее, чем успеваешь моргнуть.
Вторая — MAI-1-preview — даёт представление о будущих возможностях Copilot и способна давать полезные ответы на повседневные вопросы, обучаясь на огромном массиве данных.

MAI-Voice-1 уже применяется внутри Microsoft: она ведёт рубрику Copilot Daily, зачитывая главные новости дня, а также помогает создавать обсуждения в формате подкастов. Любители тестировать новинки могут попробовать модель в Copilot Labs, где ИИ произнесёт любой введённый вами текст. MAI-1-preview, в свою очередь, обучалась на 15 000 графических процессоров Nvidia H100 и сейчас проходит публичное тестирование на платформе LMArena, где её можно сравнить с другими ИИ.

Глава Microsoft AI Мустафа Сулейман подчёркивает: внутренние модели компании не ориентированы только на корпоративные задачи. «Мы создаём ИИ для потребителя, чтобы он реально был полезен в повседневной жизни», — говорит Сулейман. Компания планирует внедрять MAI-1-preview в Copilot, расширяя возможности помощника, который до сих пор опирался на модели OpenAI.

Microsoft AI явно нацелена на будущее: они видят потенциал в создании специализированных моделей под разные задачи и сценарии, а не одной универсальной системы. Мустафа Сулейман при этом напоминает о рисках «кажущегося сознательного ИИ» (Seemingly Conscious AI), когда люди начинают воспринимать нейросети как живых существ. По его словам, подобные иллюзии могут отвлекать от реальных проблем и создавать лишние споры о правах и гражданстве ИИ 😁

Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3

1.43K views18:07

Data Science | Machinelearning [ru]

Обзор UDTF в PySpark: зачем нужны табличные функции

PySpark 3.5 привнёс интересную новинку — UDTF (User-Defined Table Function). Если UDF возвращает одно значение, а UDAF агрегирует сразу несколько строк, то UDTF работает прямо в секции FROM и может вернуть целую таблицу строк для одного входного значения. Это открывает сценарии, которые раньше приходилось изобретать через обходные пути.

Что умеет UDTF? У вас есть текстовое поле, и вы хотите превратить каждое слово в отдельную строку. С UDF так не получится, он вернёт только одно значение. А UDTF легко «разворачивает» данные: одна входная строка превращается в десятки выходных. Таким образом можно:

• Разбивать текст на слова, списки на элементы
• Рраспаковывать коллекции или делать cartesian-развёртки
• Получать более гибкие трансформации без громоздкого кода

Как это выглядит? UDTF оформляется как Python-класс с методом eval, где можно yield-ить столько строк, сколько нужно. Например, разбиение строки на слова превращается в лаконичный цикл for word in text.split(): yield (word,). Результат в Spark будет выглядеть как таблица, где каждое слово — отдельная строка.

Другой пример — генерация чисел и их квадратов. Обычный цикл for num in range(start, end): yield (num, num*num) вернёт сразу множество строк. Всё прозрачно: одна запись на входе — много записей на выходе.

Зачем это в продакшене? Главное преимущество UDTF — гибкость. В задачах анализа данных часто нужно «развернуть» структуру: например, массив тегов превратить в таблицу или подсчитать все комбинации значений. Раньше такие приёмы были неудобными, теперь они встроены в PySpark.

UDTF — это 20% кода и 80% удобства. Теперь можно писать генераторы как в Python и получать готовые таблицы в Spark 💳

Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4⚡1

1.5K views07:07

Data Science | Machinelearning [ru]

Работа с большими CSV без боли на Python

🔨

Когда нужно обработать гигабайтные CSV-файлы, Pandas начинает «захлёбываться». Решение простое — использовать dask.

import dask.dataframe as dd

# Загружаем огромный CSV как будто это Pandas
df = dd.read_csv("data.csv")

# Считаем топ-10 самых популярных значений в колонке
top10 = df["category"].value_counts().compute()
print(top10)

🤔 Разбираемся:

• dask под капотом разбивает файл на маленькие части
• Вы работаете с DataFrame так же, как в Pandas
• compute() запускает реальный расчёт, но только когда нужно

Можно анализировать файлы в десятки гигабайт на обычном ноутбуке, без кластеров и суперкомпов.

Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥8❤3👍3⚡1

1.57K views18:07

Data Science | Machinelearning [ru]

Легаси без боли: как ИИ помогает разгрести завалы в коде

Фред Брукс ещё в 80-х сформулировал идею: главная сложность разработки — не сам код, а взаимосвязи компонентов. Код можно дописать, а вот восстановить архитектурные идеи старой системы — куда труднее. Именно поэтому модернизация легаси-софта часто превращается в квест.

Где ИИ реально помогает. Современные LLM могут быть не просто «генераторами кода», а инструментами для восстановления концепций, которые когда-то закладывали архитекторы. Это снимает боль с ключевых этапов:

• Трассировка кода — автоматический обход AST и выделение связей, которые определяют функциональность
• Сбор контекста БД — привязка SQL-запросов к конкретным модулям кода
• Визуализации (PlantUML) — превращение кода в диаграммы, понятные не только инженерам
• Автоматизация BRD — модели составляют бизнес-требования на основе исходного кода и базы

Возьмём e-commerce: розница работает, потом добавили опт, но всё осталось на старой архитектуре. В итоге новая логика строится поверх старых правил. Это и есть концептуальный дрейф. LLM помогают не только его обнаружить, но и предложить варианты архитектурных решений, уменьшая риски при переписывании.

ИИ пока не заменяет экспертов, но делает процесс модернизации быстрее, прозрачнее и предсказуемее. Вместо бесконечного копания в коде инженеры получают структурированный контекст и готовые подсказки 😮‍💨

А как вы считаете:
👍 — ИИ уже стал must-have в модернизации
👎 — Без людей ничего не выйдет
🤔 — Зависит от сложности проекта

Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3

1.34K views09:07

Data Science | Machinelearning [ru]

ИИ научится думать быстрее: что такое DeepConf

Meta* AI и исследователи из Университета Калифорнии показали технологию DeepConf (Deep Think with Confidence) — новый метод, который помогает языковым моделям решать сложные задачи логики и математики быстрее и точнее.

Как работает DeepConf? Вместо того чтобы одинаково рассматривать все возможные варианты решения (включая ошибочные), DeepConf анализирует уровень «уверенности» самой модели. Если вероятность правильного ответа падает ниже порога — такой путь просто отсекается. В итоге остаются только сильные кандидаты, среди которых проходит «взвешенное голосование».

Экономия ресурсов и рост точности. DeepConf умеет работать в двух режимах: offline (после генерации) и online (на лету). Второй вариант особенно полезен — слабые цепочки обрубаются ещё до конца рассуждений. Это не только ускоряет процесс, но и экономит вычислительные мощности. В тестах метод показал впечатляющий результат: 99,9% точности на AIME 2025 при сокращении числа токенов почти на 85%.

Почему это важно? С ростом числа больших моделей нагрузка на инфраструктуру становится критичной. DeepConf показывает, что можно не просто обучать ИИ на всё больших объёмах данных, а учить его мыслить рациональнее, сокращая лишние шаги и снижая цену вычислений 🍑

*Meta признана экстремистской организацией и запрещена на территории РФ

Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥5❤1

1.52K views09:07

About

Blog

Apps

Platform