Data Science | Machinelearning [ru]
18K subscribers
460 photos
14 videos
29 files
3.34K links
Статьи на тему data science, machine learning, big data, python, математика, нейронные сети, искусственный интеллект (artificial intelligence)

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
⚙️ Как я сделала свой первый AI-продукт с ChatGPT и капелькой любви

В этой статье я расскажу о моем опыте самостоятельного изучения основ Python и Machine Learning и создании первого проекта OneLove на базе собственной модели искусственного интеллекта (ИИ).

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
5
⚙️ Архитектура проекта автоматического обучения ML-моделей

В статье ребята из Ингосстраха делятся, как автоматизировали запуск и внедрение моделей, чтобы быстрее закрывать запросы бизнеса, не утонув в бэклоге.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
51
🌌 Делай мини-проекты из собственных болей

Бесит, что каждый день ищешь одну и ту же команду в истории? Или вручную обрезаешь скриншоты? Это подсказки.

👉 Совет: собирай такие мелкие «боли» и превращай их в свои pet-проекты или утилиты. Это не только помогает себе, но и тренирует навык быстрого решения задач и проектирования под реальную жизнь.
Please open Telegram to view this post
VIEW IN TELEGRAM
7
🚀 Data Picnic Х5 Tech в Сфере — встречаемся 9 сентября в Парке Горького!

На летней площадке «Сфера» Х5 Tech соберет data-сообщество, чтобы обсудить масштабируемые архитектуры, big data-решения и практики работы с миллиардами событий. Вас ждут четыре доклада от экспертов X5 Tech, Сбера и Битрикс24, а после — афтерпати с пиццей, пивом и диджеем.

Программа:
🗣 Павел Середин, X5 Tech — Шина метаданных для координации работы дата-хабов: как мы перешли с монолита на архитектуру data-mesh и решили проблему взаимодействия хабов.

🗣 Андрей Березин, Сбер — Система realtime-аналитики на 5+ млрд событий в день: эволюция платформы, архитектура и опыт масштабирования.

🗣 Анатолий Зубков, X5 Tech — Дата-контракты: теория и практика: как формализованные соглашения между командами повышают прозрачность и доверие к данным.

🗣 Александр Сербул, Битрикс24 — Опыт экстремальной миграции сервисов с Java/Netty на Rust/Tokio: что это дало в производительности и изменении подходов к разработке.

📍 Где: Сфера, Парк Горького
🕒 Когда: 9 сентября, сбор гостей с 19:15
🎶 После 22:00 — афтерпати: диджей, пицца, пиво, нетворкинг

🎟 Регистрация: по ссылке
32
⚙️ Как обучить русскоязычную модель рассуждений — LRM?

В статье разбор мультиязычных моделей рассуждений от Lightblue: как они научили DeepSeek "думать" на русском, откуда взяли датасет и зачем запускали LLM как фильтр рассудительности.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
41
👩‍💻 Под капотом asyncio: принципы работы и ключевые концепции

Библиотека asyncio предоставляет полный набор инструментов для организации параллельного выполнения кода в Python с использованием концепции асинхронности. Но как на самом деле работает asyncio? Давайте разберемся в ключевых принципах и понятиях.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2🔥21
👩‍💻 Задачка по Python

Создайте Python-скрипт для обработки данных. Задача состоит в том, чтобы построить ETL-процесс, который очищает и агрегирует данные из CSV-файлов о продажах, а затем сохраняет агрегированные данные в новом файле.

Очистка данных: удаление записей с пустыми значениями в столбцах price или quantity.

Агрегация: подсчет общего количества проданных товаров и общей суммы по каждому продукту.

➡️ Пример:

python app.py sales_data.csv — создает новый файл aggregated_data.csv с общей суммой и количеством проданных товаров по каждому продукту.

Решение задачи ⬇️

import pandas as pd
import sys

def clean_and_aggregate(file_path):
# Загружаем данные
data = pd.read_csv(file_path)

# Удаляем строки с пустыми значениями в колонках 'price' и 'quantity'
data.dropna(subset=['price', 'quantity'], inplace=True)

# Преобразуем колонки в числовой формат, ошибки игнорируем
data['price'] = pd.to_numeric(data['price'], errors='coerce')
data['quantity'] = pd.to_numeric(data['quantity'], errors='coerce')

# Удаляем строки с некорректными значениями
data.dropna(subset=['price', 'quantity'], inplace=True)

# Агрегируем данные
aggregated_data = data.groupby('product_id').agg(
total_quantity=('quantity', 'sum'),
total_sales=('price', 'sum')
).reset_index()

# Сохраняем в новый CSV
aggregated_data.to_csv('aggregated_data.csv', index=False)
print("Агрегация завершена. Данные сохранены в 'aggregated_data.csv'.")

if __name__ == "__main__":
if len(sys.argv) != 2:
print("Использование: python
app.py <путь к файлу CSV>")
sys.exit(1)

file_path = sys.argv[1]
clean_and_aggregate(file_path)
Please open Telegram to view this post
VIEW IN TELEGRAM
👍51
Алиса спорит с майором, нейросети стучат и «нано-бананы» летят. Кратко опишем новости недели.

Технологии снова удивляют: Яндекс оштрафовали за круглосуточный доступ ФСБ к «Алисе», а OpenAI напомнили, что чатбот может сообщить властям о подозрительных действиях пользователей. Между тем, нейросеть Сбера GigaChat успела проявить неожиданные либеральные наклонности, предлагая «неправильные» источники новостей, но после вмешательства снова перешла на официальный курс.

В мире финансов и технологий тоже кипит жизнь: Google выпустил забавную модель «nano-banana» для редактирования фото, Rutube проводит массовые сокращения айтишников, а Илон Маск строит конкурента Microsoft — Macrohard. В США Трамп вновь оспаривает пошлины и пытается уволить членов ФРС, а вирус PromptLock впервые применил ИИ для генерации вредоносного кода прямо на компьютере жертвы.

Что из этого удивило больше всего? Пишите в комментариях! 😮

Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
2
GPT-5 совершила большой скачок, но заметили его немногие

Хотя GPT-5 значительно опережает GPT-4 на новых тестах — приросты доходят до 80 процентных пунктов на самых сложных задачах — релиз восприняли скорее как эволюционное обновление, а не прорыв. В Epoch AI называют две причины такой реакции.

— Первая: модели теперь выходят очень часто. Между GPT-3 и GPT-4 был всего один крупный апдейт — GPT-3.5, а после GPT-4 появлялись Turbo-версии, мини- и high-варианты, o1, o3 и, наконец, GPT-5. При таком темпе, когда новые версии выходят едва ли не каждый месяц, эффект рывка заметить сложно.

— Вторая: насыщение старых бенчмарков. Например, MMLU с почти 16 000 вопросов был пройден GPT-4 почти на 86%, а последующие версии показали лишь небольшое улучшение.

GPT-5 тестировали уже на усложненной версии MMLU-Pro, где результат составил 86%, но при переходе на новые задачи прогресс впечатляет: GPQA Diamond +54 п.п., MATH Level 5 +75 п.п., Mock AIME +80 п.п. METR Time Horizons, где оценивают сложность задач по времени решения человеком, также показал огромный скачок: GPT-3 справлялась с задачами, требующими около 9 секунд, GPT-4 — с задачами до 5,36 минут, а GPT-5 — до 137 минут. То есть прорыв GPT-5 к GPT-4 укладывается в долгосрочную экспоненту, просто он заметен не всем 😂

Как вы воспринимаете новые релизы GPT?

👍 — Эволюция, ничего сверхъестественного
🤔 — Сложно заметить разницу


Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🐳75😁4👎1🔥1
«У нас большие планы на будущее»: Microsoft представила свои первые собственные модели ИИ

Microsoft AI сделала крупный шаг к независимому развитию искусственного интеллекта, анонсировав сразу две новые модели: MAI-Voice-1 и MAI-1-preview.

Первая умеет превращать текст в аудиозапись длиной в минуту за меньше чем секунду на одном GPU — то есть говорить быстрее, чем успеваешь моргнуть.
Вторая — MAI-1-preview — даёт представление о будущих возможностях Copilot и способна давать полезные ответы на повседневные вопросы, обучаясь на огромном массиве данных.


MAI-Voice-1 уже применяется внутри Microsoft: она ведёт рубрику Copilot Daily, зачитывая главные новости дня, а также помогает создавать обсуждения в формате подкастов. Любители тестировать новинки могут попробовать модель в Copilot Labs, где ИИ произнесёт любой введённый вами текст. MAI-1-preview, в свою очередь, обучалась на 15 000 графических процессоров Nvidia H100 и сейчас проходит публичное тестирование на платформе LMArena, где её можно сравнить с другими ИИ.

Глава Microsoft AI Мустафа Сулейман подчёркивает: внутренние модели компании не ориентированы только на корпоративные задачи. «Мы создаём ИИ для потребителя, чтобы он реально был полезен в повседневной жизни», — говорит Сулейман. Компания планирует внедрять MAI-1-preview в Copilot, расширяя возможности помощника, который до сих пор опирался на модели OpenAI.

Microsoft AI явно нацелена на будущее: они видят потенциал в создании специализированных моделей под разные задачи и сценарии, а не одной универсальной системы. Мустафа Сулейман при этом напоминает о рисках «кажущегося сознательного ИИ» (Seemingly Conscious AI), когда люди начинают воспринимать нейросети как живых существ. По его словам, подобные иллюзии могут отвлекать от реальных проблем и создавать лишние споры о правах и гражданстве ИИ 😁

Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
1
Обзор UDTF в PySpark: зачем нужны табличные функции

PySpark 3.5 привнёс интересную новинку — UDTF (User-Defined Table Function). Если UDF возвращает одно значение, а UDAF агрегирует сразу несколько строк, то UDTF работает прямо в секции FROM и может вернуть целую таблицу строк для одного входного значения. Это открывает сценарии, которые раньше приходилось изобретать через обходные пути.

Что умеет UDTF? У вас есть текстовое поле, и вы хотите превратить каждое слово в отдельную строку. С UDF так не получится, он вернёт только одно значение. А UDTF легко «разворачивает» данные: одна входная строка превращается в десятки выходных. Таким образом можно:

• Разбивать текст на слова, списки на элементы
• Рраспаковывать коллекции или делать cartesian-развёртки
• Получать более гибкие трансформации без громоздкого кода

Как это выглядит? UDTF оформляется как Python-класс с методом eval, где можно yield-ить столько строк, сколько нужно. Например, разбиение строки на слова превращается в лаконичный цикл for word in text.split(): yield (word,). Результат в Spark будет выглядеть как таблица, где каждое слово — отдельная строка.

Другой пример — генерация чисел и их квадратов. Обычный цикл for num in range(start, end): yield (num, num*num) вернёт сразу множество строк. Всё прозрачно: одна запись на входе — много записей на выходе.

Зачем это в продакшене? Главное преимущество UDTF — гибкость. В задачах анализа данных часто нужно «развернуть» структуру: например, массив тегов превратить в таблицу или подсчитать все комбинации значений. Раньше такие приёмы были неудобными, теперь они встроены в PySpark.


UDTF — это 20% кода и 80% удобства. Теперь можно писать генераторы как в Python и получать готовые таблицы в Spark 💳

Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
31
Работа с большими CSV без боли на Python 🔨

Когда нужно обработать гигабайтные CSV-файлы, Pandas начинает «захлёбываться». Решение простое — использовать dask.

import dask.dataframe as dd

# Загружаем огромный CSV как будто это Pandas
df = dd.read_csv("data.csv")

# Считаем топ-10 самых популярных значений в колонке
top10 = df["category"].value_counts().compute()
print(top10)


🤔 Разбираемся:

• dask под капотом разбивает файл на маленькие части
• Вы работаете с DataFrame так же, как в Pandas
• compute() запускает реальный расчёт, но только когда нужно


Можно анализировать файлы в десятки гигабайт на обычном ноутбуке, без кластеров и суперкомпов.

Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥73👍21
Легаси без боли: как ИИ помогает разгрести завалы в коде

Фред Брукс ещё в 80-х сформулировал идею: главная сложность разработки — не сам код, а взаимосвязи компонентов. Код можно дописать, а вот восстановить архитектурные идеи старой системы — куда труднее. Именно поэтому модернизация легаси-софта часто превращается в квест.

Где ИИ реально помогает. Современные LLM могут быть не просто «генераторами кода», а инструментами для восстановления концепций, которые когда-то закладывали архитекторы. Это снимает боль с ключевых этапов:

Трассировка кода — автоматический обход AST и выделение связей, которые определяют функциональность
Сбор контекста БД — привязка SQL-запросов к конкретным модулям кода
Визуализации (PlantUML) — превращение кода в диаграммы, понятные не только инженерам
Автоматизация BRD — модели составляют бизнес-требования на основе исходного кода и базы

Возьмём e-commerce: розница работает, потом добавили опт, но всё осталось на старой архитектуре. В итоге новая логика строится поверх старых правил. Это и есть концептуальный дрейф. LLM помогают не только его обнаружить, но и предложить варианты архитектурных решений, уменьшая риски при переписывании.


ИИ пока не заменяет экспертов, но делает процесс модернизации быстрее, прозрачнее и предсказуемее. Вместо бесконечного копания в коде инженеры получают структурированный контекст и готовые подсказки 😮‍💨

А как вы считаете:
👍 — ИИ уже стал must-have в модернизации
👎 — Без людей ничего не выйдет
🤔 — Зависит от сложности проекта


Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
ИИ научится думать быстрее: что такое DeepConf

Meta* AI и исследователи из Университета Калифорнии показали технологию DeepConf (Deep Think with Confidence) — новый метод, который помогает языковым моделям решать сложные задачи логики и математики быстрее и точнее.

Как работает DeepConf? Вместо того чтобы одинаково рассматривать все возможные варианты решения (включая ошибочные), DeepConf анализирует уровень «уверенности» самой модели. Если вероятность правильного ответа падает ниже порога — такой путь просто отсекается. В итоге остаются только сильные кандидаты, среди которых проходит «взвешенное голосование».

Экономия ресурсов и рост точности. DeepConf умеет работать в двух режимах: offline (после генерации) и online (на лету). Второй вариант особенно полезен — слабые цепочки обрубаются ещё до конца рассуждений. Это не только ускоряет процесс, но и экономит вычислительные мощности. В тестах метод показал впечатляющий результат: 99,9% точности на AIME 2025 при сокращении числа токенов почти на 85%.


Почему это важно? С ростом числа больших моделей нагрузка на инфраструктуру становится критичной. DeepConf показывает, что можно не просто обучать ИИ на всё больших объёмах данных, а учить его мыслить рациональнее, сокращая лишние шаги и снижая цену вычислений 🍑

*Meta признана экстремистской организацией и запрещена на территории РФ

Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥41
ИИ против 15-летнего цикла: новые лекарства быстрее и дешевле

Reuters опубликовал статью о том, что комбинация искусственного интеллекта и новых методов оценки безопасности (NAM) способна сократить сроки и стоимость разработки лекарств более чем вдвое уже в ближайшие 3–5 лет. Сейчас путь от идеи до таблетки занимает до 15 лет и обходится фарме примерно в $2 млрд.

Как это работает? ИИ быстро перебирает миллионы молекул, отбраковывает заведомо слабые варианты и подсказывает, какие стоит тестировать дальше. В ход идут базы знаний, данные экспериментов и измерений. Параллельно NAM заменяют часть классических испытаний: «органы-на-чипе», культуры клеток, цифровые модели. Результаты ближе к реальности, а количество опытов на животных уменьшается.

Пример: компания Recursion вывела молекулу REC-1245 на клинические испытания всего за 18 месяцев вместо привычных 42. Предполагается, что препарат будет тормозить рост некоторых раковых опухолей.

Что это значит? ИИ не отменяет долгих клинических фаз — пока на рынке нет ни одного реально одобренного «ИИ-препарата». Но сам процесс становится быстрее, прозрачнее и дешевле. Если прогнозы сбудутся, фармацевтика в ближайшие годы войдёт в новую эпоху.


А вы как думаете?
👍 — ИИ реально ускорит появление новых лекарств
👎 — В итоге всё упрётся в бюрократию и испытания


Data Science
👍16🔥4👎3🐳2
Как собрать резюме-матчер за вечер на TypeScript и tRPC

На Хабре вышла статья о том, как можно быстро собрать MVP-сервис для сравнения резюме и вакансий. Автор решил задачу на стыке NLP и ИИ: из PDF резюме и описания вакансии извлекаются ключевые навыки, а затем модель Gemini от Vertex AI выдаёт оценку совпадения.

Почему tRPC: вместо REST или GraphQL используется TypeScript-first RPC-фреймворк. Он позволяет описывать API без схем, прямо функциями, а типы автоматически «протягиваются» на фронтенд. Итог — меньше бойлерплейта и меньше багов на ранних этапах.

Как работает пайплайн: резюме и вакансия загружаются в сервис, оттуда извлекается текст, ключевые слова выделяются с помощью простых NLP-приёмов (токенизация, поиск существительных и заглавных слов), а дальше результат прогоняется через Gemini, который возвращает JSON с оценкой совпадения, сильными сторонами и рекомендациями.

Идея проста: зачем писать свой алгоритм сопоставления навыков, если можно отдать работу модели? Такой подход ускоряет прототипирование и отлично подходит для внутренних инструментов или быстрых демо.


В итоге получился рабочий инструмент, который не претендует на замену LinkedIn, но отлично показывает, как современные фреймворки и ИИ можно объединять в боевую связку 🍆

Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👎43
ИИ против лишних зависимостей

Раньше у разработчиков был один рефлекс: нужна функция — ищем библиотеку. Хоть простую валидацию, хоть мини-парсер. Вместе с решением приходили десятки транзитивных зависимостей, багфиксы и неожиданные апдейты.

Теперь с появлением рабочих моделей кода всё проще. Мы описываем задачу на человеческом языке, добавляем тесты — и получаем небольшой модуль без лишнего «жира». Такой кусочек кода легко читать, менять и проверять.

Где ИИ уже заменяет OSS
— Индикаторы и статистика: EMA, RSI, Z-score, корреляции окон — Узкие клиенты для работы с API биржи — Скелеты бэктестов или пайплайнов — Адаптеры и конвертеры форматов

Где границы? ИИ отлично справляется с утилитарными задачами. Но криптография, протоколы с жёсткими SLA, движки БД и численные солверы остаются в зоне зрелого OSS — там нужна предсказуемость и годами проверенные решения.


ИИ не «убивает» open source, а просто сдвигает баланс. Узкие задачи проще генерировать под себя, а всё сложное и критичное — оставлять за проверенными библиотеками. Чем меньше зависимостей — тем ниже риски и проще поддержка 🍑

Сейчас все уже массово доверяют свой код ии. Норма или ещё рано?

Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥2
⚙️ Open Datasets and Tools: An overview for Hugging Face

В статье собраны недавние релизы крупных ML-датасетов разных типов: структурированные таблицы, временные ряды, аудио и геоданные. Среди них Yambda-5B от Яндекса, крупнейший музыкальный рекомендательный датасет с 4,79 млрд взаимодействий (прослушивания, лайки, дизлайки). В мировом ML-сообществе уже отметили его пользу для науки и индустрии. Эксперты считают, что такие датасеты значительно ускорят развитие рекомендательных систем.

Читать…
Please open Telegram to view this post
VIEW IN TELEGRAM
3🔥2🐳1
Статья от инженера Google «Agentic Design Patterns»

В статье одна из самых амбициозных работ в области проектирования интеллектуальных систем. Эта книга предоставляет исчерпывающее руководство по разработке систем, которые могут мыслить, принимать решения и взаимодействовать с внешней средой, основываясь на уникальных «агентных» паттернах 😐

В первой части книги внимание уделяется ключевым аспектам работы с агентами, таким как цепочка команд, маршрутизация и параллелизация — все это с реальными примерами кода. Важно подчеркнуть, что каждый из разделов направлен на то, чтобы разработчики могли не только понять теорию, но и интегрировать эти методы в свои проекты.

Вторая часть книги посвящена памяти и адаптивности, а также ключевым протоколам взаимодействия между агентами. В процессе изучения материалов разработчики смогут научиться строить модели, которые способны не только решать поставленные задачи, но и улучшать свою работу на основе предыдущего опыта.

Также стоит отметить, что книга включает в себя полезные приложения: от углубленных техник подсказок до подробного описания внутреннего устройства агентов, что позволит читателям получить полное представление о создании эффективных и безопасных интеллектуальных систем.


Что вы думаете о применении таких систем в реальных проектах?

👍 — Могут изменить подход к разработке
👎 — Технология ещё не готова


Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍211👎1