This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Удобная работа с JSON для Data Scientists
JSON Hero облегчает чтение, анализ и проверку JSON-файлов, что особенно полезно для работы с API, данными и ML-пайплайнами.
Основные возможности:
➡️ Просмотр данных в Column, Tree или Editor View
➡️ Автоопределение типов значений и полезные превью
➡️ Генерация JSON Schema для валидации данных
➡️ Быстрый поиск по ключам и значениям
➡️ Поддержка клавиатуры и sharable URL с путями
Почему полезно для Data Scientists: быстро проверять данные из API, JSON-логи, ML-пайплайны и легко делиться структурой данных с коллегами.
🔗 Работает даже в браузере
🐸 Библиотека дата-сайентиста
#буст
JSON Hero облегчает чтение, анализ и проверку JSON-файлов, что особенно полезно для работы с API, данными и ML-пайплайнами.
Основные возможности:
Почему полезно для Data Scientists: быстро проверять данные из API, JSON-логи, ML-пайплайны и легко делиться структурой данных с коллегами.
🔗 Работает даже в браузере
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍4🔥2
Мы сделаем вам предложение, от которого невозможно отказаться 🤌
Вы покупаете себе курс «Математика для Data Science» от преподавателей ВМК МГУ, а мы дарим второй такой же курс вашему другу.
Предложение действует только до 1 сентября. Ничего личного, просто математика.
👉 Принять предложение
Вы покупаете себе курс «Математика для Data Science» от преподавателей ВМК МГУ, а мы дарим второй такой же курс вашему другу.
Предложение действует только до 1 сентября. Ничего личного, просто математика.
👉 Принять предложение
👉 В чём разница между self-attention и cross-attention
Self-attention:
➡️ Queries, keys и values берутся из одной последовательности.
➡️ Каждый токен «смотрит» на остальные, включая себя, чтобы учесть контекст.
➡️ Пример: слово bank может учитывать соседние слова river или money, чтобы выбрать правильное значение.
➡️ Используется для поиска зависимостей внутри последовательности (текста, документа и т.д.).
🔹 Cross-attention:
➡️ Queries берутся из одной последовательности, а keys и values — из другой.
➡️ Позволяет одной последовательности «фокусироваться» на информации из другой.
➡️ Примеры:
• В машинном переводе декодер через cross-attention обращается к репрезентациям энкодера.
• В мультимодальных моделях текст может «смотреть» на признаки изображения, чтобы сгенерировать описание.
📌 Легко запомнить:
• Self-attention → внутри одного источника (понимание контекста).
• Cross-attention → связывание двух источников (перевод, мультимодальные задачи, RAG).
🐸 Библиотека дата-сайентиста
#буст
Self-attention:
🔹 Cross-attention:
• В машинном переводе декодер через cross-attention обращается к репрезентациям энкодера.
• В мультимодальных моделях текст может «смотреть» на признаки изображения, чтобы сгенерировать описание.
📌 Легко запомнить:
• Self-attention → внутри одного источника (понимание контекста).
• Cross-attention → связывание двух источников (перевод, мультимодальные задачи, RAG).
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤3😍1
📢 Какой сетап идеально подойдёт для разработки AI-агента?
Голосуйте за свой вариант и пишите в комментариях, в каком режиме вы реально кодите.
❤️ — 1
👍 — 2
⚡️ — 3
👏 — 4
🔥 — 5
🎉 — 6
😁 — 7
😍 — 8
🤩 — 9
Какой бы сетап ни был, без AI-агентов в 2025 всё равно далеко не уедешь.
👉 Научим, как строить агентов, которые кодят с тобой
Голосуйте за свой вариант и пишите в комментариях, в каком режиме вы реально кодите.
❤️ — 1
👍 — 2
⚡️ — 3
👏 — 4
🔥 — 5
🎉 — 6
😁 — 7
😍 — 8
🤩 — 9
Какой бы сетап ни был, без AI-агентов в 2025 всё равно далеко не уедешь.
👉 Научим, как строить агентов, которые кодят с тобой
👍8🔥8😁8😍6🎉3🤩3❤1
🧐 Новые VLM-OCR модели vs «традиционный» OCR
С каждым днём появляются новые модели vision-language для OCR — как они справляются по сравнению с привычными системами?
Представляем OCR Time Capsule — инструмент для сравнения OCR на 11,000+ документах.
Основные возможности:
🟡 Быстрый визуальный браузер страниц
🟡 Сравнение XML OCR и VLM-результатов бок о бок
🟡 Метрики качества на уровне символов
🟡 Экспорт результатов для дальнейшего анализа
✔️ Датасет
✔️ Просмотреть результаты
✔️ Демо
🐸 Библиотека дата-сайентиста
#буст
С каждым днём появляются новые модели vision-language для OCR — как они справляются по сравнению с привычными системами?
Представляем OCR Time Capsule — инструмент для сравнения OCR на 11,000+ документах.
Основные возможности:
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤2🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
📊 trackio: библиотека для трекинга экспериментов в Python
trackio — это бесплатная и лёгкая библиотека для отслеживания экспериментов, построенная на Hugging Face Datasets и Spaces.
✅ API совместимо с wandb:
✅ Local-first: дашборд работает локально по умолчанию. Можно разместить на Hugging Face Spaces, указав
✅ Локальное хранение логов (или в приватный Hugging Face Dataset).
✅ Визуализация экспериментов через Gradio — локально или на Hugging Face Spaces.
✅ Всё бесплатно, включая хостинг на Hugging Face.
Идеально подходит для исследователей и дата-сайентистов, которым нужен простой и бесплатный инструмент для трекинга экспериментов.
📱 Репозиторий
🐸 Библиотека дата-сайентиста
#буст
trackio — это бесплатная и лёгкая библиотека для отслеживания экспериментов, построенная на Hugging Face Datasets и Spaces.
wandb.init
, wandb.log
, wandb.finish
. Можно использовать как drop-in замену:import trackio as wandb
space_id
.Идеально подходит для исследователей и дата-сайентистов, которым нужен простой и бесплатный инструмент для трекинга экспериментов.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4🔥3
🎶 audioFlux: Deep Learning для анализа аудио
audioFlux — это библиотека глубокого обучения для анализа аудио и музыки.
Она поддерживает:
➡️ десятки методов временно-частотных преобразований,
➡️ сотни комбинаций признаков во временной и частотной областях,
➡️ извлечение фич для обучения нейросетей.
С помощью audioFlux можно решать задачи:
➡️ классификации,
➡️ разделения источников,
➡️ Music Information Retrieval (MIR),
➡️ автоматического распознавания речи (ASR).
Идеальный инструмент для тех, кто работает с аудиосигналами и хочет быстро переходить от признаков к моделям.
📱 Репозиторий
🐸 Библиотека дата-сайентиста
#буст
audioFlux — это библиотека глубокого обучения для анализа аудио и музыки.
Она поддерживает:
С помощью audioFlux можно решать задачи:
Идеальный инструмент для тех, кто работает с аудиосигналами и хочет быстро переходить от признаков к моделям.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍2
🚀 Data Picnic Х5 Tech в Сфере — встречаемся 9 сентября в Парке Горького!
На летней площадке «Сфера» Х5 Tech соберет data-сообщество, чтобы обсудить масштабируемые архитектуры, big data-решения и практики работы с миллиардами событий. Вас ждут четыре доклада от экспертов X5 Tech, Сбера и Битрикс24, а после — афтерпати с пиццей, пивом и диджеем.
Программа:
🗣 Павел Середин, X5 Tech — Шина метаданных для координации работы дата-хабов: как мы перешли с монолита на архитектуру data-mesh и решили проблему взаимодействия хабов.
🗣 Андрей Березин, Сбер — Система realtime-аналитики на 5+ млрд событий в день: эволюция платформы, архитектура и опыт масштабирования.
🗣 Анатолий Зубков, X5 Tech — Дата-контракты: теория и практика: как формализованные соглашения между командами повышают прозрачность и доверие к данным.
🗣 Александр Сербул, Битрикс24 — Опыт экстремальной миграции сервисов с Java/Netty на Rust/Tokio: что это дало в производительности и изменении подходов к разработке.
📍 Где: Сфера, Парк Горького
🕒 Когда: 9 сентября, сбор гостей с 19:15
🎶 После 22:00 — афтерпати: диджей, пицца, пиво, нетворкинг
🎟 Регистрация: по ссылке
На летней площадке «Сфера» Х5 Tech соберет data-сообщество, чтобы обсудить масштабируемые архитектуры, big data-решения и практики работы с миллиардами событий. Вас ждут четыре доклада от экспертов X5 Tech, Сбера и Битрикс24, а после — афтерпати с пиццей, пивом и диджеем.
Программа:
🗣 Павел Середин, X5 Tech — Шина метаданных для координации работы дата-хабов: как мы перешли с монолита на архитектуру data-mesh и решили проблему взаимодействия хабов.
🗣 Андрей Березин, Сбер — Система realtime-аналитики на 5+ млрд событий в день: эволюция платформы, архитектура и опыт масштабирования.
🗣 Анатолий Зубков, X5 Tech — Дата-контракты: теория и практика: как формализованные соглашения между командами повышают прозрачность и доверие к данным.
🗣 Александр Сербул, Битрикс24 — Опыт экстремальной миграции сервисов с Java/Netty на Rust/Tokio: что это дало в производительности и изменении подходов к разработке.
📍 Где: Сфера, Парк Горького
🕒 Когда: 9 сентября, сбор гостей с 19:15
🎶 После 22:00 — афтерпати: диджей, пицца, пиво, нетворкинг
🎟 Регистрация: по ссылке
❤1😁1
pytest — это популярный фреймворк для тестирования Python-кода. Он прост в использовании, но при этом мощный.
💡 В дата-сайенсе pytest особенно полезен для проверки функций, NumPy-массивов и pandas DataFrame.
Лучший способ — заранее определить ожидаемое поведение функции в разных сценариях и проверить, что она ему соответствует.
Например, тестирование функции для извлечения сентимента текста:
# sentiment.py
def test_extract_sentiment_positive():
text = "I think today will be a great day"
sentiment = extract_sentiment(text)
assert sentiment > 0
def test_extract_sentiment_negative():
text = "I do not think this will turn out well"
sentiment = extract_sentiment(text)
assert sentiment < 0
Такой подход:
— выявляет крайние случаи,
— позволяет безопасно заменять код улучшенными версиями, не ломая весь пайплайн,
— помогает коллегам быстрее понять, как должна работать функция.
В этом гайде:
— написание простых и читаемых тестов,
— параметризация,
— фикстуры,
— мокинг.
📌 Всё, чтобы сделать дата-сайенс-воркфлоу надёжнее и ближе к продакшену.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍3
⏰ Осталось 48 часов!
Обратный отсчёт пошёл: только до воскресенья 23:59 можно купить курс «AI-агенты для DS-специалистов» и начать учиться уже с 15 сентября.
⚡️ Это ваши +3 недели форы, чтобы спокойно разобраться в самых сложных темах и прийти к первому занятию 7 октября уже подготовленным.
👉 Забрать место
Обратный отсчёт пошёл: только до воскресенья 23:59 можно купить курс «AI-агенты для DS-специалистов» и начать учиться уже с 15 сентября.
⚡️ Это ваши +3 недели форы, чтобы спокойно разобраться в самых сложных темах и прийти к первому занятию 7 октября уже подготовленным.
👉 Забрать место
🥱1
Please open Telegram to view this post
VIEW IN TELEGRAM
😁4👍2
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
Какой метод скалирования признаков был применен?
Anonymous Quiz
27%
StandardScaler
43%
MinMaxScaler
4%
RobustScaler
26%
Normalizer
👍3😁1
🤓 «Сначала выучу Python идеально, а потом пойду в ML»
Звучит логично, но на практике — ловушка.
Python огромный: фреймворки, библиотеки, нюансы синтаксиса. Учить «всё сразу» можно бесконечно.
В итоге — месяцы зубрёжки, а до ML руки так и не доходят.
На старте достаточно баз: типы данных, циклы, функции, работа с библиотеками. Всё остальное лучше подтягивать в процессе решения ML-задач.
⚠️ До 1 сентября курсы можно забрать по старым ценам. Это последние выходные, когда:
— ML идёт за 34 000 вместо 44 000 ₽ + Python в подарок,
— два в одном: оплатите курс по математике и получите второй доступ в подарок,
— и главное: можно купить все курсы до подорожания.
👉 ML для старта в Data Science
А для будущих Data Scientist’ов у нас ещё:
— Базовые модели ML и приложения
— Математика для Data Science
— AI-агенты для DS-специалистов (2-й поток скоро)
Звучит логично, но на практике — ловушка.
Python огромный: фреймворки, библиотеки, нюансы синтаксиса. Учить «всё сразу» можно бесконечно.
В итоге — месяцы зубрёжки, а до ML руки так и не доходят.
На старте достаточно баз: типы данных, циклы, функции, работа с библиотеками. Всё остальное лучше подтягивать в процессе решения ML-задач.
⚠️ До 1 сентября курсы можно забрать по старым ценам. Это последние выходные, когда:
— ML идёт за 34 000 вместо 44 000 ₽ + Python в подарок,
— два в одном: оплатите курс по математике и получите второй доступ в подарок,
— и главное: можно купить все курсы до подорожания.
👉 ML для старта в Data Science
А для будущих Data Scientist’ов у нас ещё:
— Базовые модели ML и приложения
— Математика для Data Science
— AI-агенты для DS-специалистов (2-й поток скоро)
🧑💻 Практика и ресурсы
— OpenAI’s Tips for Coding— шпаргалка по использованию GPT-5 для кода.
— Foundations of Large Language Models — бесплатный 200-страничный гайд по LLM.
— Обзор математики для начинающего ML-инженера — концентрат основ.
— Производные, градиенты, матрицы Якоби и Гессе — разбор для практикующих.
🧬 AI в науке
— OpenAI × Retro Biosciences — ИИ-модель перепроектировала белки для омоложения клеток.
— Google Gemini 2.5 — новая модель для редактирования изображений.
— 5 задач, которые UX-исследователи Авито решают с помощью нейросетей — реальные бизнес-кейсы.
📊 Исследования и бенчмарки
— TabArena — первый живой бенчмарк для табличных данных.
— Why Stacking Sliding Windows Can’t See Very Far — разбор фундаментальных ограничений sliding window attention.
— R-Zero — фреймворк для самообучающихся LLM, которые генерируют собственные датасеты с нуля и улучшают рассуждения.
⚡️ Инструменты и библиотеки
— oLLM — лёгкая Python-библиотека для LLM-инференса на длинных контекстах.
🌍 Новости индустрии
— AI Needs Open Source — Peter Wang (Anaconda) о ценности open source для бизнеса и исследований.
— TIME 100 Most Influential in AI (2025) — в списке лидеры вроде Сэма Альтмана и Илона Маска, а также новые фигуры, включая CEO DeepSeek.
#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍2
ПОСЛЕДНИЙ ДЕНЬ❗
КУРСЫ ПОДОРОЖАЮТ ЗАВТРА‼️
— ML за 34к вместо 44к + Python в подарок
— Математика → второй доступ в подарок
— Ранний доступ к AI-агентам с 15 сентября
— И МОЖНО УСПЕТЬ КУПИТЬ ВСЁ ДО ПОДОРОЖАНИЯ
👉 Proglib Academy
КУРСЫ ПОДОРОЖАЮТ ЗАВТРА‼️
— ML за 34к вместо 44к + Python в подарок
— Математика → второй доступ в подарок
— Ранний доступ к AI-агентам с 15 сентября
— И МОЖНО УСПЕТЬ КУПИТЬ ВСЁ ДО ПОДОРОЖАНИЯ
👉 Proglib Academy
🔥2
Forwarded from Библиотека задач по Data Science | тесты, код, задания
Если хочется чувствовать себя уверенно не только в метриках, но и в построении моделей:
— AI-агенты в Data Science
— ML для старта в Data Science
🐸 Библиотека задач по Data Science
— AI-агенты в Data Science
— ML для старта в Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
🔥 Большое обновление в pandas: Expressions
Pandas исполняется уже 17 лет, и наконец-то в версии 3.0 появляется то, чего ждали многие — выражения (expressions) через
Раньше:
Теперь:
Почему это реально круто:
— Больше никаких непонятных
— Код читается и дебажится проще:
✅ Поддержка
✅ Это первый шаг к полноценной системе выражений в духе Polars.
Пример:
✅ Чище, безопаснее и интуитивнее.
✅ Pandas берёт лучшее у новых библиотек (Polars, Narwhals) и возвращает нас к удобному и современному синтаксису.
🔗 Подробная статья по теме
🐸 Библиотека дата-сайентиста
#свежак
Pandas исполняется уже 17 лет, и наконец-то в версии 3.0 появляется то, чего ждали многие — выражения (expressions) через
pd.col
.Раньше:
df = df.assign(temp_f = lambda x: x['temp_c'] * 9 / 5 + 32)
Теперь:
df = df.assign(temp_f = pd.col('temp_c') * 9 / 5 + 32)
Почему это реально круто:
— Больше никаких непонятных
lambda
, которые ломаются в циклах.— Код читается и дебажится проще:
pd.col('a') + 10 # => (col('a') + 10)
str
, dt
, NumPy ufunc и фильтрации прямо в loc
.Пример:
df.assign(
city_upper = pd.col('city').str.upper(),
log_temp_c = np.log(pd.col('temp_c'))
)
#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
❤12
Полезная шпаргалка: как выбрать правильное распределение для данных
1️⃣ Начните с гистограммы
— Простая, но мощная визуализация.
— Помогает понять форму данных: колоколообразная (Normal), быстро падающая (Exponential), ровная (Uniform), с несколькими пиками (Mixture).
2️⃣ Протестируйте разные распределения
— Используем библиотеку distfit для подбора распределений.
— Проверяет ~90 типов распределений автоматически:
3️⃣ Визуализируйте подгонку
— Всегда проверяй глазами!
— Используй PDF (распределение) и CDF (кумулятивное распределение):
4️⃣ Не забывайте про нестандартные данные
— Дискретные счётные данные → binomial, Poisson.
— Сложные или многопиковые данные → non-parametric (quantile, percentile).
Пример:
5️⃣ Проверяйте стабильность
— Бутстрэпинг помогает проверить, насколько выбранное распределение устойчиво к случайным выборкам:
🐸 Библиотека дата-сайентиста
#свежак
— Простая, но мощная визуализация.
— Помогает понять форму данных: колоколообразная (Normal), быстро падающая (Exponential), ровная (Uniform), с несколькими пиками (Mixture).
import matplotlib.pyplot as plt
import numpy as np
data = np.random.normal(50, 15, 1000)
plt.hist(data, bins=30, color='skyblue', edgecolor='black', alpha=0.7)
plt.xlabel('Values'); plt.ylabel('Count'); plt.title('Гистограмма данных')
plt.show()
— Используем библиотеку distfit для подбора распределений.
— Проверяет ~90 типов распределений автоматически:
from distfit import distfit
import numpy as np
my_data = np.random.normal(25, 8, 2000)
fitter = distfit(method='parametric')
fitter.fit_transform(my_data)
print("Лучшее распределение:", fitter.model['name'])
print("Параметры:", fitter.model['params'])
— Всегда проверяй глазами!
— Используй PDF (распределение) и CDF (кумулятивное распределение):
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15,6))
fitter.plot(chart='PDF', ax=ax1); ax1.set_title('PDF')
fitter.plot(chart='CDF', ax=ax2); ax2.set_title('CDF')
plt.show()
— Дискретные счётные данные → binomial, Poisson.
— Сложные или многопиковые данные → non-parametric (quantile, percentile).
Пример:
from scipy.stats import binom
count_data = binom(20, 0.3).rvs(1000)
discrete_fitter = distfit(method='discrete')
discrete_fitter.fit_transform(count_data)
discrete_fitter.plot()
— Бутстрэпинг помогает проверить, насколько выбранное распределение устойчиво к случайным выборкам:
fitter.bootstrap(my_data, n_boots=100)
print(fitter.summary[['name','score','bootstrap_score','bootstrap_pass']])
#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3