💡Big Data — это не только модный термин, а фундамент современной аналитики и AI. Apache Spark — инструмент, который используют крупнейшие компании по всему миру. Хотите понять, как он работает, и применить его в своей практике?
28 августа в 18:00 мы проведем открытый вебинар «Практическое введение в Apache Spark». За 1,5 часа вы узнаете, зачем нужен Spark, как разворачивать тестовую среду в Docker, работать с DataFrame API и Spark SQL, оптимизировать запросы и избегать типичных ошибок.
Вместе разберем реальный кейс на небольшом датасете и вы увидите, что обработка больших данных может быть быстрой и удобной.
➡️ Открытый урок проходит в преддверии старта курса «Spark Developer», все участники получат скидку на обучение. Регистрируйтесь прямо сейчас: https://clc.to/AZVqOg
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
28 августа в 18:00 мы проведем открытый вебинар «Практическое введение в Apache Spark». За 1,5 часа вы узнаете, зачем нужен Spark, как разворачивать тестовую среду в Docker, работать с DataFrame API и Spark SQL, оптимизировать запросы и избегать типичных ошибок.
Вместе разберем реальный кейс на небольшом датасете и вы увидите, что обработка больших данных может быть быстрой и удобной.
➡️ Открытый урок проходит в преддверии старта курса «Spark Developer», все участники получат скидку на обучение. Регистрируйтесь прямо сейчас: https://clc.to/AZVqOg
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
👍3
💎 YouTube-канал, который стоит сохранить каждому, кто изучает ML
Кладезь коротких и понятных объяснений по ключевым концепциям ML. Автор делится тем, что сам изучает в процессе, и превращает сложные темы в доступные видео.
Уже есть разборы тем:
— Кросс-энтропия
— MCMC (Марковская цепь Монте-Карло)
— Распределение Бернулли
— Нормальное распределение
— Теорема Байеса
— Симуляция Монте-Карло
...
Всё в формате «коротко и по делу» — идеальные видео-шпаргалки.
➡️ Ссылка на канал: https://clc.to/VZRrFA
🐸 Библиотека дата-сайентиста
#буст
Кладезь коротких и понятных объяснений по ключевым концепциям ML. Автор делится тем, что сам изучает в процессе, и превращает сложные темы в доступные видео.
Уже есть разборы тем:
— Кросс-энтропия
— MCMC (Марковская цепь Монте-Карло)
— Распределение Бернулли
— Нормальное распределение
— Теорема Байеса
— Симуляция Монте-Карло
...
Всё в формате «коротко и по делу» — идеальные видео-шпаргалки.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7👍4❤3
This media is not supported in your browser
VIEW IN TELEGRAM
trackers — это единая библиотека с чистыми реализациями популярных алгоритмов трекинга.
Модульная архитектура позволяет легко менять трекеры и интегрировать их с детекторами объектов из разных библиотек:
inference
, ultralytics
, transformers
.💡 Особенности:
— Универсальная интеграция с разными детекторами
— Лёгкое переключение между трекерами
— Подходит для исследовательских и производственных проектов
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤3
This media is not supported in your browser
VIEW IN TELEGRAM
❗ Так, владелец макбука. Хватит позировать в кофейне.
Настоящее портфолио — это не стикеры на крышке, а проект с чистым кодом, README и рабочей демкой.
Не знаешь, как такой собрать? Научим. Наш курс «ML для старта в Data Science» — это пошаговый гайд к проекту, за который не стыдно.
ОСТАЛАСЬ НЕДЕЛЯ, чтобы забрать его по старой цене в 44.000 ₽. С 1 сентября — всё.
🎁 И да, при покупке курса ML до 1 сентября — курс по Python получаешь бесплатно.
👉 Апгрейд от «вайба» до «оффера» тут
Настоящее портфолио — это не стикеры на крышке, а проект с чистым кодом, README и рабочей демкой.
Не знаешь, как такой собрать? Научим. Наш курс «ML для старта в Data Science» — это пошаговый гайд к проекту, за который не стыдно.
ОСТАЛАСЬ НЕДЕЛЯ, чтобы забрать его по старой цене в 44.000 ₽. С 1 сентября — всё.
🎁 И да, при покупке курса ML до 1 сентября — курс по Python получаешь бесплатно.
👉 Апгрейд от «вайба» до «оффера» тут
🥱3❤1
This media is not supported in your browser
VIEW IN TELEGRAM
🤣 Вот так выглядит ChatGPT изнутри (не пытайтесь понять с первого раза)
Это архитектура Generative Pre-trained Transformer (GPT) — базовая штука, на которой построены все LLM вроде ChatGPT. И да, выглядит гипнотизирующе.
В отличие от «старых» моделей, которые читают слова по одному, Transformers используют attention, анализируют сразу весь контекст, и именно поэтому умеют:
✔️ Понимать сложные связи между словами
✔️ Генерировать осмысленные ответы
✔️ Масштабироваться до сотен миллиардов параметров
🎨 Это уже больше похоже на искусство.
Кто-нибудь, замедлите, пожалуйста, мозг не успевает обработать.
🐸 Библиотека дата-сайентиста
#развлекалово
Это архитектура Generative Pre-trained Transformer (GPT) — базовая штука, на которой построены все LLM вроде ChatGPT. И да, выглядит гипнотизирующе.
В отличие от «старых» моделей, которые читают слова по одному, Transformers используют attention, анализируют сразу весь контекст, и именно поэтому умеют:
🎨 Это уже больше похоже на искусство.
Кто-нибудь, замедлите, пожалуйста, мозг не успевает обработать.
#развлекалово
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5😁4❤2🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Удобная работа с JSON для Data Scientists
JSON Hero облегчает чтение, анализ и проверку JSON-файлов, что особенно полезно для работы с API, данными и ML-пайплайнами.
Основные возможности:
➡️ Просмотр данных в Column, Tree или Editor View
➡️ Автоопределение типов значений и полезные превью
➡️ Генерация JSON Schema для валидации данных
➡️ Быстрый поиск по ключам и значениям
➡️ Поддержка клавиатуры и sharable URL с путями
Почему полезно для Data Scientists: быстро проверять данные из API, JSON-логи, ML-пайплайны и легко делиться структурой данных с коллегами.
🔗 Работает даже в браузере
🐸 Библиотека дата-сайентиста
#буст
JSON Hero облегчает чтение, анализ и проверку JSON-файлов, что особенно полезно для работы с API, данными и ML-пайплайнами.
Основные возможности:
Почему полезно для Data Scientists: быстро проверять данные из API, JSON-логи, ML-пайплайны и легко делиться структурой данных с коллегами.
🔗 Работает даже в браузере
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍4🔥2
Мы сделаем вам предложение, от которого невозможно отказаться 🤌
Вы покупаете себе курс «Математика для Data Science» от преподавателей ВМК МГУ, а мы дарим второй такой же курс вашему другу.
Предложение действует только до 1 сентября. Ничего личного, просто математика.
👉 Принять предложение
Вы покупаете себе курс «Математика для Data Science» от преподавателей ВМК МГУ, а мы дарим второй такой же курс вашему другу.
Предложение действует только до 1 сентября. Ничего личного, просто математика.
👉 Принять предложение
👉 В чём разница между self-attention и cross-attention
Self-attention:
➡️ Queries, keys и values берутся из одной последовательности.
➡️ Каждый токен «смотрит» на остальные, включая себя, чтобы учесть контекст.
➡️ Пример: слово bank может учитывать соседние слова river или money, чтобы выбрать правильное значение.
➡️ Используется для поиска зависимостей внутри последовательности (текста, документа и т.д.).
🔹 Cross-attention:
➡️ Queries берутся из одной последовательности, а keys и values — из другой.
➡️ Позволяет одной последовательности «фокусироваться» на информации из другой.
➡️ Примеры:
• В машинном переводе декодер через cross-attention обращается к репрезентациям энкодера.
• В мультимодальных моделях текст может «смотреть» на признаки изображения, чтобы сгенерировать описание.
📌 Легко запомнить:
• Self-attention → внутри одного источника (понимание контекста).
• Cross-attention → связывание двух источников (перевод, мультимодальные задачи, RAG).
🐸 Библиотека дата-сайентиста
#буст
Self-attention:
🔹 Cross-attention:
• В машинном переводе декодер через cross-attention обращается к репрезентациям энкодера.
• В мультимодальных моделях текст может «смотреть» на признаки изображения, чтобы сгенерировать описание.
📌 Легко запомнить:
• Self-attention → внутри одного источника (понимание контекста).
• Cross-attention → связывание двух источников (перевод, мультимодальные задачи, RAG).
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤3😍1
📢 Какой сетап идеально подойдёт для разработки AI-агента?
Голосуйте за свой вариант и пишите в комментариях, в каком режиме вы реально кодите.
❤️ — 1
👍 — 2
⚡️ — 3
👏 — 4
🔥 — 5
🎉 — 6
😁 — 7
😍 — 8
🤩 — 9
Какой бы сетап ни был, без AI-агентов в 2025 всё равно далеко не уедешь.
👉 Научим, как строить агентов, которые кодят с тобой
Голосуйте за свой вариант и пишите в комментариях, в каком режиме вы реально кодите.
❤️ — 1
👍 — 2
⚡️ — 3
👏 — 4
🔥 — 5
🎉 — 6
😁 — 7
😍 — 8
🤩 — 9
Какой бы сетап ни был, без AI-агентов в 2025 всё равно далеко не уедешь.
👉 Научим, как строить агентов, которые кодят с тобой
😁8👍7🔥6😍6🤩3🎉2❤1
🧐 Новые VLM-OCR модели vs «традиционный» OCR
С каждым днём появляются новые модели vision-language для OCR — как они справляются по сравнению с привычными системами?
Представляем OCR Time Capsule — инструмент для сравнения OCR на 11,000+ документах.
Основные возможности:
🟡 Быстрый визуальный браузер страниц
🟡 Сравнение XML OCR и VLM-результатов бок о бок
🟡 Метрики качества на уровне символов
🟡 Экспорт результатов для дальнейшего анализа
✔️ Датасет
✔️ Просмотреть результаты
✔️ Демо
🐸 Библиотека дата-сайентиста
#буст
С каждым днём появляются новые модели vision-language для OCR — как они справляются по сравнению с привычными системами?
Представляем OCR Time Capsule — инструмент для сравнения OCR на 11,000+ документах.
Основные возможности:
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤2
This media is not supported in your browser
VIEW IN TELEGRAM
📊 trackio: библиотека для трекинга экспериментов в Python
trackio — это бесплатная и лёгкая библиотека для отслеживания экспериментов, построенная на Hugging Face Datasets и Spaces.
✅ API совместимо с wandb:
✅ Local-first: дашборд работает локально по умолчанию. Можно разместить на Hugging Face Spaces, указав
✅ Локальное хранение логов (или в приватный Hugging Face Dataset).
✅ Визуализация экспериментов через Gradio — локально или на Hugging Face Spaces.
✅ Всё бесплатно, включая хостинг на Hugging Face.
Идеально подходит для исследователей и дата-сайентистов, которым нужен простой и бесплатный инструмент для трекинга экспериментов.
📱 Репозиторий
🐸 Библиотека дата-сайентиста
#буст
trackio — это бесплатная и лёгкая библиотека для отслеживания экспериментов, построенная на Hugging Face Datasets и Spaces.
wandb.init
, wandb.log
, wandb.finish
. Можно использовать как drop-in замену:import trackio as wandb
space_id
.Идеально подходит для исследователей и дата-сайентистов, которым нужен простой и бесплатный инструмент для трекинга экспериментов.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4🔥2
🎶 audioFlux: Deep Learning для анализа аудио
audioFlux — это библиотека глубокого обучения для анализа аудио и музыки.
Она поддерживает:
➡️ десятки методов временно-частотных преобразований,
➡️ сотни комбинаций признаков во временной и частотной областях,
➡️ извлечение фич для обучения нейросетей.
С помощью audioFlux можно решать задачи:
➡️ классификации,
➡️ разделения источников,
➡️ Music Information Retrieval (MIR),
➡️ автоматического распознавания речи (ASR).
Идеальный инструмент для тех, кто работает с аудиосигналами и хочет быстро переходить от признаков к моделям.
📱 Репозиторий
🐸 Библиотека дата-сайентиста
#буст
audioFlux — это библиотека глубокого обучения для анализа аудио и музыки.
Она поддерживает:
С помощью audioFlux можно решать задачи:
Идеальный инструмент для тех, кто работает с аудиосигналами и хочет быстро переходить от признаков к моделям.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍1
🚀 Data Picnic Х5 Tech в Сфере — встречаемся 9 сентября в Парке Горького!
На летней площадке «Сфера» Х5 Tech соберет data-сообщество, чтобы обсудить масштабируемые архитектуры, big data-решения и практики работы с миллиардами событий. Вас ждут четыре доклада от экспертов X5 Tech, Сбера и Битрикс24, а после — афтерпати с пиццей, пивом и диджеем.
Программа:
🗣 Павел Середин, X5 Tech — Шина метаданных для координации работы дата-хабов: как мы перешли с монолита на архитектуру data-mesh и решили проблему взаимодействия хабов.
🗣 Андрей Березин, Сбер — Система realtime-аналитики на 5+ млрд событий в день: эволюция платформы, архитектура и опыт масштабирования.
🗣 Анатолий Зубков, X5 Tech — Дата-контракты: теория и практика: как формализованные соглашения между командами повышают прозрачность и доверие к данным.
🗣 Александр Сербул, Битрикс24 — Опыт экстремальной миграции сервисов с Java/Netty на Rust/Tokio: что это дало в производительности и изменении подходов к разработке.
📍 Где: Сфера, Парк Горького
🕒 Когда: 9 сентября, сбор гостей с 19:15
🎶 После 22:00 — афтерпати: диджей, пицца, пиво, нетворкинг
🎟 Регистрация: по ссылке
На летней площадке «Сфера» Х5 Tech соберет data-сообщество, чтобы обсудить масштабируемые архитектуры, big data-решения и практики работы с миллиардами событий. Вас ждут четыре доклада от экспертов X5 Tech, Сбера и Битрикс24, а после — афтерпати с пиццей, пивом и диджеем.
Программа:
🗣 Павел Середин, X5 Tech — Шина метаданных для координации работы дата-хабов: как мы перешли с монолита на архитектуру data-mesh и решили проблему взаимодействия хабов.
🗣 Андрей Березин, Сбер — Система realtime-аналитики на 5+ млрд событий в день: эволюция платформы, архитектура и опыт масштабирования.
🗣 Анатолий Зубков, X5 Tech — Дата-контракты: теория и практика: как формализованные соглашения между командами повышают прозрачность и доверие к данным.
🗣 Александр Сербул, Битрикс24 — Опыт экстремальной миграции сервисов с Java/Netty на Rust/Tokio: что это дало в производительности и изменении подходов к разработке.
📍 Где: Сфера, Парк Горького
🕒 Когда: 9 сентября, сбор гостей с 19:15
🎶 После 22:00 — афтерпати: диджей, пицца, пиво, нетворкинг
🎟 Регистрация: по ссылке
❤1😁1
pytest — это популярный фреймворк для тестирования Python-кода. Он прост в использовании, но при этом мощный.
💡 В дата-сайенсе pytest особенно полезен для проверки функций, NumPy-массивов и pandas DataFrame.
Лучший способ — заранее определить ожидаемое поведение функции в разных сценариях и проверить, что она ему соответствует.
Например, тестирование функции для извлечения сентимента текста:
# sentiment.py
def test_extract_sentiment_positive():
text = "I think today will be a great day"
sentiment = extract_sentiment(text)
assert sentiment > 0
def test_extract_sentiment_negative():
text = "I do not think this will turn out well"
sentiment = extract_sentiment(text)
assert sentiment < 0
Такой подход:
— выявляет крайние случаи,
— позволяет безопасно заменять код улучшенными версиями, не ломая весь пайплайн,
— помогает коллегам быстрее понять, как должна работать функция.
В этом гайде:
— написание простых и читаемых тестов,
— параметризация,
— фикстуры,
— мокинг.
📌 Всё, чтобы сделать дата-сайенс-воркфлоу надёжнее и ближе к продакшену.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2
⏰ Осталось 48 часов!
Обратный отсчёт пошёл: только до воскресенья 23:59 можно купить курс «AI-агенты для DS-специалистов» и начать учиться уже с 15 сентября.
⚡️ Это ваши +3 недели форы, чтобы спокойно разобраться в самых сложных темах и прийти к первому занятию 7 октября уже подготовленным.
👉 Забрать место
Обратный отсчёт пошёл: только до воскресенья 23:59 можно купить курс «AI-агенты для DS-специалистов» и начать учиться уже с 15 сентября.
⚡️ Это ваши +3 недели форы, чтобы спокойно разобраться в самых сложных темах и прийти к первому занятию 7 октября уже подготовленным.
👉 Забрать место
🥱1
Please open Telegram to view this post
VIEW IN TELEGRAM
😁4👍1
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
Какой метод скалирования признаков был применен?
Anonymous Quiz
27%
StandardScaler
46%
MinMaxScaler
5%
RobustScaler
22%
Normalizer
👍3😁1