Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение – Telegram

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

18.4K subscribers

2.41K photos

121 videos

64 files

4.87K links

Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9

Download Telegram

About

Blog

Apps

Platform

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

18.4K subscribers

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Что выведет код?

Anonymous Quiz

381 voters1.58K views08:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💎 YouTube-канал, который стоит сохранить каждому, кто изучает ML

Кладезь коротких и понятных объяснений по ключевым концепциям ML. Автор делится тем, что сам изучает в процессе, и превращает сложные темы в доступные видео.

Уже есть разборы тем:
— Кросс-энтропия
— MCMC (Марковская цепь Монте-Карло)
— Распределение Бернулли
— Нормальное распределение
— Теорема Байеса
— Симуляция Монте-Карло
...

Всё в формате «коротко и по делу» — идеальные видео-шпаргалки.

➡️ Ссылка на канал: https://clc.to/VZRrFA

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥8👍4❤3

1.84K views17:54

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

✔️

trackers: все ведущие алгоритмы multi-object tracking в одном месте

trackers — это единая библиотека с чистыми реализациями популярных алгоритмов трекинга.

Модульная архитектура позволяет легко менять трекеры и интегрировать их с детекторами объектов из разных библиотек: inference, ultralytics, transformers.

💡 Особенности:
— Универсальная интеграция с разными детекторами
— Лёгкое переключение между трекерами
— Подходит для исследовательских и производственных проектов

📱

GitHub

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7❤3

1.73K views06:58

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

❗ Так, владелец макбука. Хватит позировать в кофейне.

Настоящее портфолио — это не стикеры на крышке, а проект с чистым кодом, README и рабочей демкой.

Не знаешь, как такой собрать? Научим. Наш курс «ML для старта в Data Science» — это пошаговый гайд к проекту, за который не стыдно.

ОСТАЛАСЬ НЕДЕЛЯ, чтобы забрать его по старой цене в 44.000 ₽. С 1 сентября — всё.

🎁 И да, при покупке курса ML до 1 сентября — курс по Python получаешь бесплатно.

👉 Апгрейд от «вайба» до «оффера» тут

🥱3❤1

1.76K views15:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

🤣 Вот так выглядит ChatGPT изнутри (не пытайтесь понять с первого раза)

Это архитектура Generative Pre-trained Transformer (GPT) — базовая штука, на которой построены все LLM вроде ChatGPT. И да, выглядит гипнотизирующе.

В отличие от «старых» моделей, которые читают слова по одному, Transformers используют attention, анализируют сразу весь контекст, и именно поэтому умеют:
✔️ Понимать сложные связи между словами
✔️ Генерировать осмысленные ответы
✔️ Масштабироваться до сотен миллиардов параметров

🎨 Это уже больше похоже на искусство.

Кто-нибудь, замедлите, пожалуйста, мозг не успевает обработать.

🐸

Библиотека дата-сайентиста

#развлекалово

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5😁4❤2🔥2

1.97K views18:15

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

🚀 Удобная работа с JSON для Data Scientists

JSON Hero облегчает чтение, анализ и проверку JSON-файлов, что особенно полезно для работы с API, данными и ML-пайплайнами.

Основные возможности:
➡️ Просмотр данных в Column, Tree или Editor View
➡️ Автоопределение типов значений и полезные превью
➡️ Генерация JSON Schema для валидации данных
➡️ Быстрый поиск по ключам и значениям
➡️ Поддержка клавиатуры и sharable URL с путями

Почему полезно для Data Scientists: быстро проверять данные из API, JSON-логи, ML-пайплайны и легко делиться структурой данных с коллегами.

🔗 Работает даже в браузере

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👍4🔥2

1.66K views06:59

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Мы сделаем вам предложение, от которого невозможно отказаться 🤌

Вы покупаете себе курс «Математика для Data Science» от преподавателей ВМК МГУ, а мы дарим второй такой же курс вашему другу.

Предложение действует только до 1 сентября. Ничего личного, просто математика.

👉 Принять предложение

1.61K views09:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👉 В чём разница между self-attention и cross-attention

Self-attention:
➡️ Queries, keys и values берутся из одной последовательности.
➡️ Каждый токен «смотрит» на остальные, включая себя, чтобы учесть контекст.
➡️ Пример: слово bank может учитывать соседние слова river или money, чтобы выбрать правильное значение.
➡️ Используется для поиска зависимостей внутри последовательности (текста, документа и т.д.).

🔹 Cross-attention:
➡️ Queries берутся из одной последовательности, а keys и values — из другой.
➡️ Позволяет одной последовательности «фокусироваться» на информации из другой.
➡️ Примеры:
• В машинном переводе декодер через cross-attention обращается к репрезентациям энкодера.
• В мультимодальных моделях текст может «смотреть» на признаки изображения, чтобы сгенерировать описание.

📌 Легко запомнить:
• Self-attention → внутри одного источника (понимание контекста).
• Cross-attention → связывание двух источников (перевод, мультимодальные задачи, RAG).

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7❤3😍1

1.8K views17:59

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📢 Какой сетап идеально подойдёт для разработки AI-агента?

Голосуйте за свой вариант и пишите в комментариях, в каком режиме вы реально кодите.

❤️ — 1
👍 — 2
⚡️ — 3
👏 — 4
🔥 — 5
🎉 — 6
😁 — 7
😍 — 8
🤩 — 9

Какой бы сетап ни был, без AI-агентов в 2025 всё равно далеко не уедешь.

👉 Научим, как строить агентов, которые кодят с тобой

🔥11👍8😁8😍6🎉4🤩3❤1

1.71K views19:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧐 Новые VLM-OCR модели vs «традиционный» OCR

С каждым днём появляются новые модели vision-language для OCR — как они справляются по сравнению с привычными системами?

Представляем OCR Time Capsule — инструмент для сравнения OCR на 11,000+ документах.

Основные возможности:
🟡 Быстрый визуальный браузер страниц
🟡 Сравнение XML OCR и VLM-результатов бок о бок
🟡 Метрики качества на уровне символов
🟡 Экспорт результатов для дальнейшего анализа

✔️ Датасет
✔️ Просмотреть результаты
✔️ Демо

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤2🔥1

1.83K views08:21

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

📊 trackio: библиотека для трекинга экспериментов в Python

trackio — это бесплатная и лёгкая библиотека для отслеживания экспериментов, построенная на Hugging Face Datasets и Spaces.

✅ API совместимо с wandb: wandb.init, wandb.log, wandb.finish. Можно использовать как drop-in замену:

import trackio as wandb

✅ Local-first: дашборд работает локально по умолчанию. Можно разместить на Hugging Face Spaces, указав space_id.
✅ Локальное хранение логов (или в приватный Hugging Face Dataset).
✅ Визуализация экспериментов через Gradio — локально или на Hugging Face Spaces.
✅ Всё бесплатно, включая хостинг на Hugging Face.

Идеально подходит для исследователей и дата-сайентистов, которым нужен простой и бесплатный инструмент для трекинга экспериментов.

📱

Репозиторий

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4🔥3👍1

1.6K viewsedited 17:47

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🎶 audioFlux: Deep Learning для анализа аудио

audioFlux — это библиотека глубокого обучения для анализа аудио и музыки.

Она поддерживает:
➡️ десятки методов временно-частотных преобразований,
➡️ сотни комбинаций признаков во временной и частотной областях,
➡️ извлечение фич для обучения нейросетей.

С помощью audioFlux можно решать задачи:
➡️ классификации,
➡️ разделения источников,
➡️ Music Information Retrieval (MIR),
➡️ автоматического распознавания речи (ASR).

Идеальный инструмент для тех, кто работает с аудиосигналами и хочет быстро переходить от признаков к моделям.

📱

Репозиторий

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍3

1.65K views06:57

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🚩

Гайд по pytest для Data Scientists

pytest — это популярный фреймворк для тестирования Python-кода. Он прост в использовании, но при этом мощный.

💡 В дата-сайенсе pytest особенно полезен для проверки функций, NumPy-массивов и pandas DataFrame.

Лучший способ — заранее определить ожидаемое поведение функции в разных сценариях и проверить, что она ему соответствует.

Например, тестирование функции для извлечения сентимента текста:

# sentiment.py

def test_extract_sentiment_positive():
    text = "I think today will be a great day"
    sentiment = extract_sentiment(text)
    assert sentiment > 0

def test_extract_sentiment_negative():
    text = "I do not think this will turn out well"
    sentiment = extract_sentiment(text)
    assert sentiment < 0

Такой подход:
— выявляет крайние случаи,
— позволяет безопасно заменять код улучшенными версиями, не ломая весь пайплайн,
— помогает коллегам быстрее понять, как должна работать функция.

В этом гайде:
— написание простых и читаемых тестов,
— параметризация,
— фикстуры,
— мокинг.

📌 Всё, чтобы сделать дата-сайенс-воркфлоу надёжнее и ближе к продакшену.

🔗

Ссылка на гайд

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍4

1.56K views18:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

⏰ Осталось 48 часов!

Обратный отсчёт пошёл: только до воскресенья 23:59 можно купить курс «AI-агенты для DS-специалистов» и начать учиться уже с 15 сентября.

⚡️ Это ваши +3 недели форы, чтобы спокойно разобраться в самых сложных темах и прийти к первому занятию 7 октября уже подготовленным.

👉 Забрать место

🥱1

1.62K views19:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💯

🐸

Библиотека дата-сайентиста

#развлекалово

Please open Telegram to view this post

VIEW IN TELEGRAM

😁5👍2

1.85K views06:56

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🐸

Библиотека дата-сайентиста

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

1.82K views13:18

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Какой метод скалирования признаков был применен?

Anonymous Quiz

👍3😁1

375 voters1.72K views13:18

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤓 «Сначала выучу Python идеально, а потом пойду в ML»

Звучит логично, но на практике — ловушка.
Python огромный: фреймворки, библиотеки, нюансы синтаксиса. Учить «всё сразу» можно бесконечно.

В итоге — месяцы зубрёжки, а до ML руки так и не доходят.

На старте достаточно баз: типы данных, циклы, функции, работа с библиотеками. Всё остальное лучше подтягивать в процессе решения ML-задач.

⚠️ До 1 сентября курсы можно забрать по старым ценам. Это последние выходные, когда:
— ML идёт за 34 000 вместо 44 000 ₽ + Python в подарок,
— два в одном: оплатите курс по математике и получите второй доступ в подарок,
— и главное: можно купить все курсы до подорожания.

👉 ML для старта в Data Science

А для будущих Data Scientist’ов у нас ещё:
— Базовые модели ML и приложения
— Математика для Data Science
— AI-агенты для DS-специалистов (2-й поток скоро)

1.74K views15:31

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🆕

Свежие новости для дата‑сайентистов

🧑‍💻 Практика и ресурсы
— OpenAI’s Tips for Coding— шпаргалка по использованию GPT-5 для кода.
— Foundations of Large Language Models — бесплатный 200-страничный гайд по LLM.
— Обзор математики для начинающего ML-инженера — концентрат основ.
— Производные, градиенты, матрицы Якоби и Гессе — разбор для практикующих.

🧬 AI в науке
— OpenAI × Retro Biosciences — ИИ-модель перепроектировала белки для омоложения клеток.
— Google Gemini 2.5 — новая модель для редактирования изображений.
— 5 задач, которые UX-исследователи Авито решают с помощью нейросетей — реальные бизнес-кейсы.

📊 Исследования и бенчмарки
— TabArena — первый живой бенчмарк для табличных данных.
— Why Stacking Sliding Windows Can’t See Very Far — разбор фундаментальных ограничений sliding window attention.
— R-Zero — фреймворк для самообучающихся LLM, которые генерируют собственные датасеты с нуля и улучшают рассуждения.

⚡️ Инструменты и библиотеки
— oLLM — лёгкая Python-библиотека для LLM-инференса на длинных контекстах.

🌍 Новости индустрии
— AI Needs Open Source — Peter Wang (Anaconda) о ценности open source для бизнеса и исследований.
— TIME 100 Most Influential in AI (2025) — в списке лидеры вроде Сэма Альтмана и Илона Маска, а также новые фигуры, включая CEO DeepSeek.

🐸

Библиотека дата-сайентиста

#свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍3

1.84K viewsedited 11:35

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

ПОСЛЕДНИЙ ДЕНЬ❗
КУРСЫ ПОДОРОЖАЮТ ЗАВТРА‼️

— ML за 34к вместо 44к + Python в подарок
— Математика → второй доступ в подарок
— Ранний доступ к AI-агентам с 15 сентября
— И МОЖНО УСПЕТЬ КУПИТЬ ВСЁ ДО ПОДОРОЖАНИЯ

👉 Proglib Academy

🔥2

1.74K views15:22

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Если хочется чувствовать себя уверенно не только в метриках, но и в построении моделей:
— AI-агенты в Data Science
— ML для старта в Data Science

🐸

Библиотека задач по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

1.73K views07:08