Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.7K subscribers
2.26K photos
115 videos
64 files
4.68K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
🆕 Свежие новости для дата‑сайентистов

🔥 Основные новости и исследования
GPT-5 Coding Tips — OpenAI выпустила шпаргалку по использованию GPT-5 для кодинга.
GPT-5 обходит врачей на медицинских экзаменах — модель превосходит GPT-4o и человеческих специалистов по диагностическим и мультимодальным задачам.
Gemma 3 270M From Scratch – Google выпустил компактный LLM Gemma 3 (270M параметров) для локального fine-tuning.
Geoffrey Hinton о том, что AI узнал от мозга — пионер глубокого обучения обсуждает биологическое vs. цифровое вычисление.
PyTorch vs TensorFlow — новое исследование сравнивает два лидирующих DL-фреймворка.
From GPT-2 to gpt-oss — подробный анализ gpt-oss-20B/120B и их сравнение с Qwen3 по архитектуре, масштабированию и производительности.
Sam Altman о GPT-6 — GPT-6 будет быстрее GPT-5, с акцентом на память и персонализацию моделей.
Top 50 LLM Interview Questions —подготовка к интервью по большим языковым моделям.


💡 Статьи и обучающие материалы
Производные, градиенты, матрицы Якоби и Гессе
Градиентный бустинг для новичков
Парадигмы обучения на нескольких GPU
Эволюция внимания в LLM: от квадратичной сложности к эффективным оптимизациям

🐸 Библиотека дата-сайентиста

#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍3
🙃 Если такие трюки с Python кажутся прикольными, то представьте, как весело будет, когда списки, матрицы и даже модели начнут распаковываться сами:
AI-агенты в Data Science
ML для старта в Data Science

🐸 Библиотека задач по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
📌Добавляем 3 сентября в календари!

Авито устраивает IT-квест и вечеринку для инженеров в секретном месте в честь открытия офиса в Нижнем Новгороде.

Обещают много нетворка, Fuckup Night и инсайты о том, что у Авито «под капотом». Пересылайте пост друзьям, с которыми пойдёте, и не забудьте зарегистрироваться по ссылке.
Please open Telegram to view this post
VIEW IN TELEGRAM
1
💡Big Data — это не только модный термин, а фундамент современной аналитики и AI. Apache Spark — инструмент, который используют крупнейшие компании по всему миру. Хотите понять, как он работает, и применить его в своей практике?

28 августа в 18:00 мы проведем открытый вебинар «Практическое введение в Apache Spark». За 1,5 часа вы узнаете, зачем нужен Spark, как разворачивать тестовую среду в Docker, работать с DataFrame API и Spark SQL, оптимизировать запросы и избегать типичных ошибок.

Вместе разберем реальный кейс на небольшом датасете и вы увидите, что обработка больших данных может быть быстрой и удобной.

➡️ Открытый урок проходит в преддверии старта курса «Spark Developer», все участники получат скидку на обучение. Регистрируйтесь прямо сейчас: https://clc.to/AZVqOg

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
👍3
💎 YouTube-канал, который стоит сохранить каждому, кто изучает ML

Кладезь коротких и понятных объяснений по ключевым концепциям ML. Автор делится тем, что сам изучает в процессе, и превращает сложные темы в доступные видео.

Уже есть разборы тем:
— Кросс-энтропия
— MCMC (Марковская цепь Монте-Карло)
— Распределение Бернулли
— Нормальное распределение
— Теорема Байеса
— Симуляция Монте-Карло
...

Всё в формате «коротко и по делу» — идеальные видео-шпаргалки.

➡️ Ссылка на канал: https://clc.to/VZRrFA

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7👍43
This media is not supported in your browser
VIEW IN TELEGRAM
✔️ trackers: все ведущие алгоритмы multi-object tracking в одном месте

trackers — это единая библиотека с чистыми реализациями популярных алгоритмов трекинга.

Модульная архитектура позволяет легко менять трекеры и интегрировать их с детекторами объектов из разных библиотек: inference, ultralytics, transformers.

💡 Особенности:
— Универсальная интеграция с разными детекторами
— Лёгкое переключение между трекерами
— Подходит для исследовательских и производственных проектов

📱 GitHub

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍63
This media is not supported in your browser
VIEW IN TELEGRAM
Так, владелец макбука. Хватит позировать в кофейне.

Настоящее портфолио — это не стикеры на крышке, а проект с чистым кодом, README и рабочей демкой.

Не знаешь, как такой собрать? Научим. Наш курс «ML для старта в Data Science» — это пошаговый гайд к проекту, за который не стыдно.

ОСТАЛАСЬ НЕДЕЛЯ, чтобы забрать его по старой цене в 44.000 ₽. С 1 сентября — всё.

🎁 И да, при покупке курса ML до 1 сентябрякурс по Python получаешь бесплатно.

👉 Апгрейд от «вайба» до «оффера» тут
🥱31
This media is not supported in your browser
VIEW IN TELEGRAM
🤣 Вот так выглядит ChatGPT изнутри (не пытайтесь понять с первого раза)

Это архитектура Generative Pre-trained Transformer (GPT) — базовая штука, на которой построены все LLM вроде ChatGPT. И да, выглядит гипнотизирующе.

В отличие от «старых» моделей, которые читают слова по одному, Transformers используют attention, анализируют сразу весь контекст, и именно поэтому умеют:
✔️ Понимать сложные связи между словами
✔️ Генерировать осмысленные ответы
✔️ Масштабироваться до сотен миллиардов параметров

🎨 Это уже больше похоже на искусство.

Кто-нибудь, замедлите, пожалуйста, мозг не успевает обработать.

🐸 Библиотека дата-сайентиста

#развлекалово
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5😁42🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Удобная работа с JSON для Data Scientists

JSON Hero облегчает чтение, анализ и проверку JSON-файлов, что особенно полезно для работы с API, данными и ML-пайплайнами.

Основные возможности:
➡️ Просмотр данных в Column, Tree или Editor View
➡️ Автоопределение типов значений и полезные превью
➡️ Генерация JSON Schema для валидации данных
➡️ Быстрый поиск по ключам и значениям
➡️ Поддержка клавиатуры и sharable URL с путями

Почему полезно для Data Scientists: быстро проверять данные из API, JSON-логи, ML-пайплайны и легко делиться структурой данных с коллегами.

🔗 Работает даже в браузере

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍4🔥2
Мы сделаем вам предложение, от которого невозможно отказаться 🤌

Вы покупаете себе курс «Математика для Data Science» от преподавателей ВМК МГУ, а мы дарим второй такой же курс вашему другу.

Предложение действует только до 1 сентября. Ничего личного, просто математика.

👉 Принять предложение
VK JT возвращается, и на этот раз — в Минске! Митап о новых технологиях пройдёт 5 сентября: ждут лучших ML-инженеров, Go- и Java-разработчиков. Никакой теории — только реальные кейсы, множество докладов и их обсуждение. Темы выступлений: от экспериментальных AI-технологий до матрёшек в облачной инфраструктуре. Приходите прокачивать скиллы и знакомиться с коллегами!

Регистрация — по ссылке.
2
👉 В чём разница между self-attention и cross-attention

Self-attention:
➡️ Queries, keys и values берутся из одной последовательности.
➡️ Каждый токен «смотрит» на остальные, включая себя, чтобы учесть контекст.
➡️ Пример: слово bank может учитывать соседние слова river или money, чтобы выбрать правильное значение.
➡️ Используется для поиска зависимостей внутри последовательности (текста, документа и т.д.).

🔹 Cross-attention:
➡️ Queries берутся из одной последовательности, а keys и values — из другой.
➡️ Позволяет одной последовательности «фокусироваться» на информации из другой.
➡️ Примеры:
• В машинном переводе декодер через cross-attention обращается к репрезентациям энкодера.
• В мультимодальных моделях текст может «смотреть» на признаки изображения, чтобы сгенерировать описание.

📌 Легко запомнить:
• Self-attention → внутри одного источника (понимание контекста).
• Cross-attention → связывание двух источников (перевод, мультимодальные задачи, RAG).

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍63😍1
📢 Какой сетап идеально подойдёт для разработки AI-агента?

Голосуйте за свой вариант и пишите в комментариях, в каком режиме вы реально кодите.

❤️ — 1
👍 — 2
⚡️ — 3
👏 — 4
🔥 — 5
🎉 — 6
😁 — 7
😍 — 8
🤩 — 9

Какой бы сетап ни был, без AI-агентов в 2025 всё равно далеко не уедешь.

👉 Научим, как строить агентов, которые кодят с тобой
👍7😁7🔥6😍6🤩31🎉1
🧐 Новые VLM-OCR модели vs «традиционный» OCR

С каждым днём появляются новые модели vision-language для OCR — как они справляются по сравнению с привычными системами?

Представляем OCR Time Capsule — инструмент для сравнения OCR на 11,000+ документах.

Основные возможности:
🟡 Быстрый визуальный браузер страниц
🟡 Сравнение XML OCR и VLM-результатов бок о бок
🟡 Метрики качества на уровне символов
🟡 Экспорт результатов для дальнейшего анализа

✔️ Датасет
✔️ Просмотреть результаты
✔️ Демо

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍52
This media is not supported in your browser
VIEW IN TELEGRAM
📊 trackio: библиотека для трекинга экспериментов в Python

trackio — это бесплатная и лёгкая библиотека для отслеживания экспериментов, построенная на Hugging Face Datasets и Spaces.

API совместимо с wandb: wandb.init, wandb.log, wandb.finish. Можно использовать как drop-in замену:
import trackio as wandb


Local-first: дашборд работает локально по умолчанию. Можно разместить на Hugging Face Spaces, указав space_id.
Локальное хранение логов (или в приватный Hugging Face Dataset).
Визуализация экспериментов через Gradio — локально или на Hugging Face Spaces.
Всё бесплатно, включая хостинг на Hugging Face.

Идеально подходит для исследователей и дата-сайентистов, которым нужен простой и бесплатный инструмент для трекинга экспериментов.

📱 Репозиторий

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
3🔥1