Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение – Telegram

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

18.4K subscribers

2.41K photos

121 videos

64 files

4.87K links

Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9

Download Telegram

About

Blog

Apps

Platform

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

18.4K subscribers

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🚀 Главная ошибка новичка в ML — строить звездолёт вместо велосипеда

Многие сразу хотят свою Midjourney, но в итоге получают только выгорание.

Успех начинается с «велосипеда»: научитесь предсказывать цены или классифицировать отзывы. Освойте базу, а уже потом стройте «звездолёты».

Наш курс «ML для старта в Data Science» — это и есть тот самый правильный старт от простого к сложному.

👉 Начните правильно

Берёте курс «ML для старта» до конца недели — Python в подарок.

❗А 21 августа пройдет бесплатный вебинар с Марией Жаровой: узнаете, какие проекты качают скилл, а какие качают ваши нервы.

А какой самый сложный проект вы брались делать в самом начале? 🫢

🌚1

1.67K views19:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

✅

Фишка инструмента: Google выпустил LangExtract

LangExtract — open-source Python-библиотеку, которая превращает хаос неструктурированного текста в идеально структурированные данные с хирургической точностью.

Применения:
— извлечение транзакций из банковских выписок
— определение дозировок лекарств из клинических записей
— выделение условий контрактов из юридических документов

Ключевые фичи:
😶‍🌫️ Точная привязка к источнику — каждое поле содержит офсеты символов для полной трассировки и визуализации прямо в тексте.
😶‍🌫️ Контролируемая генерация с few-shot — задаёшь схему и пару примеров, и модель строго выдаёт нужный формат, без рандомных «галлюцинаций».
😶‍🌫️ Оптимизация для длинного контекста — умная нарезка, параллельная обработка, многопроходное извлечение.
😶‍🌫️ Гибкость по доменам — медицина, финансы, юриспруденция и многое другое без дообучения.

Достаточно задать промпт и пример, и LangExtract вернёт JSON, где каждое поле можно отследить до исходного текста. Работает с Gemini из коробки и поддерживает локальные LLM через Ollama для приватных задач.

🔗 Подробнее о LangExtract

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👍4

1.88K views07:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

↔️

8 RAG-архитектур, которые должен знать каждый

Retrieval-Augmented Generation (RAG) — подход, когда LLM дополняется внешними источниками знаний для точных и актуальных ответов.

Ниже — быстрый обзор популярных архитектур:

1️⃣

Naive RAG
Базовый RAG для простых задач. Простейшая реализация без адаптивной логики.

2️⃣

Multimodal RAG
Работает с разными типами данных: текст, изображения, аудио.

3️⃣

HyDE
Генерирует гипотетический документ (Hypothetical Response) для улучшения поиска и контекста.

4️⃣

Corrective RAG
Автоматическая проверка фактов и корректировка ответа с использованием внешних источников.

5️⃣

Graph RAG
Использует графовые базы данных для сложных связей между сущностями.

6️⃣

Hybrid RAG
Гибридный подход: объединяет графовые и векторные хранилища для более точного контекста.

7️⃣

Adaptive RAG
Многоступенчатое рассуждение с адаптивным выбором стратегии поиска и генерации.

8️⃣

Agentic RAG
Многоагентная система с планированием действий, короткой и длинной памятью, распределёнными агентами.

Совет по выбору:
— Простые задачи → Naive RAG
— Мультимодальные данные → Multimodal RAG
— Проверка фактов → Corrective RAG
— Сложные связи → Graph / Hybrid RAG
— Многоступенчатое рассуждение → Adaptive RAG
— Комплексные агентные системы → Agentic RAG

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍2🤔1😍1

2.17K views18:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧠 Выбор первого ML-проекта: чеклист против выгорания

Классика плохих решений в ML — выбрать слишком сложный проект: неделя ковыряния в коде, десятки крашей и никакого результата. Хотите дойти до финиша — начните с простого проекта, который реально можно довести до конца.

Мини-чеклист первого проекта:

1. Понятные данные — без «я нашёл датасет в даркнете, но он на суахили».

2. Измеримая метрика — «точность 92%», а не «ну вроде работает».

3. Объяснимый результат — чтобы не-техлид понял, почему модель ругается на спам.

Наш курс «ML для старта в Data Science» — старт от простого к сложному: теория → практика → проверка → проект в портфолио.

👉 Начать свой путь в Data Science

Оплатите курс по ML до 17 августа — курс по Python в подарок.

📅 Бесплатный вебинар с Марией Жаровой — 21 августа: как выбирать проекты, которые доводят до оффера, а не до психотерапевта.

💾 Сохрани, чтобы не потерять, когда будешь готов(а) начать

❤3🔥2🌚1

1.74K views19:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

superpower unlocked 🤣

🐸

Библиотека дата-сайентиста

#развлекалово

Please open Telegram to view this post

VIEW IN TELEGRAM

😁15👍5❤3💯3⚡1🔥1🎉1

1.86K views09:40

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🐸

Библиотека дата-сайентиста

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

1.93K views13:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Какой график показывает город с аномально высокой температурой?

Anonymous Quiz

❤3

442 voters1.79K views13:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🆕

Свежие новости для дата‑сайентистов

⚙️ Модели и технологии
— OpenAI снижает стоимость инференса на 75% — новый формат данных MXFP4 позволяет размещать 120B-параметрическую модель на 80 GB VRAM.
— Attention Sinks: как стабилизировать LLM — MIT показали, что первые 4 токена можно использовать как якоря внимания.
— Hugging Face выпустила AI Sheets — можно обогащать/трансформировать датасеты с помощью моделей (включая gpt-oss).
— Mistral Medium 3.1 — улучшены reasoning, кодирование и мультимодальность.
— LangExtract (Google) — Python-библиотека, которая превращает произвольный текст в структурированные данные.
— Byte Latent Transformer (Meta) — модель начинает с сырых байтов и сама учится группировать их.
— Gemma 3 270M (Google) — мини-версия открытой Gemma, заточенная под скорость и небольшие задачи.
— TRIBE от Meta — тримодальная модель (видео + аудио + текст), которая на 30 % лучше предсказывает реакцию человеческого мозга при просмотре фильмов.

🔍 Исследования и гайды
— AI research interviews — опыт устройства в OpenAI, советы и инсайты.
— Prompt migrator + optimizer для GPT-5 — OpenAI добавила инструмент миграции/оптимизации промптов прямо в Playground.
— DINOv3 (Meta) — масштабируемая self-supervised модель для изображений (веб, спутники и т.д.), state-of-the-art без размеченных данных.

🐸

Библиотека дата-сайентиста

#свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

❤9👍3

1.81K views13:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

🐸

Библиотека задач по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

1.71K views07:54

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Что выведет код?

Anonymous Quiz

❤1

261 voters1.64K views07:54

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔥 Последняя неделя, чтобы забрать курс по AI-агентам по старой цене!

Пока вы тестируете Copilot, другие уже учатся строить AI-агентов, которые реально работают на бизнес. Хватит отставать!

Наш курс — это концентрат практики по LangChain и RAG. Улучшенная версия, доработанная по отзывам первого потока.

📆 Старт — 15 сентября.

💸 Цена 49 000 ₽ — только до 24 августа.

👉 Зафиксировать цену

1.74K views15:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💻

Топ-вакансий для дата-сайентистов за неделю

Data Engineer — от 280 000 до 350 000 ₽, гибрид (Москва, Санкт-Петербург)

ML-разработчик (ML для авторов в VK Видео) — от 350 000 ₽, гибрид (Москва)

GIS Data Engineer / Analyst (Middle+, 25h/w) — от 2100 до 2600 $, удалёнка

Data Engineer — от 250 000 до 300 000 ₽, удалёнка

LLM Engineer \ ML инженер — до 350 000 ₽, удалёнка

➡️ Еще больше топовых вакансий — в нашем канале Data jobs

🐸

Библиотека дата-сайентиста

Please open Telegram to view this post

VIEW IN TELEGRAM

😁1

1.8K views18:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🫣 Хотите в Data Science, но боитесь высшей математики?

Хорошая новость: вам не нужно становиться математиком. Вам нужно освоить конкретные разделы, которые реально используются в работе и на собеседованиях.

Именно этому учат преподаватели ВМК МГУ на нашем курсе «Математика для Data Science».

Без лишней воды — только то, что нужно для:

✅ успешного поступления в ШАД Яндекса;
✅ прохождения собеседований уровня FAANG;
✅ глубокого понимания ML-алгоритмов.

Это самый прямой путь к математическому фундаменту, на котором строится вся карьера в Data Science.

👉 Начните строить свою карьеру уже сегодня

❤1

1.86K views19:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

How to: инициализация весов в нейросетях (Xe vs He)

Как задать правильную стартовую точку обучения, чтобы сеть не «затухла» и не «взорвалась»? Ниже — краткая шпаргалка по двум основным алгоритмам инициализации: Xavier и He.

🔎

Xavier (Glorot)
— Подойдёт, если используете Tanh или Sigmoid

Дисперсия весов:

Var[w_i] = 2 / (n_in + n_out)

— Балансирует входы и выходы слоя
— Хорошо работает с симметричными активациями
— С ReLU часто умирают половина нейронов → обучение замедляется

🔎

He (Kaiming)
— Подойдёт для ReLU / GELU / Leaky ReLU

Дисперсия весов:

Var[w_i] = 2 / n_in

— Учитывает, что часть активаций обнуляется
— Специально заточен под ReLU-подобные функции
— Стал стандартом (ResNet, ViT, GPT-подобные модели)

PyTorch реализация:

nn.init.xavier_uniform_(layer.weight)                      # Xe
nn.init.kaiming_uniform_(layer.weight, nonlinearity='relu') # He

Вывод:
— ReLU и его модификации → берите He.
— Tanh/Sigmoid → выбирайте Xavier.
— Если сомневаетесь — He почти всегда будет безопасным выбором.

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍2🔥1

1.62K viewsedited 09:21

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🌟 Визуализация эмбедингов прямо в браузере

Embedding Atlas — это облако из миллионов векторов, которое не просто красиво двигается, а позволяет кликнуть на любую точку → найти похожие данные → отфильтровать по нужному классу → мгновенно увидеть структуру датасета.

И всё это — локально, прямо в браузере, без отправки данных на сервер, с поддержкой WebGPU.

Основные фичи:
✅ Автоматические кластеры с подписью и контурами плотности.
✅ Четкая визуализация без «каши» из точек (order-independent transparency).
✅ Поиск ближайших соседей и мгновенное выделение похожих данных.
✅ Фильтры по метаданным — выбирайте класс на гистограмме, и визуализация оставит только нужные точки.

Как использовать:
✅ Python-пакет: командная строка, Jupyter виджет, Streamlit компонент.
✅ Npm-пакет: встроенные UI-компоненты для веб-приложений: Table, EmbeddingView, EmbeddingAtlas.

💡 Если вы работаете с ML, LLM, данных или просто любите красивые визуализации — сохраните этот инструмент, он вам точно пригодится.

✔️

Страница проекта

✔️

Документация

📱

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6❤3👍3

1.69K views17:59

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

⚡️ Бесплатный вебинар — прогнозируем цены и не сходим с ума

21 августа в 19:00 МСК будет бесплатный вебинар с Марией Жаровой — экспертом в ML и Data Science.

Тема:

«Введение в машинное обучение: как спрогнозировать стоимость недвижимости».

Подробности рассказываю в гс выше — включай, чтобы не пропустить.

👏2

1.67K viewsedited 19:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📄 RAG-ready из любого документа за пару строк

Реальные документы слишком сложные для прямой работы LLM. Tensorlake превращает неструктурированные данные в RAG-ready формат всего за пару строк кода.

Что умеет Tensorlake:
👉 Работает с документами, изображениями, CSV, презентациями и др.
👉 Поддержка сложных макетов, рукописных заметок и мультиязычных данных.
👉 Возвращает layout документа, классификацию страниц, bounding boxes и многое другое.
👉 Можно задавать JSON-схему для извлечения нужных данных.

⚡️ Мгновенно готово к работе с LLM и retrieval pipelines!

📱

GitHub

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡7🔥4👍3❤2

2.19K viewsedited 07:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

☝️ Один мудрый тимлид дал двум своим разработчикам по «таланту» — мощной, но своенравной LLM.

Первый разработчик испугался её «галлюцинаций». Он запер модель в песочнице, не давая ей доступа к свежим данным. На вопросы модель отвечала красиво, но часто придумывала факты, то есть врала. Он просто «закопал» свой талант, боясь им пользоваться.

Второй же разработчик не побоялся. Он построил для своей LLM систему RAG — дал ей «лопату и карту», чтобы находить сокровища в базе знаний компании. Его AI-агент отвечал точно по делу, ссылаясь на реальные документы. Он заставил свой «талант» работать и приносить пользу.

Мощь LLM раскрывается не в ней самой, а в системах, которые вы строите вокруг неё.

Именно такие системы мы и будем строить на втором потоке нашего курса «AI-агенты для DS-специалистов». Мы не просто поговорим о RAG, а соберём полный пайплайн с оценкой качества, чтобы ваш агент не врал.

Представьте, что вы сможете начать изучать эту сложную и востребованную тему уже 15 сентября, а не ждать официального старта в октябре. У вас будет фора в 3 недели, чтобы спокойно разобраться в векторных базах и подходе «LLM as a Judge».

💸 Цена 49.000 ₽ действует последние 4 дня — до 24 августа.

👉 Начать строить RAG раньше других

👍1

1.74K viewsedited 14:58

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

⭐

gpt-oss, Qwen, Gemma — один гайд, чтобы запускать и тюнить всё

Вышел подробный туториал по тому, как запускать и дообучать gpt-oss (LLM) локально.

Что внутри:
• FAQ по локальному обучению + инференсу
• Подбор гиперпараметров и как не словить overfitting
• Подготовка данных
• Экспорт модели в GGUF (llama.cpp) и загрузка в Hugging Face

Дополнительно на этой странице есть другие туториалы:
• Qwen3 / Qwen3-Coder — запуск локально
• Kimi-K2
• Llama 4
• Vision fine-tuning
• RL & TTS fine-tuning

Особенно крутая часть — vision fine-tuning:
— можно дообучать мультимодальные модели (Gemma 3, Llama 3.2 Vision, Qwen2.5 VL и др.)
— выбирать, какие именно части модели дообучать (vision / language / attention / MLP)

🔗

Ссылка на туториалы

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍12🔥4❤3

1.91K viewsedited 17:59

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📊 Шпаргалка для машинного обучения: 10 алгоритмов и их временная сложность — всегда под рукой.

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8👍4🤔1

1.82K views07:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

📅 Сегодня в 19:00 МСК — бесплатный вебинар с Марией Жаровой.

Тема: «Введение в ML: как спрогнозировать стоимость недвижимости».

🔹 Разберём задачу прогноза стоимости недвижимости.
🔹 Покажем пошагово, как собрать первую модель.
🔹 Получите готовые скрипты для старта.

Не зайдёшь — будешь ещё год делать вид, что понимаешь графики в чужих презентациях.

👉 Регистрируйтесь

❤1🔥1

1.75K views13:30