Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение – Telegram

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

18.4K subscribers

2.44K photos

124 videos

64 files

4.9K links

Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9

Download Telegram

About

Blog

Apps

Platform

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

18.4K subscribers

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

⚡️ Бесплатный вебинар — прогнозируем цены и не сходим с ума

21 августа в 19:00 МСК будет бесплатный вебинар с Марией Жаровой — экспертом в ML и Data Science.

Тема:

«Введение в машинное обучение: как спрогнозировать стоимость недвижимости».

Подробности рассказываю в гс выше — включай, чтобы не пропустить.

👏2

1.68K viewsedited 19:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📄 RAG-ready из любого документа за пару строк

Реальные документы слишком сложные для прямой работы LLM. Tensorlake превращает неструктурированные данные в RAG-ready формат всего за пару строк кода.

Что умеет Tensorlake:
👉 Работает с документами, изображениями, CSV, презентациями и др.
👉 Поддержка сложных макетов, рукописных заметок и мультиязычных данных.
👉 Возвращает layout документа, классификацию страниц, bounding boxes и многое другое.
👉 Можно задавать JSON-схему для извлечения нужных данных.

⚡️ Мгновенно готово к работе с LLM и retrieval pipelines!

📱

GitHub

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡7🔥4👍3❤2

2.21K viewsedited 07:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

☝️ Один мудрый тимлид дал двум своим разработчикам по «таланту» — мощной, но своенравной LLM.

Первый разработчик испугался её «галлюцинаций». Он запер модель в песочнице, не давая ей доступа к свежим данным. На вопросы модель отвечала красиво, но часто придумывала факты, то есть врала. Он просто «закопал» свой талант, боясь им пользоваться.

Второй же разработчик не побоялся. Он построил для своей LLM систему RAG — дал ей «лопату и карту», чтобы находить сокровища в базе знаний компании. Его AI-агент отвечал точно по делу, ссылаясь на реальные документы. Он заставил свой «талант» работать и приносить пользу.

Мощь LLM раскрывается не в ней самой, а в системах, которые вы строите вокруг неё.

Именно такие системы мы и будем строить на втором потоке нашего курса «AI-агенты для DS-специалистов». Мы не просто поговорим о RAG, а соберём полный пайплайн с оценкой качества, чтобы ваш агент не врал.

Представьте, что вы сможете начать изучать эту сложную и востребованную тему уже 15 сентября, а не ждать официального старта в октябре. У вас будет фора в 3 недели, чтобы спокойно разобраться в векторных базах и подходе «LLM as a Judge».

💸 Цена 49.000 ₽ действует последние 4 дня — до 24 августа.

👉 Начать строить RAG раньше других

👍1

1.75K viewsedited 14:58

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

⭐

gpt-oss, Qwen, Gemma — один гайд, чтобы запускать и тюнить всё

Вышел подробный туториал по тому, как запускать и дообучать gpt-oss (LLM) локально.

Что внутри:
• FAQ по локальному обучению + инференсу
• Подбор гиперпараметров и как не словить overfitting
• Подготовка данных
• Экспорт модели в GGUF (llama.cpp) и загрузка в Hugging Face

Дополнительно на этой странице есть другие туториалы:
• Qwen3 / Qwen3-Coder — запуск локально
• Kimi-K2
• Llama 4
• Vision fine-tuning
• RL & TTS fine-tuning

Особенно крутая часть — vision fine-tuning:
— можно дообучать мультимодальные модели (Gemma 3, Llama 3.2 Vision, Qwen2.5 VL и др.)
— выбирать, какие именно части модели дообучать (vision / language / attention / MLP)

🔗

Ссылка на туториалы

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍12🔥4❤3

1.93K viewsedited 17:59

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📊 Шпаргалка для машинного обучения: 10 алгоритмов и их временная сложность — всегда под рукой.

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8👍4🤔1

1.83K views07:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

📅 Сегодня в 19:00 МСК — бесплатный вебинар с Марией Жаровой.

Тема: «Введение в ML: как спрогнозировать стоимость недвижимости».

🔹 Разберём задачу прогноза стоимости недвижимости.
🔹 Покажем пошагово, как собрать первую модель.
🔹 Получите готовые скрипты для старта.

Не зайдёшь — будешь ещё год делать вид, что понимаешь графики в чужих презентациях.

👉 Регистрируйтесь

❤1🔥1

1.75K views13:30

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🚕 Как лог-трансформация спасла модель

Наш подписчик поделился лайфхаком, который снизил ошибку модели на 20% всего одной строкой кода.

В задаче регрессии (например, предсказание стоимости поездок Uber) оказалось, что таргет (fare) сильно скошен вправо: много маленьких значений + редкие, но вполне реальные высокие цены.

❌ Модели сложно учиться: редкие большие значения «тянут» распределение и портят общую картину.

➖

Простое решение — применить log1p к целевой переменной:
— большие значения сжимаются;
— малые почти не меняются;
— распределение становится ближе к нормальному;
— влияние «хвоста» снижается.

Схема:

y → log1p → модель → предсказания (log scale) → expm1 → предсказания (ориг. масштаб)

💡 Результат: MAE снизился на 20%.

Не магия, а классика — но про этот приём часто забывают. Если таргет имеет длинный правый хвост → лог-трансформация может резко улучшить качество.

🐸

Библиотека дата-сайентиста

#междусобойчик

Please open Telegram to view this post

VIEW IN TELEGRAM

👍11❤7

1.77K views18:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👆

Хочешь стать AI-инженером? Этот репозиторий — настоящая находка

Он уже собрал 60K⭐️ на GitHub и не зря: учит строить и тренировать LLM с нуля. Никакой воды — только практические навыки, которые нужны каждому будущему AI-инженеру.

Что в репозитории:
— Как LLM на самом деле работают
— Основы работы с текстовыми данными
— Реализация attention и GPT с нуля
— Предобучение на неразмеченных данных
— Финетюнинг для классификации и инструкций
— Основы CUDA и PyTorch, пошаговые видео, куча практики.

Для новичков и тех, кто хочет поднять уровень — этот репозиторий реально меняет правила игры.

📌 Репозиторий на GitHub

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7👍2🥰2

2K views07:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

🤔

Как рассчитать идеальный размер выборки ещё до начала исследования

Вы когда-нибудь теряли время и ресурсы на слишком маленькие или, наоборот, слишком большие выборки?

С помощью power analysis — расчёта размера выборки — вы можете заранее узнать, сколько участников нужно для достоверного результата.

Почему это важно:
✔️ Экономите время и деньги, не собирая лишние данные
✔️ Подбираете размер выборки под ожидаемый эффект
✔️ Контролируете уровень доверия и статистическую мощность исследования
✔️ Работает для t-тестов, ANOVA, регрессий и многих других тестов
✔️ Легко реализуется с бесплатными R-пакетами, например, pwr

Наглядно:
➡️ Слева: как размер выборки растёт при уменьшении ожидаемого эффекта — маленькие эффекты требуют больших групп.
➡️ Справа: пример расчёта для t-теста — точное количество участников на группу для желаемого уровня доверия и статистической мощности.

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍3

1.87K views17:59

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

требует двухчасового созвона 😎

🐸

Библиотека дата-сайентиста

#развлекалово

Please open Telegram to view this post

VIEW IN TELEGRAM

😁11👍2

1.91K views08:57

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🐸

Библиотека дата-сайентиста

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3

2.04K views13:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

На каком графике показана сильная линейная положительная корреляция?

Anonymous Quiz

😁4🤩2❤1

559 voters2.06K views13:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Отдыхаешь?

1.9K views16:30

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🆕

Свежие новости для дата‑сайентистов

🔥 Основные новости и исследования
— GPT-5 Coding Tips — OpenAI выпустила шпаргалку по использованию GPT-5 для кодинга.
— GPT-5 обходит врачей на медицинских экзаменах — модель превосходит GPT-4o и человеческих специалистов по диагностическим и мультимодальным задачам.
— Gemma 3 270M From Scratch – Google выпустил компактный LLM Gemma 3 (270M параметров) для локального fine-tuning.
— Geoffrey Hinton о том, что AI узнал от мозга — пионер глубокого обучения обсуждает биологическое vs. цифровое вычисление.
— PyTorch vs TensorFlow — новое исследование сравнивает два лидирующих DL-фреймворка.
— From GPT-2 to gpt-oss — подробный анализ gpt-oss-20B/120B и их сравнение с Qwen3 по архитектуре, масштабированию и производительности.
— Sam Altman о GPT-6 — GPT-6 будет быстрее GPT-5, с акцентом на память и персонализацию моделей.
— Top 50 LLM Interview Questions —подготовка к интервью по большим языковым моделям.

💡 Статьи и обучающие материалы
— Производные, градиенты, матрицы Якоби и Гессе
— Градиентный бустинг для новичков
— Парадигмы обучения на нескольких GPU
— Эволюция внимания в LLM: от квадратичной сложности к эффективным оптимизациям

🐸

Библиотека дата-сайентиста

#свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👍3

1.83K viewsedited 12:47

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

🙃 Если такие трюки с Python кажутся прикольными, то представьте, как весело будет, когда списки, матрицы и даже модели начнут распаковываться сами:
— AI-агенты в Data Science
— ML для старта в Data Science

🐸

Библиотека задач по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

1.66K views08:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Что выведет код?

Anonymous Quiz

381 voters1.58K views08:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💎 YouTube-канал, который стоит сохранить каждому, кто изучает ML

Кладезь коротких и понятных объяснений по ключевым концепциям ML. Автор делится тем, что сам изучает в процессе, и превращает сложные темы в доступные видео.

Уже есть разборы тем:
— Кросс-энтропия
— MCMC (Марковская цепь Монте-Карло)
— Распределение Бернулли
— Нормальное распределение
— Теорема Байеса
— Симуляция Монте-Карло
...

Всё в формате «коротко и по делу» — идеальные видео-шпаргалки.

➡️ Ссылка на канал: https://clc.to/VZRrFA

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥8👍4❤3

1.85K views17:54

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

✔️

trackers: все ведущие алгоритмы multi-object tracking в одном месте

trackers — это единая библиотека с чистыми реализациями популярных алгоритмов трекинга.

Модульная архитектура позволяет легко менять трекеры и интегрировать их с детекторами объектов из разных библиотек: inference, ultralytics, transformers.

💡 Особенности:
— Универсальная интеграция с разными детекторами
— Лёгкое переключение между трекерами
— Подходит для исследовательских и производственных проектов

📱

GitHub

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7❤3

1.74K views06:58

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

❗ Так, владелец макбука. Хватит позировать в кофейне.

Настоящее портфолио — это не стикеры на крышке, а проект с чистым кодом, README и рабочей демкой.

Не знаешь, как такой собрать? Научим. Наш курс «ML для старта в Data Science» — это пошаговый гайд к проекту, за который не стыдно.

ОСТАЛАСЬ НЕДЕЛЯ, чтобы забрать его по старой цене в 44.000 ₽. С 1 сентября — всё.

🎁 И да, при покупке курса ML до 1 сентября — курс по Python получаешь бесплатно.

👉 Апгрейд от «вайба» до «оффера» тут

🥱3❤1

1.76K views15:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

🤣 Вот так выглядит ChatGPT изнутри (не пытайтесь понять с первого раза)

Это архитектура Generative Pre-trained Transformer (GPT) — базовая штука, на которой построены все LLM вроде ChatGPT. И да, выглядит гипнотизирующе.

В отличие от «старых» моделей, которые читают слова по одному, Transformers используют attention, анализируют сразу весь контекст, и именно поэтому умеют:
✔️ Понимать сложные связи между словами
✔️ Генерировать осмысленные ответы
✔️ Масштабироваться до сотен миллиардов параметров

🎨 Это уже больше похоже на искусство.

Кто-нибудь, замедлите, пожалуйста, мозг не успевает обработать.

🐸

Библиотека дата-сайентиста

#развлекалово

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5😁4❤2🔥2

1.99K views18:15

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

🚀 Удобная работа с JSON для Data Scientists

JSON Hero облегчает чтение, анализ и проверку JSON-файлов, что особенно полезно для работы с API, данными и ML-пайплайнами.

Основные возможности:
➡️ Просмотр данных в Column, Tree или Editor View
➡️ Автоопределение типов значений и полезные превью
➡️ Генерация JSON Schema для валидации данных
➡️ Быстрый поиск по ключам и значениям
➡️ Поддержка клавиатуры и sharable URL с путями

Почему полезно для Data Scientists: быстро проверять данные из API, JSON-логи, ML-пайплайны и легко делиться структурой данных с коллегами.

🔗 Работает даже в браузере

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👍4🔥2

1.67K views06:59