Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📊 Шпаргалка для машинного обучения: 10 алгоритмов и их временная сложность — всегда под рукой.

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7👍4🤔1

1.31K views07:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

0:06

This media is not supported in your browser

VIEW IN TELEGRAM

📅 Сегодня в 19:00 МСК — бесплатный вебинар с Марией Жаровой.

Тема: «Введение в ML: как спрогнозировать стоимость недвижимости».

🔹 Разберём задачу прогноза стоимости недвижимости.
🔹 Покажем пошагово, как собрать первую модель.
🔹 Получите готовые скрипты для старта.

Не зайдёшь — будешь ещё год делать вид, что понимаешь графики в чужих презентациях.

👉 Регистрируйтесь

❤1🔥1

1.27K views13:30

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🚕 Как лог-трансформация спасла модель

Наш подписчик поделился лайфхаком, который снизил ошибку модели на 20% всего одной строкой кода.

В задаче регрессии (например, предсказание стоимости поездок Uber) оказалось, что таргет (fare) сильно скошен вправо: много маленьких значений + редкие, но вполне реальные высокие цены.

❌ Модели сложно учиться: редкие большие значения «тянут» распределение и портят общую картину.

➖

Простое решение — применить log1p к целевой переменной:
— большие значения сжимаются;
— малые почти не меняются;
— распределение становится ближе к нормальному;
— влияние «хвоста» снижается.

Схема:

y → log1p → модель → предсказания (log scale) → expm1 → предсказания (ориг. масштаб)

💡 Результат: MAE снизился на 20%.

Не магия, а классика — но про этот приём часто забывают. Если таргет имеет длинный правый хвост → лог-трансформация может резко улучшить качество.

🐸

Библиотека дата-сайентиста

#междусобойчик

Please open Telegram to view this post

VIEW IN TELEGRAM

👍11❤6

1.25K views18:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👆

Хочешь стать AI-инженером? Этот репозиторий — настоящая находка

Он уже собрал 60K⭐️ на GitHub и не зря: учит строить и тренировать LLM с нуля. Никакой воды — только практические навыки, которые нужны каждому будущему AI-инженеру.

Что в репозитории:
— Как LLM на самом деле работают
— Основы работы с текстовыми данными
— Реализация attention и GPT с нуля
— Предобучение на неразмеченных данных
— Финетюнинг для классификации и инструкций
— Основы CUDA и PyTorch, пошаговые видео, куча практики.

Для новичков и тех, кто хочет поднять уровень — этот репозиторий реально меняет правила игры.

📌 Репозиторий на GitHub

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7👍2🥰2

1.25K views07:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

🤔

Как рассчитать идеальный размер выборки ещё до начала исследования

Вы когда-нибудь теряли время и ресурсы на слишком маленькие или, наоборот, слишком большие выборки?

С помощью power analysis — расчёта размера выборки — вы можете заранее узнать, сколько участников нужно для достоверного результата.

Почему это важно:
✔️ Экономите время и деньги, не собирая лишние данные
✔️ Подбираете размер выборки под ожидаемый эффект
✔️ Контролируете уровень доверия и статистическую мощность исследования
✔️ Работает для t-тестов, ANOVA, регрессий и многих других тестов
✔️ Легко реализуется с бесплатными R-пакетами, например, pwr

Наглядно:
➡️ Слева: как размер выборки растёт при уменьшении ожидаемого эффекта — маленькие эффекты требуют больших групп.
➡️ Справа: пример расчёта для t-теста — точное количество участников на группу для желаемого уровня доверия и статистической мощности.

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍3

1.2K views17:59

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

требует двухчасового созвона 😎

🐸

Библиотека дата-сайентиста

#развлекалово

Please open Telegram to view this post

VIEW IN TELEGRAM

😁11👍2

1.18K views08:57

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🐸

Библиотека дата-сайентиста

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3

1.21K views13:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

На каком графике показана сильная линейная положительная корреляция?

Anonymous Quiz

😁4🤩2❤1

462 voters1.23K views13:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Отдыхаешь?

1.17K views16:30

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🆕

Свежие новости для дата‑сайентистов

🔥 Основные новости и исследования
— GPT-5 Coding Tips — OpenAI выпустила шпаргалку по использованию GPT-5 для кодинга.
— GPT-5 обходит врачей на медицинских экзаменах — модель превосходит GPT-4o и человеческих специалистов по диагностическим и мультимодальным задачам.
— Gemma 3 270M From Scratch – Google выпустил компактный LLM Gemma 3 (270M параметров) для локального fine-tuning.
— Geoffrey Hinton о том, что AI узнал от мозга — пионер глубокого обучения обсуждает биологическое vs. цифровое вычисление.
— PyTorch vs TensorFlow — новое исследование сравнивает два лидирующих DL-фреймворка.
— From GPT-2 to gpt-oss — подробный анализ gpt-oss-20B/120B и их сравнение с Qwen3 по архитектуре, масштабированию и производительности.
— Sam Altman о GPT-6 — GPT-6 будет быстрее GPT-5, с акцентом на память и персонализацию моделей.
— Top 50 LLM Interview Questions —подготовка к интервью по большим языковым моделям.

💡 Статьи и обучающие материалы
— Производные, градиенты, матрицы Якоби и Гессе
— Градиентный бустинг для новичков
— Парадигмы обучения на нескольких GPU
— Эволюция внимания в LLM: от квадратичной сложности к эффективным оптимизациям

🐸

Библиотека дата-сайентиста

#свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👍2

983 viewsedited 12:47

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

🙃 Если такие трюки с Python кажутся прикольными, то представьте, как весело будет, когда списки, матрицы и даже модели начнут распаковываться сами:
— AI-агенты в Data Science
— ML для старта в Data Science

🐸

Библиотека задач по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

770 views08:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Что выведет код?

Anonymous Quiz

244 voters798 views08:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📌

Добавляем 3 сентября в календари!

Авито устраивает IT-квест и вечеринку для инженеров в секретном месте в честь открытия офиса в Нижнем Новгороде.

Обещают много нетворка, Fuckup Night и инсайты о том, что у Авито «под капотом». Пересылайте пост друзьям, с которыми пойдёте, и не забудьте зарегистрироваться по ссылке.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

803 views09:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💡Big Data — это не только модный термин, а фундамент современной аналитики и AI. Apache Spark — инструмент, который используют крупнейшие компании по всему миру. Хотите понять, как он работает, и применить его в своей практике?

28 августа в 18:00 мы проведем открытый вебинар «Практическое введение в Apache Spark». За 1,5 часа вы узнаете, зачем нужен Spark, как разворачивать тестовую среду в Docker, работать с DataFrame API и Spark SQL, оптимизировать запросы и избегать типичных ошибок.

Вместе разберем реальный кейс на небольшом датасете и вы увидите, что обработка больших данных может быть быстрой и удобной.

➡️ Открытый урок проходит в преддверии старта курса «Spark Developer», все участники получат скидку на обучение. Регистрируйтесь прямо сейчас: https://clc.to/AZVqOg

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

👍2

619 views14:59

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💎 YouTube-канал, который стоит сохранить каждому, кто изучает ML

Кладезь коротких и понятных объяснений по ключевым концепциям ML. Автор делится тем, что сам изучает в процессе, и превращает сложные темы в доступные видео.

Уже есть разборы тем:
— Кросс-энтропия
— MCMC (Марковская цепь Монте-Карло)
— Распределение Бернулли
— Нормальное распределение
— Теорема Байеса
— Симуляция Монте-Карло
...

Всё в формате «коротко и по делу» — идеальные видео-шпаргалки.

➡️ Ссылка на канал: https://clc.to/VZRrFA

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3🔥3👍2

442 views17:54

About

Blog

Apps

Platform