⚡️ Бесплатный вебинар — прогнозируем цены и не сходим с ума
21 августа в 19:00 МСК будет бесплатный вебинар с Марией Жаровой — экспертом в ML и Data Science.
Тема:
Подробности рассказываю в гс выше — включай, чтобы не пропустить.
21 августа в 19:00 МСК будет бесплатный вебинар с Марией Жаровой — экспертом в ML и Data Science.
Тема:
«Введение в машинное обучение: как спрогнозировать стоимость недвижимости».
Подробности рассказываю в гс выше — включай, чтобы не пропустить.
👏1
📄 RAG-ready из любого документа за пару строк
Реальные документы слишком сложные для прямой работы LLM. Tensorlake превращает неструктурированные данные в RAG-ready формат всего за пару строк кода.
Что умеет Tensorlake:
👉 Работает с документами, изображениями, CSV, презентациями и др.
👉 Поддержка сложных макетов, рукописных заметок и мультиязычных данных.
👉 Возвращает layout документа, классификацию страниц, bounding boxes и многое другое.
👉 Можно задавать JSON-схему для извлечения нужных данных.
⚡️ Мгновенно готово к работе с LLM и retrieval pipelines!
📱 GitHub
🐸 Библиотека дата-сайентиста
#буст
Реальные документы слишком сложные для прямой работы LLM. Tensorlake превращает неструктурированные данные в RAG-ready формат всего за пару строк кода.
Что умеет Tensorlake:
⚡️ Мгновенно готово к работе с LLM и retrieval pipelines!
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡7👍3🔥3❤2
This media is not supported in your browser
VIEW IN TELEGRAM
☝️ Один мудрый тимлид дал двум своим разработчикам по «таланту» — мощной, но своенравной LLM.
Первый разработчик испугался её «галлюцинаций». Он запер модель в песочнице, не давая ей доступа к свежим данным. На вопросы модель отвечала красиво, но часто придумывала факты, то есть врала. Он просто «закопал» свой талант, боясь им пользоваться.
Второй же разработчик не побоялся. Он построил для своей LLM систему RAG — дал ей «лопату и карту», чтобы находить сокровища в базе знаний компании. Его AI-агент отвечал точно по делу, ссылаясь на реальные документы. Он заставил свой «талант» работать и приносить пользу.
Именно такие системы мы и будем строить на втором потоке нашего курса «AI-агенты для DS-специалистов». Мы не просто поговорим о RAG, а соберём полный пайплайн с оценкой качества, чтобы ваш агент не врал.
Представьте, что вы сможете начать изучать эту сложную и востребованную тему уже 15 сентября, а не ждать официального старта в октябре. У вас будет фора в 3 недели, чтобы спокойно разобраться в векторных базах и подходе «LLM as a Judge».
💸 Цена 49.000 ₽ действует последние 4 дня — до 24 августа.
👉 Начать строить RAG раньше других
Первый разработчик испугался её «галлюцинаций». Он запер модель в песочнице, не давая ей доступа к свежим данным. На вопросы модель отвечала красиво, но часто придумывала факты, то есть врала. Он просто «закопал» свой талант, боясь им пользоваться.
Второй же разработчик не побоялся. Он построил для своей LLM систему RAG — дал ей «лопату и карту», чтобы находить сокровища в базе знаний компании. Его AI-агент отвечал точно по делу, ссылаясь на реальные документы. Он заставил свой «талант» работать и приносить пользу.
Мощь LLM раскрывается не в ней самой, а в системах, которые вы строите вокруг неё.
Именно такие системы мы и будем строить на втором потоке нашего курса «AI-агенты для DS-специалистов». Мы не просто поговорим о RAG, а соберём полный пайплайн с оценкой качества, чтобы ваш агент не врал.
Представьте, что вы сможете начать изучать эту сложную и востребованную тему уже 15 сентября, а не ждать официального старта в октябре. У вас будет фора в 3 недели, чтобы спокойно разобраться в векторных базах и подходе «LLM as a Judge».
💸 Цена 49.000 ₽ действует последние 4 дня — до 24 августа.
👉 Начать строить RAG раньше других
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Вышел подробный туториал по тому, как запускать и дообучать gpt-oss (LLM) локально.
Что внутри:
• FAQ по локальному обучению + инференсу
• Подбор гиперпараметров и как не словить overfitting
• Подготовка данных
• Экспорт модели в GGUF (llama.cpp) и загрузка в Hugging Face
Дополнительно на этой странице есть другие туториалы:
• Qwen3 / Qwen3-Coder — запуск локально
• Kimi-K2
• Llama 4
• Vision fine-tuning
• RL & TTS fine-tuning
Особенно крутая часть — vision fine-tuning:
— можно дообучать мультимодальные модели (Gemma 3, Llama 3.2 Vision, Qwen2.5 VL и др.)
— выбирать, какие именно части модели дообучать (vision / language / attention / MLP)
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥4❤3
📊 Шпаргалка для машинного обучения: 10 алгоритмов и их временная сложность — всегда под рукой.
🐸 Библиотека дата-сайентиста
#буст
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍4🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
📅 Сегодня в 19:00 МСК — бесплатный вебинар с Марией Жаровой.
Тема: «Введение в ML: как спрогнозировать стоимость недвижимости».
🔹 Разберём задачу прогноза стоимости недвижимости.
🔹 Покажем пошагово, как собрать первую модель.
🔹 Получите готовые скрипты для старта.
Не зайдёшь — будешь ещё год делать вид, что понимаешь графики в чужих презентациях.
👉 Регистрируйтесь
Тема: «Введение в ML: как спрогнозировать стоимость недвижимости».
🔹 Разберём задачу прогноза стоимости недвижимости.
🔹 Покажем пошагово, как собрать первую модель.
🔹 Получите готовые скрипты для старта.
Не зайдёшь — будешь ещё год делать вид, что понимаешь графики в чужих презентациях.
👉 Регистрируйтесь
❤1🔥1
🚕 Как лог-трансформация спасла модель
Наш подписчик поделился лайфхаком, который снизил ошибку модели на 20% всего одной строкой кода.
В задаче регрессии (например, предсказание стоимости поездок Uber) оказалось, что таргет (fare) сильно скошен вправо: много маленьких значений + редкие, но вполне реальные высокие цены.
❌ Модели сложно учиться: редкие большие значения «тянут» распределение и портят общую картину.
➖ Простое решение — применить log1p к целевой переменной:
— большие значения сжимаются;
— малые почти не меняются;
— распределение становится ближе к нормальному;
— влияние «хвоста» снижается.
Схема:
💡 Результат: MAE снизился на 20%.
Не магия, а классика — но про этот приём часто забывают. Если таргет имеет длинный правый хвост → лог-трансформация может резко улучшить качество.
🐸 Библиотека дата-сайентиста
#междусобойчик
Наш подписчик поделился лайфхаком, который снизил ошибку модели на 20% всего одной строкой кода.
В задаче регрессии (например, предсказание стоимости поездок Uber) оказалось, что таргет (fare) сильно скошен вправо: много маленьких значений + редкие, но вполне реальные высокие цены.
— большие значения сжимаются;
— малые почти не меняются;
— распределение становится ближе к нормальному;
— влияние «хвоста» снижается.
Схема:
y → log1p → модель → предсказания (log scale) → expm1 → предсказания (ориг. масштаб)
💡 Результат: MAE снизился на 20%.
Не магия, а классика — но про этот приём часто забывают. Если таргет имеет длинный правый хвост → лог-трансформация может резко улучшить качество.
#междусобойчик
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11❤6
Он уже собрал 60K⭐️ на GitHub и не зря: учит строить и тренировать LLM с нуля. Никакой воды — только практические навыки, которые нужны каждому будущему AI-инженеру.
Что в репозитории:
— Как LLM на самом деле работают
— Основы работы с текстовыми данными
— Реализация attention и GPT с нуля
— Предобучение на неразмеченных данных
— Финетюнинг для классификации и инструкций
— Основы CUDA и PyTorch, пошаговые видео, куча практики.
Для новичков и тех, кто хочет поднять уровень — этот репозиторий реально меняет правила игры.
📌 Репозиторий на GitHub
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍2🥰2
This media is not supported in your browser
VIEW IN TELEGRAM
Вы когда-нибудь теряли время и ресурсы на слишком маленькие или, наоборот, слишком большие выборки?
С помощью power analysis — расчёта размера выборки — вы можете заранее узнать, сколько участников нужно для достоверного результата.
Почему это важно:
✔️ Экономите время и деньги, не собирая лишние данные
✔️ Подбираете размер выборки под ожидаемый эффект
✔️ Контролируете уровень доверия и статистическую мощность исследования
✔️ Работает для t-тестов, ANOVA, регрессий и многих других тестов
✔️ Легко реализуется с бесплатными R-пакетами, например, pwr
Наглядно:
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍3
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3
На каком графике показана сильная линейная положительная корреляция?
Anonymous Quiz
2%
График A
93%
График B
4%
График C
2%
График D
😁4🤩2❤1
🔥 Основные новости и исследования
— GPT-5 Coding Tips — OpenAI выпустила шпаргалку по использованию GPT-5 для кодинга.
— GPT-5 обходит врачей на медицинских экзаменах — модель превосходит GPT-4o и человеческих специалистов по диагностическим и мультимодальным задачам.
— Gemma 3 270M From Scratch – Google выпустил компактный LLM Gemma 3 (270M параметров) для локального fine-tuning.
— Geoffrey Hinton о том, что AI узнал от мозга — пионер глубокого обучения обсуждает биологическое vs. цифровое вычисление.
— PyTorch vs TensorFlow — новое исследование сравнивает два лидирующих DL-фреймворка.
— From GPT-2 to gpt-oss — подробный анализ gpt-oss-20B/120B и их сравнение с Qwen3 по архитектуре, масштабированию и производительности.
— Sam Altman о GPT-6 — GPT-6 будет быстрее GPT-5, с акцентом на память и персонализацию моделей.
— Top 50 LLM Interview Questions —подготовка к интервью по большим языковым моделям.
💡 Статьи и обучающие материалы
— Производные, градиенты, матрицы Якоби и Гессе
— Градиентный бустинг для новичков
— Парадигмы обучения на нескольких GPU
— Эволюция внимания в LLM: от квадратичной сложности к эффективным оптимизациям
#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍3
Forwarded from Библиотека задач по Data Science | тесты, код, задания
🙃 Если такие трюки с Python кажутся прикольными, то представьте, как весело будет, когда списки, матрицы и даже модели начнут распаковываться сами:
— AI-агенты в Data Science
— ML для старта в Data Science
🐸 Библиотека задач по Data Science
— AI-агенты в Data Science
— ML для старта в Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Библиотека задач по Data Science | тесты, код, задания
Авито устраивает IT-квест и вечеринку для инженеров в секретном месте в честь открытия офиса в Нижнем Новгороде.
Обещают много нетворка, Fuckup Night и инсайты о том, что у Авито «под капотом». Пересылайте пост друзьям, с которыми пойдёте, и не забудьте зарегистрироваться по ссылке.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
💡Big Data — это не только модный термин, а фундамент современной аналитики и AI. Apache Spark — инструмент, который используют крупнейшие компании по всему миру. Хотите понять, как он работает, и применить его в своей практике?
28 августа в 18:00 мы проведем открытый вебинар «Практическое введение в Apache Spark». За 1,5 часа вы узнаете, зачем нужен Spark, как разворачивать тестовую среду в Docker, работать с DataFrame API и Spark SQL, оптимизировать запросы и избегать типичных ошибок.
Вместе разберем реальный кейс на небольшом датасете и вы увидите, что обработка больших данных может быть быстрой и удобной.
➡️ Открытый урок проходит в преддверии старта курса «Spark Developer», все участники получат скидку на обучение. Регистрируйтесь прямо сейчас: https://clc.to/AZVqOg
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
28 августа в 18:00 мы проведем открытый вебинар «Практическое введение в Apache Spark». За 1,5 часа вы узнаете, зачем нужен Spark, как разворачивать тестовую среду в Docker, работать с DataFrame API и Spark SQL, оптимизировать запросы и избегать типичных ошибок.
Вместе разберем реальный кейс на небольшом датасете и вы увидите, что обработка больших данных может быть быстрой и удобной.
➡️ Открытый урок проходит в преддверии старта курса «Spark Developer», все участники получат скидку на обучение. Регистрируйтесь прямо сейчас: https://clc.to/AZVqOg
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
👍3
💎 YouTube-канал, который стоит сохранить каждому, кто изучает ML
Кладезь коротких и понятных объяснений по ключевым концепциям ML. Автор делится тем, что сам изучает в процессе, и превращает сложные темы в доступные видео.
Уже есть разборы тем:
— Кросс-энтропия
— MCMC (Марковская цепь Монте-Карло)
— Распределение Бернулли
— Нормальное распределение
— Теорема Байеса
— Симуляция Монте-Карло
...
Всё в формате «коротко и по делу» — идеальные видео-шпаргалки.
➡️ Ссылка на канал: https://clc.to/VZRrFA
🐸 Библиотека дата-сайентиста
#буст
Кладезь коротких и понятных объяснений по ключевым концепциям ML. Автор делится тем, что сам изучает в процессе, и превращает сложные темы в доступные видео.
Уже есть разборы тем:
— Кросс-энтропия
— MCMC (Марковская цепь Монте-Карло)
— Распределение Бернулли
— Нормальное распределение
— Теорема Байеса
— Симуляция Монте-Карло
...
Всё в формате «коротко и по делу» — идеальные видео-шпаргалки.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍4❤3
This media is not supported in your browser
VIEW IN TELEGRAM
trackers — это единая библиотека с чистыми реализациями популярных алгоритмов трекинга.
Модульная архитектура позволяет легко менять трекеры и интегрировать их с детекторами объектов из разных библиотек:
inference
, ultralytics
, transformers
.💡 Особенности:
— Универсальная интеграция с разными детекторами
— Лёгкое переключение между трекерами
— Подходит для исследовательских и производственных проектов
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤3
This media is not supported in your browser
VIEW IN TELEGRAM
❗ Так, владелец макбука. Хватит позировать в кофейне.
Настоящее портфолио — это не стикеры на крышке, а проект с чистым кодом, README и рабочей демкой.
Не знаешь, как такой собрать? Научим. Наш курс «ML для старта в Data Science» — это пошаговый гайд к проекту, за который не стыдно.
ОСТАЛАСЬ НЕДЕЛЯ, чтобы забрать его по старой цене в 44.000 ₽. С 1 сентября — всё.
🎁 И да, при покупке курса ML до 1 сентября — курс по Python получаешь бесплатно.
👉 Апгрейд от «вайба» до «оффера» тут
Настоящее портфолио — это не стикеры на крышке, а проект с чистым кодом, README и рабочей демкой.
Не знаешь, как такой собрать? Научим. Наш курс «ML для старта в Data Science» — это пошаговый гайд к проекту, за который не стыдно.
ОСТАЛАСЬ НЕДЕЛЯ, чтобы забрать его по старой цене в 44.000 ₽. С 1 сентября — всё.
🎁 И да, при покупке курса ML до 1 сентября — курс по Python получаешь бесплатно.
👉 Апгрейд от «вайба» до «оффера» тут
🥱3