Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

😶

Истории подписчиков: cамый бесполезный совет от коллеги

Сегодня делимся историями, когда советы коллег звучали разумно… пока вы не попробовали их на практике.

👻

Просто запусти без параметров:

Настраивал модель XGBoost, попросил совета у старшего дата-сайентиста.
Он сказал: «Запусти без параметров, там всё по дефолту нормально».
Модель обучалась 9 часов и выдала результат хуже случайного угадывания.

👻 В SQL всегда используй SELECT *:

Коллега уверял, что так «надёжнее, вдруг что-то понадобится».
Итог — запрос возвращал по 2 ГБ данных, и ETL падал каждые выходные.

👻 Зачем тесты? У тебя же ноутбук:

Говорю: хочу написать пару unit-тестов для функции парсинга.
Ответ: «Не трать время, у тебя же всё в Jupyter, там видно же».
Через неделю нашли баг, который стоил клиенту два дня простоя.

💬

А какой самый «полезный» бесполезный совет вы получали?

🐸

Библиотека дата-сайентиста

#междусобойчик

Please open Telegram to view this post

VIEW IN TELEGRAM

😁2

1.03K views18:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🚀 Главная ошибка новичка в ML — строить звездолёт вместо велосипеда

Многие сразу хотят свою Midjourney, но в итоге получают только выгорание.

Успех начинается с «велосипеда»: научитесь предсказывать цены или классифицировать отзывы. Освойте базу, а уже потом стройте «звездолёты».

Наш курс «ML для старта в Data Science» — это и есть тот самый правильный старт от простого к сложному.

👉 Начните правильно

Берёте курс «ML для старта» до конца недели — Python в подарок.

❗А 21 августа пройдет бесплатный вебинар с Марией Жаровой: узнаете, какие проекты качают скилл, а какие качают ваши нервы.

А какой самый сложный проект вы брались делать в самом начале? 🫢

🌚1

1.12K views19:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

✅

Фишка инструмента: Google выпустил LangExtract

LangExtract — open-source Python-библиотеку, которая превращает хаос неструктурированного текста в идеально структурированные данные с хирургической точностью.

Применения:
— извлечение транзакций из банковских выписок
— определение дозировок лекарств из клинических записей
— выделение условий контрактов из юридических документов

Ключевые фичи:
😶‍🌫️ Точная привязка к источнику — каждое поле содержит офсеты символов для полной трассировки и визуализации прямо в тексте.
😶‍🌫️ Контролируемая генерация с few-shot — задаёшь схему и пару примеров, и модель строго выдаёт нужный формат, без рандомных «галлюцинаций».
😶‍🌫️ Оптимизация для длинного контекста — умная нарезка, параллельная обработка, многопроходное извлечение.
😶‍🌫️ Гибкость по доменам — медицина, финансы, юриспруденция и многое другое без дообучения.

Достаточно задать промпт и пример, и LangExtract вернёт JSON, где каждое поле можно отследить до исходного текста. Работает с Gemini из коробки и поддерживает локальные LLM через Ollama для приватных задач.

🔗 Подробнее о LangExtract

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍3

1.13K views07:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

↔️

8 RAG-архитектур, которые должен знать каждый

Retrieval-Augmented Generation (RAG) — подход, когда LLM дополняется внешними источниками знаний для точных и актуальных ответов.

Ниже — быстрый обзор популярных архитектур:

1️⃣

Naive RAG
Базовый RAG для простых задач. Простейшая реализация без адаптивной логики.

2️⃣

Multimodal RAG
Работает с разными типами данных: текст, изображения, аудио.

3️⃣

HyDE
Генерирует гипотетический документ (Hypothetical Response) для улучшения поиска и контекста.

4️⃣

Corrective RAG
Автоматическая проверка фактов и корректировка ответа с использованием внешних источников.

5️⃣

Graph RAG
Использует графовые базы данных для сложных связей между сущностями.

6️⃣

Hybrid RAG
Гибридный подход: объединяет графовые и векторные хранилища для более точного контекста.

7️⃣

Adaptive RAG
Многоступенчатое рассуждение с адаптивным выбором стратегии поиска и генерации.

8️⃣

Agentic RAG
Многоагентная система с планированием действий, короткой и длинной памятью, распределёнными агентами.

Совет по выбору:
— Простые задачи → Naive RAG
— Мультимодальные данные → Multimodal RAG
— Проверка фактов → Corrective RAG
— Сложные связи → Graph / Hybrid RAG
— Многоступенчатое рассуждение → Adaptive RAG
— Комплексные агентные системы → Agentic RAG

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍1🤔1😍1

1.07K views18:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧠 Выбор первого ML-проекта: чеклист против выгорания

Классика плохих решений в ML — выбрать слишком сложный проект: неделя ковыряния в коде, десятки крашей и никакого результата. Хотите дойти до финиша — начните с простого проекта, который реально можно довести до конца.

Мини-чеклист первого проекта:

1. Понятные данные — без «я нашёл датасет в даркнете, но он на суахили».

2. Измеримая метрика — «точность 92%», а не «ну вроде работает».

3. Объяснимый результат — чтобы не-техлид понял, почему модель ругается на спам.

Наш курс «ML для старта в Data Science» — старт от простого к сложному: теория → практика → проверка → проект в портфолио.

👉 Начать свой путь в Data Science

Оплатите курс по ML до 17 августа — курс по Python в подарок.

📅 Бесплатный вебинар с Марией Жаровой — 21 августа: как выбирать проекты, которые доводят до оффера, а не до психотерапевта.

💾 Сохрани, чтобы не потерять, когда будешь готов(а) начать

❤2🌚1

1.09K views19:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

superpower unlocked 🤣

🐸

Библиотека дата-сайентиста

#развлекалово

Please open Telegram to view this post

VIEW IN TELEGRAM

😁12👍4💯3❤2

1.03K views09:40

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🐸

Библиотека дата-сайентиста

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

984 views13:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Какой график показывает город с аномально высокой температурой?

Anonymous Quiz

86%

❤3

339 voters1.02K views13:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🆕

Свежие новости для дата‑сайентистов

⚙️ Модели и технологии
— OpenAI снижает стоимость инференса на 75% — новый формат данных MXFP4 позволяет размещать 120B-параметрическую модель на 80 GB VRAM.
— Attention Sinks: как стабилизировать LLM — MIT показали, что первые 4 токена можно использовать как якоря внимания.
— Hugging Face выпустила AI Sheets — можно обогащать/трансформировать датасеты с помощью моделей (включая gpt-oss).
— Mistral Medium 3.1 — улучшены reasoning, кодирование и мультимодальность.
— LangExtract (Google) — Python-библиотека, которая превращает произвольный текст в структурированные данные.
— Byte Latent Transformer (Meta) — модель начинает с сырых байтов и сама учится группировать их.
— Gemma 3 270M (Google) — мини-версия открытой Gemma, заточенная под скорость и небольшие задачи.
— TRIBE от Meta — тримодальная модель (видео + аудио + текст), которая на 30 % лучше предсказывает реакцию человеческого мозга при просмотре фильмов.

🔍 Исследования и гайды
— AI research interviews — опыт устройства в OpenAI, советы и инсайты.
— Prompt migrator + optimizer для GPT-5 — OpenAI добавила инструмент миграции/оптимизации промптов прямо в Playground.
— DINOv3 (Meta) — масштабируемая self-supervised модель для изображений (веб, спутники и т.д.), state-of-the-art без размеченных данных.

🐸

Библиотека дата-сайентиста

#свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

❤9👍3

849 views13:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

🐸

Библиотека задач по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM