Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔥 Холивар: отвечать ли на странные вопросы рекрутеров или морозиться

Есть вечная боль: рекрутер задаёт вопрос, который либо слишком общий, либо вообще бьёт мимо.

Примеры:
— «Где вы видите себя через 5 лет?»
— «Назовите свои слабые стороны»
— «Почему ушли с прошлого места?»
— «Сколько хотите зарабатывать?» (без вилки)

Кто-то отвечает честно (и потом жалеет), кто-то уходит в общие фразы, кто-то прямо говорит: «Вопрос некорректный, давайте дальше».

💬 Вопросы в зал:
— Вы отвечаете или морозитесь?
— Если морозитесь, то как это делаете, чтобы не сжечь контакт?
— Может, стоит наоборот троллить вежливо, чтобы отсеивать токсичные компании?

Библиотека дата-сайентиста #междусобойчик

❤4👍2😁1

1.76K views13:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧐 Зоопарк моделей в ML: с чего начать?

Открываешь статью по машинному обучению — и в тебя летят слова: трансформеры, бустинги, SVM, регрессии.

Кажется, придётся учить всё это, иначе в ML не пустят.

Хорошая новость: 90% задач можно закрыть 2–3 классическими методами. Разберёшь их — уже сможешь собирать работающие проекты. А хайповые названия подождут.

Важно: не распыляйся на всё подряд. Начни с базового — это фундамент, на котором держится остальное.

👉 Успей попасть на курс «ML для старта в Data Science»

👍2

1.81K views15:30

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🚀 Вышел PyTorch 2.8

Свежая версия принесла кучу обновлений — от ускорения инференса LLM до новых механизмов доставки колёс и улучшенной поддержки разных архитектур.

Главное:
— Stable ABI (C++/CUDA) — теперь расширения можно собирать один раз и запускать на разных версиях libtorch.
— Квантованный инференс LLM на Intel CPU — высокая производительность прямо в нативном PyTorch.
— Control flow операторы (cond, while_loop, scan, map и др.) для компиляции и экспорта моделей с динамическим управлением потоком.
— CUTLASS backend в Inductor — ещё больше производительных GEMM.
— SafeTensors в Distributed Checkpointing — теперь без проблем с HuggingFace форматом.
— Поддержка SYCL для кастомных операторов на Intel GPU и новый XCCL backend для распределённого обучения.

🔗 Подробнее и полные release notes: https://clc.to/4RVcPQ

Библиотека дата-сайентиста #свежак

👍3⚡2❤1🔥1

2.13K views10:11

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🆕

Свежие новости для дата‑сайентистов

🚀 Ключевые анонсы и исследования
— Kaggle запускает Game Arena — cовместно с Google DeepMind представлена новая платформа для соревнований ИИ в стратегических играх.
— MIT разработал SEAL — фреймворк для того, чтобы LLM могли самообучаться, генерируя синтетические данные для собственного дообучения.
— OpenAI впервые с GPT-2 выпускает открытые веса — модели gpt-oss-120b и gpt-oss-20b доступны бесплатно для локального запуска.
— Новый инструмент Guided Learning в Google Gemini — AI-репетитор, помогающий строить глубокое понимание материала, а не просто давать ответы.
— GPT-5 официально представлен — 256k контекст, улучшенная маршрутизация, прорывы в кодинге и научных задачах.

👍 Опыт других
— Оптимизация LLM: LoRA и QLoRA
— Решение задачи коммивояжера в реальных приложениях
— Прогнозирование почасовых осадков: опыт Яндекса

Библиотека дата-сайентиста #свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤4

2.08K views13:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Библиотека задач по Data Science

👍1

1.96K views07:46

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Ответ:

Anonymous Quiz

Улучшение интерпретируемости модели

20%

Удаление признаков

38%

Смещение параметров модели к нулю, но не до полного обнуления

33%

Уменьшение дисперсии, но увеличение смещения

346 voters2.01K views07:46

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💻

Топ-вакансий для дата-сайентистов за неделю

ML-инженер (NLP, LLM), удалёнка

Python ML Engineer — от 200 000 до 243 000 ₽, гибрид (Москва)

Data Scientist (LLM), удалёнка

Data Engineer (команда AI), удалёнка

ML-инженер (Интеграции с большими языковыми моделями) — от 280 000 до 350 000 ₽, гибрид (Москва, Санкт-Петербург)

➡️ Еще больше топовых вакансий — в нашем канале Data jobs

🐸

Библиотека дата-сайентиста

Please open Telegram to view this post

VIEW IN TELEGRAM

😁1

2K views17:59

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

⌛

7 приёмов в DBeaver, которые сэкономят часы дата-сайентисту

DBeaver — это не только «игрушка» для DBA. Он отлично подходит дата-сайентистам, которые часто работают с SQL-данными, готовят выборки и делают быстрый EDA до Python. Вот фичи, которые реально ускоряют работу.

1️⃣

Command Palette для всего
Ctrl + 3 (Windows) / Cmd + 3 (Mac) — мгновенный доступ к любой функции: от экспорта в CSV до поиска таблицы в схеме. Экономит тонны кликов.

2️⃣

Свой форматтер под ваш SQL
Любите, когда запросы читаются, как в учебнике? Подключите, например, pg_formatter и забудьте про хаос в SQL перед вставкой в ноутбук.

3️⃣

Раскрыть `SELECT *` в колонки
Хотите все колонки, кроме пары лишних? Ctrl + Space — и у вас полный список, без ручного переписывания.

4️⃣

Calc tab — мини Pandas прямо в IDE
Считает уникальные значения, min, max, mean, median и другие метрики прямо по результатам запроса. Можно прикинуть статистику, даже не открывая Jupyter.

5️⃣

Groupings tab — группировки без кода
Нужно быстро посчитать количество пользователей по странам или суммарный revenue? Клик — и готово, никакого GROUP BY руками.

6️⃣

SQL-шаблоны для повторяющихся запросов
Часто пишете одно и то же? Сделайте сниппет и вставляйте в один таб — например, для «SELECT \* FROM {table} WHERE date > {start}».

7️⃣

Advanced Copy для выгрузки данных
Быстрый экспорт выборки в CSV, JSON, Markdown или SQL Insert прямо из результата запроса. TSV тоже есть — открывается в Excel/Sheets без плясок с разделителями.

Как это помогает дата-сайентисту:
— Делать быстрый EDA до загрузки данных в Pandas.
— Готовить сэмплы и моковые датасеты для тестов.
— Экспортировать данные прямо в формат для ML-пайплайна.
— Сократить время между «запрос» и «первый график».

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤9👍6😍2🔥1

2.18K views09:29

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📺 Хватит коллекционировать туториалы!

Десятки роликов по ML, сотни вкладок, папка «Посмотреть позже» трещит по швам. В голове — обрывки знаний о нейросетях и Pandas.

Знания без системы — это просто «шум». Они не превращаются в навыки и проекты.

Наш курс «ML для старта в Data Science» — это не ещё один туториал. Это система. Чёткий путь от «каши» в голове до первого сильного проекта в портфолио.

И да, чтобы старт был ещё проще — при покупке курса по ML вы получаете курс по Python в подарок

👉 Превратите «шум» в навык

А вы сталкивались с «информационной кашей»? Как выбирались? 👇

❤1😁1

1.77K views15:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🖥 Вайб-кодинг: что это и как на него смотрят разработчики и работодатели

97 % программистов уже пробовали писать код с помощью ИИ.

Но облегчает ли это работу — или, наоборот, мешает расти? Как «код по вайбу» отражается на качестве, обучении и доверии к разработчику?

В статье:
— Что такое вайб-кодинг
— Почему джунам с ИИ проще, но опаснее
— Как работодатели относятся к ИИ-помощникам в коде
— Где проходит граница между полезной автоматизацией и потерей контроля

📖 Читать: https://proglib.io/sh/vtER5zUeOF

🐸

Библиотека дата-сайентиста

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1😁1

1.84K views18:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🛠 How To: понять и использовать Model Context Protocol (MCP) для LLM

➡️

Что такое MCP и зачем он нужен

MCP — это API, созданный специально для взаимодействия с LLM. Он:
— Упрощает команды (естественный язык вместо сложного JSON)
— Запоминает контекст между вызовами
— Сам обрабатывает аутентификацию и ошибки
— Фокусируется на намерении, а не на технических деталях

➡️

Проблема традиционных API

Обычные API не хранят контекст и требуют повторно передавать все данные:

// API без состояния
POST /flights/search
{"from": "NYC", "to": "Paris", "date": "2024-03-15"}

POST /flights/book
{"flight_id": "AF123", "passenger": ???} // Кто бронировал?

➡️

Как это делает MCP

MCP помнит, откуда вы, и может достроить недостающую информацию:

SEARCH_FLIGHTS to=Paris date=next_week  // MCP знает, что вы из NYC
BOOK_FLIGHT flight=AF123               // MCP помнит ваш поиск

➡️

Минимальный манифест MCP

Инструменты описаны просто и читаемо:

tools:
  - name: search_flights
    description: "Найти доступные рейсы"
    params:
      - name: destination
        type: string
      - name: date
        type: date

➡️

Простой MCP-сервер

Сервер хранит историю ваших запросов и подставляет контекст:

class FlightMCP:
    def __init__(self, api_key: str):
        self.api_key = api_key
        self.context = {
            "user_location": None,
            "recent_searches": [],
            "preferences": {}
        }

➡️

Интеграция MCP в Claude Desktop

Подключаем MCP как внешний инструмент, который LLM будет использовать автоматически:

{
  "mcpServers": {
    "flights": {
      "command": "python",
      "args": ["flight_mcp_server.py"],
      "env": {
        "API_KEY": "your_flight_api_key"
      }
    }
  }
}

Когда MCP не нужен:
— Если API используют только приложения, а не LLM
— Если важна скорость (например, торговля акциями)
— Для простых запросов без состояния
— Если уже есть отлаженный REST/GraphQL API
— При строгих требованиях изоляции данных

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8👍5

1.62K views09:50

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔥 Успей поднять квалификацию по выгодной цене!

Только до 17 августа у вас есть последняя возможность купить наши курсы по старым ценам.

🔹 Математика для Data Science:

— Базовый: (сейчас) 26 399₽ → (будет) 33 900₽
— Ультра: 35 199₽ → 44 900₽
— VIP: 59 829₽ → 75 900₽ (выгода больше 16 000₽!)

🔹 Программирование на Python: 24 990₽ → 32 900₽
🔹 Алгоритмы и структуры данных: 31 669₽ → 39 900₽
🔹 Архитектуры и шаблоны проектирования: 24 890₽ → 32 900₽
🔹 AI-агенты для DS специалистов: 54 000₽ → 59 000₽
🔹 Основы IT для непрограммистов: 14 994₽ → 19 900₽
🔹 Базовые модели ML: 6 990₽ → 9 900₽

❗ Важно: Курсы из линейки Frontend Basic полностью снимаются с продажи. 17 августа — буквально последний день, когда их можно будет приобрести.

Успей купить до повышения — осталось 4 дня!

👉 Зафиксировать цену и начать учиться

1.6K views15:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🐸

Библиотека дата-сайентиста

#развлекалово

Please open Telegram to view this post

VIEW IN TELEGRAM

😁14👍3

1.74K views17:59

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧠 Промпт дня: для разогрева мозга

Иногда, чтобы быстро прокачать свои аналитические навыки, полезно потренироваться на небольших, но интересных задачах с реальными данными.

Такой «разогрев» помогает:
— быстрее находить инсайты в данных,
— развивать навыки визуализации и очистки данных,
— улучшать понимание структуры и качества датасетов.

Промпт:

Generate 5 challenging data analysis problems based on real-world datasets. 

For each problem, include: 
1. A short description of the dataset 
2. A clear question or task to solve 
3. Optional hints or tips for analysis

Почему это полезно:
— Отлично прокачивает EDA и постановку вопросов к данным
— Помогает развивать критическое мышление и аналитический подход
— Можно использовать как мини-тренажёр утром или перед проектом

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤1

1.83K views06:59

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

😶

Истории подписчиков: cамый бесполезный совет от коллеги

Сегодня делимся историями, когда советы коллег звучали разумно… пока вы не попробовали их на практике.

👻

Просто запусти без параметров:

Настраивал модель XGBoost, попросил совета у старшего дата-сайентиста.
Он сказал: «Запусти без параметров, там всё по дефолту нормально».
Модель обучалась 9 часов и выдала результат хуже случайного угадывания.

👻 В SQL всегда используй SELECT *:

Коллега уверял, что так «надёжнее, вдруг что-то понадобится».
Итог — запрос возвращал по 2 ГБ данных, и ETL падал каждые выходные.

👻 Зачем тесты? У тебя же ноутбук:

Говорю: хочу написать пару unit-тестов для функции парсинга.
Ответ: «Не трать время, у тебя же всё в Jupyter, там видно же».
Через неделю нашли баг, который стоил клиенту два дня простоя.

💬

А какой самый «полезный» бесполезный совет вы получали?

🐸

Библиотека дата-сайентиста

#междусобойчик

Please open Telegram to view this post

VIEW IN TELEGRAM

😁2👍1🌚1

1.59K views18:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🚀 Главная ошибка новичка в ML — строить звездолёт вместо велосипеда

Многие сразу хотят свою Midjourney, но в итоге получают только выгорание.

Успех начинается с «велосипеда»: научитесь предсказывать цены или классифицировать отзывы. Освойте базу, а уже потом стройте «звездолёты».

Наш курс «ML для старта в Data Science» — это и есть тот самый правильный старт от простого к сложному.

👉 Начните правильно

Берёте курс «ML для старта» до конца недели — Python в подарок.

❗А 21 августа пройдет бесплатный вебинар с Марией Жаровой: узнаете, какие проекты качают скилл, а какие качают ваши нервы.

А какой самый сложный проект вы брались делать в самом начале? 🫢

🌚1

1.67K views19:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

✅

Фишка инструмента: Google выпустил LangExtract

LangExtract — open-source Python-библиотеку, которая превращает хаос неструктурированного текста в идеально структурированные данные с хирургической точностью.

Применения:
— извлечение транзакций из банковских выписок
— определение дозировок лекарств из клинических записей
— выделение условий контрактов из юридических документов

Ключевые фичи:
😶‍🌫️ Точная привязка к источнику — каждое поле содержит офсеты символов для полной трассировки и визуализации прямо в тексте.
😶‍🌫️ Контролируемая генерация с few-shot — задаёшь схему и пару примеров, и модель строго выдаёт нужный формат, без рандомных «галлюцинаций».
😶‍🌫️ Оптимизация для длинного контекста — умная нарезка, параллельная обработка, многопроходное извлечение.
😶‍🌫️ Гибкость по доменам — медицина, финансы, юриспруденция и многое другое без дообучения.

Достаточно задать промпт и пример, и LangExtract вернёт JSON, где каждое поле можно отследить до исходного текста. Работает с Gemini из коробки и поддерживает локальные LLM через Ollama для приватных задач.

🔗 Подробнее о LangExtract

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👍4

1.88K views07:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

↔️

8 RAG-архитектур, которые должен знать каждый

Retrieval-Augmented Generation (RAG) — подход, когда LLM дополняется внешними источниками знаний для точных и актуальных ответов.

Ниже — быстрый обзор популярных архитектур:

1️⃣

Naive RAG
Базовый RAG для простых задач. Простейшая реализация без адаптивной логики.

2️⃣

Multimodal RAG
Работает с разными типами данных: текст, изображения, аудио.

3️⃣

HyDE
Генерирует гипотетический документ (Hypothetical Response) для улучшения поиска и контекста.

4️⃣

Corrective RAG
Автоматическая проверка фактов и корректировка ответа с использованием внешних источников.

5️⃣

Graph RAG
Использует графовые базы данных для сложных связей между сущностями.

6️⃣

Hybrid RAG
Гибридный подход: объединяет графовые и векторные хранилища для более точного контекста.

7️⃣

Adaptive RAG
Многоступенчатое рассуждение с адаптивным выбором стратегии поиска и генерации.

8️⃣

Agentic RAG
Многоагентная система с планированием действий, короткой и длинной памятью, распределёнными агентами.

Совет по выбору:
— Простые задачи → Naive RAG
— Мультимодальные данные → Multimodal RAG
— Проверка фактов → Corrective RAG
— Сложные связи → Graph / Hybrid RAG
— Многоступенчатое рассуждение → Adaptive RAG
— Комплексные агентные системы → Agentic RAG

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍2🤔1😍1

2.17K views18:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧠 Выбор первого ML-проекта: чеклист против выгорания

Классика плохих решений в ML — выбрать слишком сложный проект: неделя ковыряния в коде, десятки крашей и никакого результата. Хотите дойти до финиша — начните с простого проекта, который реально можно довести до конца.

Мини-чеклист первого проекта:

1. Понятные данные — без «я нашёл датасет в даркнете, но он на суахили».

2. Измеримая метрика — «точность 92%», а не «ну вроде работает».

3. Объяснимый результат — чтобы не-техлид понял, почему модель ругается на спам.

Наш курс «ML для старта в Data Science» — старт от простого к сложному: теория → практика → проверка → проект в портфолио.

👉 Начать свой путь в Data Science

Оплатите курс по ML до 17 августа — курс по Python в подарок.

📅 Бесплатный вебинар с Марией Жаровой — 21 августа: как выбирать проекты, которые доводят до оффера, а не до психотерапевта.

💾 Сохрани, чтобы не потерять, когда будешь готов(а) начать

❤3🔥2🌚1

1.74K views19:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

superpower unlocked 🤣

🐸

Библиотека дата-сайентиста

#развлекалово

Please open Telegram to view this post

VIEW IN TELEGRAM

😁15👍5❤3💯3⚡1🔥1🎉1

1.86K views09:40

About

Blog

Apps

Platform