Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.8K subscribers
2.23K photos
111 videos
64 files
4.64K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
🐬 Dolphin — превращает PDF в структурированные данные

Dolphin (Document Image Parsing via Heterogeneous Anchor Prompting) — 100% open source-модель для автоматического разбора PDF и сканов.

Зачем нужен:
— Конвертирует документы в готовые форматы: Markdown, HTML, LaTeX, JSON.
— Извлекает текст, таблицы, формулы и изображения.
— Полезен как для подготовки данных для LLM, так и для любых автоматизированных систем, архивов, поиска и аналитики.

Как работает:
1️⃣ Анализ макета страницы — определяет все элементы в естественном порядке чтения.
2️⃣ Параллельный парсинг — с «якорями» и промптами под каждый тип контента.

Представьте, что у вас есть 500 отчётов в PDF с финансовыми таблицами и графиками. Dolphin превращает их в аккуратный CSV или JSON, готовый для анализа в Pandas или загрузки в базу данных — без ручного копипаста и правок.


💡 Лёгкая архитектура + параллельная обработка = высокая скорость без потери качества.

🔗 Репозиторий с кодом и моделями: https://clc.to/6gPIwA

Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
11👍4🔥1
🔥 Холивар: отвечать ли на странные вопросы рекрутеров или морозиться

Есть вечная боль: рекрутер задаёт вопрос, который либо слишком общий, либо вообще бьёт мимо.

Примеры:
— «Где вы видите себя через 5 лет?»
— «Назовите свои слабые стороны»
— «Почему ушли с прошлого места?»
— «Сколько хотите зарабатывать?» (без вилки)

Кто-то отвечает честно (и потом жалеет), кто-то уходит в общие фразы, кто-то прямо говорит: «Вопрос некорректный, давайте дальше».

💬 Вопросы в зал:
— Вы отвечаете или морозитесь?
— Если морозитесь, то как это делаете, чтобы не сжечь контакт?
— Может, стоит наоборот троллить вежливо, чтобы отсеивать токсичные компании?

Библиотека дата-сайентиста #междусобойчик
4👍2😁1
🧐 Зоопарк моделей в ML: с чего начать?

Открываешь статью по машинному обучению — и в тебя летят слова: трансформеры, бустинги, SVM, регрессии.

Кажется, придётся учить всё это, иначе в ML не пустят.

Хорошая новость: 90% задач можно закрыть 2–3 классическими методами. Разберёшь их — уже сможешь собирать работающие проекты. А хайповые названия подождут.

Важно: не распыляйся на всё подряд. Начни с базового — это фундамент, на котором держится остальное.

👉 Успей попасть на курс «ML для старта в Data Science»
👍2
🚀 Вышел PyTorch 2.8

Свежая версия принесла кучу обновлений — от ускорения инференса LLM до новых механизмов доставки колёс и улучшенной поддержки разных архитектур.

Главное:
— Stable ABI (C++/CUDA) — теперь расширения можно собирать один раз и запускать на разных версиях libtorch.
— Квантованный инференс LLM на Intel CPU — высокая производительность прямо в нативном PyTorch.
— Control flow операторы (cond, while_loop, scan, map и др.) для компиляции и экспорта моделей с динамическим управлением потоком.
— CUTLASS backend в Inductor — ещё больше производительных GEMM.
— SafeTensors в Distributed Checkpointing — теперь без проблем с HuggingFace форматом.
— Поддержка SYCL для кастомных операторов на Intel GPU и новый XCCL backend для распределённого обучения.

🔗 Подробнее и полные release notes: https://clc.to/4RVcPQ

Библиотека дата-сайентиста #свежак
👍321🔥1
🆕 Свежие новости для дата‑сайентистов

🚀 Ключевые анонсы и исследования
Kaggle запускает Game Arena — cовместно с Google DeepMind представлена новая платформа для соревнований ИИ в стратегических играх.
MIT разработал SEAL — фреймворк для того, чтобы LLM могли самообучаться, генерируя синтетические данные для собственного дообучения.
OpenAI впервые с GPT-2 выпускает открытые веса — модели gpt-oss-120b и gpt-oss-20b доступны бесплатно для локального запуска.
Новый инструмент Guided Learning в Google Gemini — AI-репетитор, помогающий строить глубокое понимание материала, а не просто давать ответы.
GPT-5 официально представлен — 256k контекст, улучшенная маршрутизация, прорывы в кодинге и научных задачах.

👍 Опыт других
Оптимизация LLM: LoRA и QLoRA
Решение задачи коммивояжера в реальных приложениях
Прогнозирование почасовых осадков: опыт Яндекса

Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍4
💻 Топ-вакансий для дата-сайентистов за неделю

ML-инженер (NLP, LLM), удалёнка

Python ML Engineer — от 200 000 до 243 000 ₽, гибрид (Москва)

Data Scientist (LLM), удалёнка

Data Engineer (команда AI), удалёнка

ML-инженер (Интеграции с большими языковыми моделями) — от 280 000 до 350 000 ₽, гибрид (Москва, Санкт-Петербург)

➡️ Еще больше топовых вакансий — в нашем канале Data jobs

🐸 Библиотека дата-сайентиста
Please open Telegram to view this post
VIEW IN TELEGRAM
😁1
7 приёмов в DBeaver, которые сэкономят часы дата-сайентисту

DBeaver — это не только «игрушка» для DBA. Он отлично подходит дата-сайентистам, которые часто работают с SQL-данными, готовят выборки и делают быстрый EDA до Python. Вот фичи, которые реально ускоряют работу.

1️⃣ Command Palette для всего
Ctrl + 3 (Windows) / Cmd + 3 (Mac) — мгновенный доступ к любой функции: от экспорта в CSV до поиска таблицы в схеме. Экономит тонны кликов.

2️⃣ Свой форматтер под ваш SQL
Любите, когда запросы читаются, как в учебнике? Подключите, например, pg_formatter и забудьте про хаос в SQL перед вставкой в ноутбук.

3️⃣ Раскрыть `SELECT *` в колонки
Хотите все колонки, кроме пары лишних? Ctrl + Space — и у вас полный список, без ручного переписывания.

4️⃣ Calc tab — мини Pandas прямо в IDE
Считает уникальные значения, min, max, mean, median и другие метрики прямо по результатам запроса. Можно прикинуть статистику, даже не открывая Jupyter.

5️⃣ Groupings tab — группировки без кода
Нужно быстро посчитать количество пользователей по странам или суммарный revenue? Клик — и готово, никакого GROUP BY руками.

6️⃣ SQL-шаблоны для повторяющихся запросов
Часто пишете одно и то же? Сделайте сниппет и вставляйте в один таб — например, для «SELECT \* FROM {table} WHERE date > {start}».

7️⃣ Advanced Copy для выгрузки данных
Быстрый экспорт выборки в CSV, JSON, Markdown или SQL Insert прямо из результата запроса. TSV тоже есть — открывается в Excel/Sheets без плясок с разделителями.

Как это помогает дата-сайентисту:
— Делать быстрый EDA до загрузки данных в Pandas.
— Готовить сэмплы и моковые датасеты для тестов.
— Экспортировать данные прямо в формат для ML-пайплайна.
— Сократить время между «запрос» и «первый график».

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
9👍5😍2🔥1
📺 Хватит коллекционировать туториалы!

Десятки роликов по ML, сотни вкладок, папка «Посмотреть позже» трещит по швам. В голове — обрывки знаний о нейросетях и Pandas.

Знания без системы — это просто «шум». Они не превращаются в навыки и проекты.

Наш курс «ML для старта в Data Science» — это не ещё один туториал. Это система. Чёткий путь от «каши» в голове до первого сильного проекта в портфолио.

И да, чтобы старт был ещё проще — при покупке курса по ML вы получаете курс по Python в подарок

👉 Превратите «шум» в навык

А вы сталкивались с «информационной кашей»? Как выбирались? 👇
1😁1
🖥 Вайб-кодинг: что это и как на него смотрят разработчики и работодатели

97 % программистов уже пробовали писать код с помощью ИИ.

Но облегчает ли это работу — или, наоборот, мешает расти? Как «код по вайбу» отражается на качестве, обучении и доверии к разработчику?

В статье:
— Что такое вайб-кодинг
— Почему джунам с ИИ проще, но опаснее
— Как работодатели относятся к ИИ-помощникам в коде
— Где проходит граница между полезной автоматизацией и потерей контроля

📖 Читать: https://proglib.io/sh/vtER5zUeOF

🐸 Библиотека дата-сайентиста
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1😁1
🛠 How To: понять и использовать Model Context Protocol (MCP) для LLM

➡️ Что такое MCP и зачем он нужен

MCP — это API, созданный специально для взаимодействия с LLM. Он:
— Упрощает команды (естественный язык вместо сложного JSON)
— Запоминает контекст между вызовами
— Сам обрабатывает аутентификацию и ошибки
— Фокусируется на намерении, а не на технических деталях

➡️ Проблема традиционных API

Обычные API не хранят контекст и требуют повторно передавать все данные:
// API без состояния
POST /flights/search
{"from": "NYC", "to": "Paris", "date": "2024-03-15"}

POST /flights/book
{"flight_id": "AF123", "passenger": ???} // Кто бронировал?


➡️ Как это делает MCP

MCP помнит, откуда вы, и может достроить недостающую информацию:
SEARCH_FLIGHTS to=Paris date=next_week  // MCP знает, что вы из NYC
BOOK_FLIGHT flight=AF123 // MCP помнит ваш поиск


➡️ Минимальный манифест MCP

Инструменты описаны просто и читаемо:
tools:
- name: search_flights
description: "Найти доступные рейсы"
params:
- name: destination
type: string
- name: date
type: date


➡️ Простой MCP-сервер

Сервер хранит историю ваших запросов и подставляет контекст:
class FlightMCP:
def __init__(self, api_key: str):
self.api_key = api_key
self.context = {
"user_location": None,
"recent_searches": [],
"preferences": {}
}


➡️ Интеграция MCP в Claude Desktop

Подключаем MCP как внешний инструмент, который LLM будет использовать автоматически:
{
"mcpServers": {
"flights": {
"command": "python",
"args": ["flight_mcp_server.py"],
"env": {
"API_KEY": "your_flight_api_key"
}
}
}
}


Когда MCP не нужен:
— Если API используют только приложения, а не LLM
— Если важна скорость (например, торговля акциями)
— Для простых запросов без состояния
— Если уже есть отлаженный REST/GraphQL API
— При строгих требованиях изоляции данных

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
8👍3
🔥 Успей поднять квалификацию по выгодной цене!

Только до 17 августа у вас есть последняя возможность купить наши курсы по старым ценам.

🔹 Математика для Data Science:

— Базовый: (сейчас) 26 399₽(будет) 33 900₽
— Ультра: 35 199₽44 900₽
— VIP: 59 829₽75 900₽ (выгода больше 16 000₽!)

🔹 Программирование на Python: 24 990₽32 900₽
🔹 Алгоритмы и структуры данных: 31 669₽39 900₽
🔹 Архитектуры и шаблоны проектирования: 24 890₽32 900₽
🔹 AI-агенты для DS специалистов: 54 000₽59 000₽
🔹 Основы IT для непрограммистов: 14 994₽19 900₽
🔹 Базовые модели ML: 6 990₽9 900₽

Важно: Курсы из линейки Frontend Basic полностью снимаются с продажи. 17 августа — буквально последний день, когда их можно будет приобрести.

Успей купить до повышения — осталось 4 дня!

👉 Зафиксировать цену и начать учиться