Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека питониста | Python, Django, Flask

🖼 ТОП-5 структур данных для обработки изображений

Хотите разобраться, как обрабатывать изображения в компьютерном зрении или графике?

Всё начинается с правильных структур данных. Они помогают хранить и анализировать пиксели, их связи и расположение.

👉

В этой статье — подборка топ решений и советы, как их использовать.

Библиотека питониста

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4❤‍🔥1🥰1

1.6K views17:57

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

⚡️

Proglib представляет: «Набор начинающего дата-сайентиста»

✅ Ноутбук
✅ Кофе (много кофе)
✅ Python
✅ Данные

Собрал набор — и вперёд, покорять графики!

🤔

Мы что-то забыли добавить в набор?

Библиотека дата-сайентиста #развлекалово

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3😁3😢3👍2❤‍🔥1🥱1

1.67K views08:51

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧑‍💻 Human-in-the-loop: что с этим делать?

В мире машинного обучения не утихает спор:

Нужен ли человек в процессе обучения модели — или пора довериться полной автоматизации?

💬

«Обучение без участия человека — это не обучение!»

— Алгоритмы часто ошибаются, особенно в нестандартных или критичных ситуациях.
— Только человек может внести контекст, настроить параметры, проверить результат.
— Разметка данных, ручная оценка, контроль — всё это до сих пор нужно в реальных проектах.

Особенно там, где цена ошибки высока: медицина, безопасность, финансы.

✅ Сторонники контроля считают, что ИИ нельзя отпускать без присмотра. Полагаться полностью на «автоматику» — риск получить умного, но бесполезного бота.

💬

«Что за архаизм? Всё должно быть автоматизировано!»

— Люди ошибаются, устают и не масштабируются.
— Современные модели могут учиться сами, используя данные пользователей.
— Автоматизация ускоряет развитие, сокращает затраты и открывает путь к масштабируемым решениям.

Например: рекомендательные системы, спам-фильтры, самообучающиеся ассистенты — уже работают без человека.

✅ Апологеты автоматизации уверены, что вмешательство человека — это признак сырой системы. Если модель требует ручной донастройки — значит, она ещё не готова к реальному масштабу.

💭 Ваше мнение:

❤️ Человек в цикле — важен. Он добавляет контекст, видит нюансы и спасает от ошибок.
👍 Полная автоматизация — путь вперёд. Пусть ИИ работает сам, а мы не мешаем.

Давайте обсудим 👇

Библиотека дата-сайентиста #междусобойчик

Please open Telegram to view this post

VIEW IN TELEGRAM

❤16👍3

1.69K views12:51

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔥 Модели и релизы:
— ChatGPT с долгосрочной памятью — OpenAI добавила автопамять
— TPUv7s от Google — новая серия ускорителей
— Модель от Авито на вершине Mera-бенчмарка
— AI Scientist v2 от Sakana — сгенерированная статья ИИ
— PyTorch mm — 3D-визуализатор матричных умножений
— Google Firebase Studio — AI-платформа для приложений

🧠 Исследования и бенчмарки:
— Stanford AI Index 2025 — глобальные тренды
— Galileo Leaderboard (апрель) — сравнение топ-LLM
— DebugGym от Microsoft — ИИ всё ещё плохо дебажит код
— Llama-4 benchmarks — возможно фейк
— HIGGS (Яндекс) — новый метод сжатия LLM

🧰 Практика и агенты:
— Google Agent2Agent — единый протокол общения агентов
— Model Context Protocol от Anthropic (Claude) — создание сервера, расширяющего LLM: ссылка
— Стратегическое планирование с GPT — как сгенерировать рыночную стратегию
— Оптимизация промптов — техники и инструменты

📚 Что почитать:
— Как работает трансформер (очень просто)
— Гайд по промптам от Google
— Disrupt по делу — внедрение AI-продуктов
— Юзкейсы GenAI в 2025 году
— Подборка книг по NLP
— Как Яндекс.Карты делают персональные рекомендации
— Обзор генераторов изображений: DALL·E 3, Midjourney, FLUX

🎙 Интервью и видео:
— GPT-4.5 — путь от 4 до 4.5 — интервью с Самом Альтманом
— Build AI Agents with Microsoft — курс + код + видео

Библиотека дата-сайентиста #свежак

⚡3👍2❤1❤‍🔥1

1.75K views12:58

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

✅

Это база: трансформеры вручную — как понять, что происходит за кулисами LLM

В этом посте разберем, как вручную пройти через процесс работы трансформера, от входных данных до финального слоя.

⬇️

Пошаговый процесс

1️⃣

Исходные данные:
Входные признаки из предыдущего блока (5 позиций).

2️⃣

Внимание:
Все 5 признаков передаются в модуль внимания запрос-ключ (QK) для получения матрицы весов внимания (A).

3️⃣

Взвешивание внимания:
Умножаем входные данные на матрицу весов внимания, чтобы получить взвешенные признаки (Z). Этим объединяем признаки по горизонтали, например, X1 := X1 + X2, X2 := X2 + X3 и так далее.

4️⃣

FFN — первый слой:
Процессинг всех 5 признаков через первый слой. Умножаем их на веса и смещения, увеличивая размерность с 3 до 4, комбинируя признаки по вертикали.

5️⃣

ReLU:
Отрицательные значения заменяются нулями.

6️⃣

FFN — второй слой:
Подаем данные во второй слой, уменьшаем размерность с 4 до 3 и отправляем результат в следующий блок для повторения процесса.

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤9👍2❤‍🔥1

1.84K views06:54

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

5:41

Media is too big

VIEW IN TELEGRAM

🙂

Раскрываем секрет собственных векторов: математическое оружие на собеседовании

Что объединяет успешный собес и продвинутый анализ данных? Оба требуют способности выделять главное из информационного шума!

В мире данных этот суперскилл называется методом главных компонент (PCA) — это как рентген для ваших данных, который мгновенно показывает всю суть, отбрасывая неважные детали.

Например, мы проанализировали 453 акции компаний из списка S&P 500 и выяснили, что всего одна главная компонента объясняет 38% всей динамики рынка. Как такое возможно?

😘

Расскажем на воркшопе «Математика машинного обучения на практике» 21 апреля!

Вы будете работать с реальными данными, научитесь выявлять скрытые закономерности и применять эти инсайты в своих проектах.

Стоимость: 3990 ₽

Не беспокойтесь, если теоретическая база пока хромает — вы можете заранее посмотреть запись нашего вебинара по основам по ссылке ниже.

➡️

Забронировать место на воркшопе: https://proglib.io/w/0eb27019

Please open Telegram to view this post

VIEW IN TELEGRAM

😁2👍1

1.87K views13:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👨‍💻

Топ-вакансий для дата-сайентистов за неделю

Data Scientist в области языковых моделей (Middle) — от 351 000 ₽, удаленно

Data Scientist (классический ML) — от 230 000 ₽, удаленно

Senior Data Scientist (Recommender Systems) — от 5 000 до 6 500 €, удаленно

Data Engineer / Инженер данных (уровень Middle) — от 150 000 ₽, удаленно (Екатеринбург)

Data Analyst (Physics) — от 2 500 до 3 000 €, удаленно

➡️ Еще больше топовых вакансий — в нашем канале Data jobs

Библиотека дата-сайентиста

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

1.81K views17:52

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💎

Шпаргалка, после которой вы реально поймёте LLM

Что внутри шпаргалки:
— Архитектура трансформеров
— Механизмы внимания
— Обучение языковых моделей
— Позиционные эмбеддинги
— Разбор современных LLM

🔝 И многое другое, объяснённое максимально наглядно всего на 4 страницах!

👉 Скачать шпаргалку: https://clc.to/T4BpUg

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤2🔥2❤‍🔥2

1.98K views06:52

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🆕

OpenAI выпустила три новые модели: GPT‑4.1, 4.1 Mini и 4.1 Nano

Теперь можно запускать контексты до 1 миллиона токенов через API. Новые бенчмарки, расширенные окна контекста и первая в истории nano-модель. Быстрее, умнее и дешевле, чем GPT-4o.

➡️ GPT-4.1 Nano — первая «крошечная» модель OpenAI для сверхнизкой задержки и edge-приложений. Оптимизирована под скорость.

GPT-4.1 показывает улучшения по всем направлениям:
— Кодинг: 54.6% на SWE-bench (на 21.4% выше GPT-4o)
— Инструкции: 38.3% на MultiChallenge (на 10.5% выше)
— Длинные контексты: 72.0% на Video-MME (на 6.7% выше)
— Использует обучающие данные до июня 2024 года
— Эффективно обрабатывает большие документы и целые кодовые базы

➡️

GPT-4 уходит в отставку

С 30 апреля GPT-4 больше не будет использоваться в ChatGPT. Его заменит GPT-4o — мультимодальная модель, представленная OpenAI в мае прошлого года.

Из примечания к релизу:

«GPT‑4 стал поворотной точкой в развитии ChatGPT. Мы благодарны за прорывы, которые он обеспечил, и за отзывы, которые помогли сформировать его преемника. GPT‑4o продолжает эту линию, предлагая ещё больше возможностей, стабильности и креативности.»

Тем временем, OpenAI готовит к запуску новое семейство моделей, которое заменит GPT-4o — GPT-4.1, релиз может состояться уже на этой неделе.

GPT-4 останется доступен через API, несмотря на замену в ChatGPT.

👍

Ставь лайк, если OpenAI явно стоит поработать над названиями своих моделей.

Библиотека дата-сайентиста #свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

❤12😁3

1.84K views12:32

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧮 Как избежать ловушки округления в Power BI

Твой отчет показывает разные цифры при одинаковой логике? Не спеши винить систему – это классический кейс с округлением в Power BI.

👊 Разбираемся, как типы данных влияют на точность и почему Currency может стать твоим врагом.

➡️ Подробнее в статье: https://proglib.io/sh/TcGmatdgNV

Библиотека дата-сайентиста

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2❤1

12.9K views17:52

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

MLOps без воды: готовый пошаговый план

Готовый GitHub-репозиторий, который по шагам закрывает ключевые темы: от настройки проекта и контроля данных — до CI/CD, упаковки моделей и деплоя в AWS:

✅Неделя 0: Базовая настройка проекта

✅Неделя 1: Мониторинг моделей через Weights & Biases

✅Неделя 2: Конфигурации с Hydra

✅Неделя 3: Контроль версий данных с DVC

✅Неделя 4: Упаковка моделей в ONNX

✅Неделя 5: Упаковка моделей в Docker

✅Неделя 6: CI/CD через GitHub Actions

✅ Неделя 7: Хранение контейнеров в AWS ECR

✅ Неделя 8: Серверлесс-деплой на AWS Lambda

✅ Неделя 9: Мониторинг предсказаний через Kibana

🔗

Ссылка на репозиторий: https://clc.to/Hqx7cg

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9❤3❤‍🔥1

2.37K views06:50

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📱 Кто-то на Reddit попросил ChatGPT придумать самый смешной мем, которого ещё не существует — и поделился результатом. Мы не могли пройти мимо и сделали подборку.

🔥 На первой картинке — наш вариант, сгенерированный ИИ.

Теперь — твой ход!

Проголосуй за самый угарный мем:
❤️ — 1
👍 — 2
😄 — 3
⚡️ — 4
❤️‍🔥 — 5
🔥 — 6

Попроси ChatGPT сгенерировать свой и кидай в комменты:

Придумай смешной мем, который еще не существует! Он должен быть актуальным, креативным и легко воспринимаемым для широкой аудитории. Мем должен содержать не только текст, но и ситуацию или концепцию, которая вызывает смех благодаря неожиданному повороту событий, игре слов или контексту. Он может быть в формате диалога, сравнения, абсурдного контекста или с элементами иронии.

🥰 Самые крутые попадут в следующий пост, а авторы получат свою долю мемной славы.

Библиотека дата-сайентиста #развлекалово

Please open Telegram to view this post

VIEW IN TELEGRAM

😁10⚡7👍5🥱4❤‍🔥2❤1🔥1

2.26K views17:52

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📱

Промпт дня: применяем знания в реальной задаче

Этот промпт поможет сделать шаг от теории к практике и реально прокачать скиллы в Data Science.

✏️ Промпт:

Give me a ‘challenge of the week’ to apply my knowledge in a real-world scenario.

It should be a practical task closely resembling a real business case or research problem. The challenge should encourage using your Data Science skills — from data analysis and visualization to building models and interpreting results. Ideally, it should involve open datasets, an interesting context, and provide hands-on insights into how the industry works.

Bonus points for including unconventional approaches, such as messy data, unclear success metrics, or the need to explain results to a non-technical audience.

➡️

Примеры челленджей недели:
• Прогнозирование оттока пользователей для подписочного сервиса
• Прогнозирование продаж для интернет-магазина
• Оптимизация ценовой стратегии для онлайн-ритейлера

➡️

Что вы получите:
• Возможность применить знания на практике в реальных бизнес-задачах
• Развитие навыков работы с открытыми данными и реальными кейсами
• Умение интерпретировать и объяснять сложные данные
• Креативные способы решения нестандартных задач

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍3🔥3

2.07K views06:52

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🆕

OpenAI выпускает o3, o4-mini и Codex CLI — мощнейшее обновление в ИИ

➡️

Главное:
• o3 — новая флагманская модель: глубже мыслит, дольше держит контекст, лучше справляется с кодом и визуальными задачами
• o4-mini — облегчённая версия с суперэффективной производительностью
• o4-mini-high — вариант, где модель тратит больше времени на ответы для повышения надёжности
• Codex CLI — новый инструмент для локальной разработки прямо из терминала

➡️

Что нового в моделях:

• Длинные цепочки размышлений: теперь модели тратят больше ресурсов на шаги мышления — особенно это заметно в сложных задачах.

• Инструментальное мышление: модели сами решают, когда использовать Python, поиск в интернете, генерацию изображений и т.д.

• Мультимодальность: изображения стали полноценной частью мышления — модель может увеличивать, обрезать, перепроверять и рассуждать.

• Они реально работают как агенты, а не просто языковые модели

➡️

Как работает визуальное мышление:

Модель обрабатывает картинку как рабочий лист:
→ приближает важные детали
→ распознаёт текст
→ решает задачу с помощью встроенного Python
→ проверяет результат по изображению
→ и при необходимости пересчитывает

Эта стратегия устраняет ошибки распознавания и поднимает точность до новых высот.

➡️

Codex CLI — ИИ-разработчик в вашем терминале

• Установка: npm i -g @openai/codex
• Понимает ваши инструкции, анализирует проект, предлагает изменения.

• Всё работает локально и безопасно (через Git и sandbox).

• Поддерживает три режима: от «спросить на каждом шаге» до «полный автопилот».

• Можно вставить скриншот или чертёж, и Codex сам напишет код.

➡️

Производительность и стоимость:
• o3 > o1, o4-mini > o3-mini на всех уровнях
• o4-mini стал самым выгодным по соотношению цена/точность
• Можно сократить расходы на 30–40%, просто переключившись с o3-mini на o4-mini

Библиотека дата-сайентиста #свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍2🔥1

1.81K views10:53

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🚀 Приручи алгоритмы: из формул в код за один воркшоп

Готовы превратить сложную теорию машинного обучения в практические навыки? Тогда приходите на наш воркшоп, который пройдет 21 апреля.

Что вас ждет на воркшопе:
🟢 Работа с реальными данными — никаких учебных датасетов, только то, что встречается в настоящих проектах.

🟢Снижение размерности с PCA — научитесь выделять главное из информационного шума.

🟢Случайный лес vs градиентный бустинг — разберемся, в чём ключевое различие и когда какой алгоритм эффективнее.

🟢Мастерство гиперпараметров — освоите тонкую настройку моделей для максимальной точности.

На нашем воркшопе вы не просто слушаете — вы делаете сами! Вы будете писать код на Python, применять популярные библиотеки и сразу видеть результат своей работы.

А самое ценное: каждый участник получит персональный code review от Марии Горденко — инженера-программиста, старшего преподавателя НИУ ВШЭ, руководителя магистратуры от ГК Самолет и Альфа-Банка.

⏰ Когда: 21 апреля
💸Стоимость: всего 3990₽

Только сегодня, до конца дня: 10 мест по промокоду kulich → 2 990 ₽.

➡️ Записаться на воркшоп: https://proglib.io/w/0eb27019

👍1

1.63K views15:02

About

Blog

Apps

Platform