Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🎯 Почему нужно повторно обучать модели

Повторное обучение модели помогает улучшать ее производительность с учетом новых данных

Почему это важно
📉 Концептуальные изменения: распределение данных в реальном мире часто меняется, что приводит к ухудшению производительности модели.
📊 Новые закономерности: появление новых признаков в данных, которые модель должна учитывать.
⚙️ Оптимизация производительности: когда становится доступно больше размеченных данных, повторное обучение помогает повысить точность и уменьшить переобучение.

Типы повторного обучения
🔁 Запланированное обучение: периодическое повторное обучение модели (например, ежемесячно).
⏱️ Обучение по триггеру: инициация повторного обучения при определенных условиях, например, при снижении точности модели или значительном изменении распределения данных.
♻️ Непрерывное обучение: постоянное обновление модели по мере появления новых данных (инкрементальное обучение).

👀 Подробнее о том, когда пора обновлять ML-модели читайте в статье

👍5❤2

2.03K viewsedited 07:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🚀 Zasper: IDE для дата-сайентистов

Zasper — это IDE, разработанная с нуля для работы с высокой степенью параллелизма. Она обеспечивает минимальное потребление памяти, исключительную скорость и возможность обрабатывать множество одновременных подключений.

👍 Идеально подходит для запуска приложений в формате REPL, таких как Jupyter Notebook.

Github

🤔7👍1🔥1

2.2K views18:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Что такое DataDreamer

DataDreamer — это библиотека с открытым исходным кодом на Python для создания промптов, синтетических данных и рабочих процессов обучения.

✅ Простота: минимальный код для создания мощных рабочих процессов ИИ.
✅ Эффективность: библиотека оптимизирована для производительности с поддержкой нескольких графических процессоров.
✅ Исследовательский уровень: передовые методы генерации данных и обучения моделей.

Страница проекта
Github

❤2🤩1

2.02K views08:30

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📊 Федеративное обучение

🔒 Конфиденциальность данных — одна из главных проблем внедрения ИИ в здравоохранение и банковскую сферу. Больницы и финансовые организации неохотно предоставляют данные для обучения моделей из-за строгих регуляций, а риски часто перевешивают возможные выгоды.

🚀 Федеративное обучение решает эту проблему. Вместо того чтобы передавать данные модели, модель отправляется к данным.

Как это работает
1️⃣ Модель предварительно обучается на сервере и отправляется на устройства пользователей.
2️⃣ Пользователи взаимодействуют с локальными моделями, которые дообучаются на месте.
3️⃣ Обновления локальных моделей отправляются обратно на сервер и усредняются.
4️⃣ Центральная модель синхронизируется с локальными версиями.

Google о федеративном обучении (классный комикс)
Блог TensorFlow

👍3🔥2❤1

2K views11:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

⚡️ Успехи Китая и DeepSeek-R1 в гонке за лидерство в ИИ

Релиз R1 и новости об инвестициях в отрасль вызвали падение акций американских ИТ-гигантов. NVIDIA за сутки потеряла 14%, что составило $465 млрд — антирекорд.

🔥 Сегодня появилась новость о том, что Китай выделяет 1 триллион юаней на развитие ИИ.

А вот и все новости за последние дни:
👉 DeepSeek вытесняет ChatGPT с поста топового приложения App Store
👉DeepSeek вызвал истерику у Американских ИИ корпораций
👉DeepSeek — очередной квантовый скачок в развитии AI
👉Как установить и использовать ИИ модель DeepSeek R-1 на вашем компьютере
👉 The Illustrated DeepSeek-R1 (отличный иллюстрированный DeepSeek-R1)
👉 Nvidia, OpenAI и Трамп прокомментировали DeepSeek

👀 Правда ли, что модель лучше и дешевле? Подробный обзор — завтра! Интересно? Пишите в комментариях «+».

👍8🔥3❤2

2.1K views15:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

1.71K views18:35

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Что выведет код?

Anonymous Quiz

339 voters1.71K views18:35

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.

2.01K views20:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤔 Что такое Data Valuation

В обучении моделей машинного обучения не все данные одинаково полезны. Например, шумные данные или данные с неправильным label могут снижать качество обучения. Процесс оценки значимости каждого элемента данных называется Data Valuation.

LossVal — это метод оценки Data Valuation, основанный на анализе функции потерь (loss function) модели машинного обучения.

Статья
Github

🔥3👍2❤1

2.15K views07:13

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👀 Построение масштабируемого геокодера на разные страны: опыт применения deep learning

Геокодирование — процесс преобразования текстовых адресов в точные координаты — долгое время опиралось на бустинг и линейные модели. Однако переход на deep learning открыл новые возможности: быструю адаптацию к разным странам, работу с опечатками и народными названиями. Команда API Яндекс Карт показала, как применила этот подход и сократила время запуска в новой стране до пары недель.

Статья

👍4🔥4👾2

2.15K views13:35

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Recognition and Localization — ключевые задачи компьютерного зрения

Segment Anything Model (SAM) отлично справляется с локализацией, но уступает в распознавании. В то же время Recognize Anything Model (RAM) демонстрирует выдающиеся способности в распознавании изображений как по точности, так и по охвату.

Преимущества RAM:
✅ Мощный и универсальный — превосходит другие модели в zero-shot разметке.
✅ Доступный и воспроизводимый — открытый код и отсутствие затрат на аннотации.
✅ Гибкий и многофункциональный — подходит для разных сценариев.

🚀 RAM распознаёт больше полезных тегов, чем другие модели, превосходя CLIP, BLIP и даже полностью обученные подходы (ML-Decoder), а также конкурируя с Google Tagging API!

Страница проекта
Публикация

👍2❤1

2.06K views18:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🗺️ Как стать ИИ-разработчиком в 2025 году: дорожная карта и ресурсы

В 2025 году профессия ИИ-разработчика остается одной из самых востребованных и перспективных.

👀 Как начать свой путь в этой увлекательной, но сложной области?

Мы собрали подробную дорожную карту и полезные ресурсы, которые помогут вам шаг за шагом освоить ключевые навыки и технологии.

❤3

12.4K views07:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

⚡️ Если вы вдруг забыли: у нас можно купить рекламу

Библиотека программиста — медиа с миллионной аудиторией из IT-сферы. Что у нас есть:

• 60+ телеграм-каналов по разным IT-направлениям, от Python до DevOps

• 25 000 daily active users на сайте, который поможет усилить продвижение

• Возможность сделать нативную интеграцию, виральный пост и не только

За айтишной аудиторией — к нам 😏

По вопросам рекламы пишите сюда → @proglib_adv

👍3

2.04K views09:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

😳 Разработать свой проект с нуля и получить за него оффер

Если вас привлекает продуктовая аналитика и создание data-driven решений — приходите на конкурс «ИНТЕГРАФ», чтобы реализовать свой проект и поработать с реальными данными и кейсами.

💪 У вас будет возможность:
• провести полноценное продуктовое исследование
• разработать прототип нового цифрового решения
• продумать стратегию его развития

Это не просто учебный проект — вы будете работать над реальными задачами от VK, Avito и Юнилевер Русь.

Еще участники смогут получить предложение о стажировке или работе от компаний-партнеров. А для тех, кто планирует поступать в магистратуру — участие в конкурсе даёт дополнительные баллы при поступлении.

Для участия нужно собрать команду из 3-5 человек и подать заявку на сайте.

👉 Успевайте зарегистрироваться до 1 февраля

👍2❤1

2.08K views09:55

About

Blog

Apps

Platform