Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👨‍💻 Как провести отбор признаков при построении модели?

Можно исходить из нескольких соображений:

✍️ Первым делом можно убрать те признаки, значения у которых практически не меняются. Такие фичи не содержат информации. В целом, можно отбрасывать признаки, дисперсия которых ниже определённой границы.
✍️ Можно делать выбор в пользу лучших признаков по результатам статистических тестов. Подробнее тут.
✍️ Можно сначала построить baseline модель для оценки признаков. Она должна явно показывать важность использованных фичей. На роль такой модели подойдут, например, Random Forest или линейная модель с Lasso-регуляризацией.
✍️ Наконец можно использовать метод перебора. Нужно по очереди обучать модель на разных подмножествах фичей. Этот способ самый вычислительно сложный, но надёжный.

#вопросы_с_собеседований

❤12

3.05K views18:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧘Чек лист идеального отдыха: 5 психологических техник расслабления

У вас законные выходные, а вы никак не можете расслабиться? Возможно, вам помогут пять простых техник, которые перечислены на карточках.

Ещё несколько советов — в нашей статье 👈

❤8

2.93K viewsedited 07:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🦾 Как улучшить производительность моделей без огромных вычислительных затрат

Авторы новой статьи изучили методы улучшения производительности моделей, которые можно применить к ним после обучения. Прелесть методов в том, что они не требуют больших вычислительных ресурсов. Их разбили на пять категорий:
✔️ Использование дополнительных инструментов.
✔️ Улучшение промптов.
✔️ Применение программ, которые структурируют reasoning модели и потоки информации между копиями модели.
✔️ Применение методов генерации и последующего выбора между несколькими вариантами решения проблемы.
✔️ Генерация более качественных данных для файн-тюнинга.

🔗 Блогпост по статье
📖 Сама статья

❤6👍2

3.31K views11:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👾 В каком направлении вам хотелось бы начать разбираться?

❤️ — NLP (обработка естественного языка)
👍 — компьютерное зрение
👾 — обучение с подкреплением

#интерактив

❤75👾56👍53

2.82K views18:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

-35% на самый хардкорный курс по вышмату

🎄 Новый год начинается с подарков, а хороший подарок для себя — новые знания со скидкой 35%!

🌟«Математика для Data Science» — 19 490 ₽ (вместо 29 990 ₽)

Полугодовая программа от преподавателей МГУ, которая включает в себя все необходимые знания по математике для работы в Data Science.

Вас ждет развернутая обратная связь по всем домашним заданиям, а также ссылки на полезные дополнительные материалы.

У вас не будет шансов не усвоить какие-то темы курса👌

🔥 Переходите и активируйте вводные занятия курса — https://proglib.io/w/4468ec03

🔥2🥱1

2.81K views05:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

⭐ Простая сегментация изображений в KerasCV

В KerasCV появилась модель Segment Anything, которая позволяет сегментировать изображения с помощью так называемых points prompts (точек-подсказок).

Инструмент легко использовать: достаточно передать модели координаты точки, и она выделит несколько участков на выбор. В примере сверху Segment Anything вернула как выделенное окно, так и машину целиком.

Создатель Keras Франсуа Шолле утверждает, что с бэкендом JAX инструмент работает в 5 раз быстрее на GPU, чем оригинальная реализация в PyTorch.

🔗Официальный туториал по Segment Anything в KerasCV

❤5

2.95K views08:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

❤️ Подборка лучших книг для дата сайентистов

Все эти книги доступны в нашем канале «Книги для дата сайентистов | Data Science».

▪️Communicating with Data (2023)
В книге рассказывается, как эффективно работать с данными, анализировать и визуализировать их.
▪️Data Science Bookcamp (2021)
Описывает пять DS-проектов. На их примере автор разбирает распространённые проблемы, такие как отсутствие данных, бардак в данных и плохой выбор алгоритма.
▪️Learning Data Science (2023)
Книга даёт фундаментальные навыки как в программировании, так и в статистике.
▪️R for Data Science (2023)
В книге объясняется, как работать с помощью R и RStudio, а также tidyverse — коллекции пакетов R.
▪️Data Science from Scratch: First Principles with Python, Second Edition (2019)
Содержит ускоренный курс по Python, основы линейной алгебры, статистики и теории вероятностей, а также основы машинного обучения.

👍15🔥5

4.43K views18:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤖 Искусственный интеллект объяснит предсказания нейронной сети

Интерпретация результатов работы нейронных сетей — это нерешённая задача. И она становится всё труднее по мере того, как модели увеличиваются и усложняются.

👨‍⚕️Исследователи из MIT предложили новый подход, который использует ИИ-алгоритм для проведения экспериментов на других моделях и объяснения их поведения. Этот алгоритм они назвали «automated interpretability agent» (AIA). Он способен выдавать объяснения результатов работы других ИИ в нескольких формах: языковое описание того, что система делает и в каких местах она ошибается, а также код для воспроизведения поведения системы.

Новый подход также включает набор тестов FIND для оценки методов интерпретации.

📖Прочесть статью исследователей

👍7👾2🔥1

3.31K views07:12

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

cheat_sheet_rag.pdf

11.3 MB

✏️ Шпаргалка по RAG (Retrieval-Augmented Generation)

RAG — это способ улучшить ответы большой языковой модели (LLM), предоставляя ей доступ к конкретным документам.

🦙 Шпаргалка от создателей LlamaIndex рассказывает, как устроен простейший RAG и какие существуют методы его улучшения.

🔗Ссылка на шпаргалку и статью

👍9

3.58K views18:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👨‍🎓 Очень много туториалов по машинному обучению на Python

На GitHub обнаружили репозиторий с инструкциями, охватывающими обширный список тем. На каждую тему есть Jupyter Notebook с кодом и подробными объяснениями.

Вот какие темы можно найти:
▪️глубокое обучение: разные виды нейронных сетей,
▪️развёртывание моделей,
▪️извлечение информации из дополнительных источников для LLM,
▪️временные ряды,
▪️A/B-тестирование,
▪️классический ML,
▪️большие данные,
▪️скрипты на Python.

🔗 Ссылка на репозиторий

👍15❤7

3.97K views07:07

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

✏️Что такое коэффициент детерминации в машинном обучении

Также известен как R-квадрат. Он измеряет долю дисперсии, объяснённую моделью, в общей дисперсии целевой переменной.

👉В контексте линейной регрессии, например, R-квадрат показывает, насколько хорошо линия регрессии аппроксимирует реальные точки данных.

Значение коэффициента детерминации варьируется от 0 до 1. Чем ближе к единице, тем лучше модель объясняет данные.

❗Стоит учитывать, что высокий R-квадрат не всегда означает, что модель будет хорошо работать на новых данных.

✔️ Пример расчёта коэффициента детерминации в scikit-learn:

from sklearn.metrics import r2_score
y_true = [3, -0.5, 2, 7]
y_pred = [2.5, 0.0, 2, 8]
print(r2_score(y_true, y_pred)) # -> 0.948...

👍14🥱5❤1🤔1

4.21K viewsedited 18:02

About

Blog

Apps

Platform