👨💻 Как провести отбор признаков при построении модели?
Можно исходить из нескольких соображений:
✍️ Первым делом можно убрать те признаки, значения у которых практически не меняются. Такие фичи не содержат информации. В целом, можно отбрасывать признаки, дисперсия которых ниже определённой границы.
✍️ Можно делать выбор в пользу лучших признаков по результатам статистических тестов. Подробнее тут.
✍️ Можно сначала построить baseline модель для оценки признаков. Она должна явно показывать важность использованных фичей. На роль такой модели подойдут, например, Random Forest или линейная модель с Lasso-регуляризацией.
✍️ Наконец можно использовать метод перебора. Нужно по очереди обучать модель на разных подмножествах фичей. Этот способ самый вычислительно сложный, но надёжный.
#вопросы_с_собеседований
Можно исходить из нескольких соображений:
✍️ Первым делом можно убрать те признаки, значения у которых практически не меняются. Такие фичи не содержат информации. В целом, можно отбрасывать признаки, дисперсия которых ниже определённой границы.
✍️ Можно делать выбор в пользу лучших признаков по результатам статистических тестов. Подробнее тут.
✍️ Можно сначала построить baseline модель для оценки признаков. Она должна явно показывать важность использованных фичей. На роль такой модели подойдут, например, Random Forest или линейная модель с Lasso-регуляризацией.
✍️ Наконец можно использовать метод перебора. Нужно по очереди обучать модель на разных подмножествах фичей. Этот способ самый вычислительно сложный, но надёжный.
#вопросы_с_собеседований
❤12
🧘Чек лист идеального отдыха: 5 психологических техник расслабления
У вас законные выходные, а вы никак не можете расслабиться? Возможно, вам помогут пять простых техник, которые перечислены на карточках.
Ещё несколько советов — в нашей статье 👈
У вас законные выходные, а вы никак не можете расслабиться? Возможно, вам помогут пять простых техник, которые перечислены на карточках.
Ещё несколько советов — в нашей статье 👈
❤8
🦾 Как улучшить производительность моделей без огромных вычислительных затрат
Авторы новой статьи изучили методы улучшения производительности моделей, которые можно применить к ним после обучения. Прелесть методов в том, что они не требуют больших вычислительных ресурсов. Их разбили на пять категорий:
✔️ Использование дополнительных инструментов.
✔️ Улучшение промптов.
✔️ Применение программ, которые структурируют reasoning модели и потоки информации между копиями модели.
✔️ Применение методов генерации и последующего выбора между несколькими вариантами решения проблемы.
✔️ Генерация более качественных данных для файн-тюнинга.
🔗 Блогпост по статье
📖 Сама статья
Авторы новой статьи изучили методы улучшения производительности моделей, которые можно применить к ним после обучения. Прелесть методов в том, что они не требуют больших вычислительных ресурсов. Их разбили на пять категорий:
✔️ Использование дополнительных инструментов.
✔️ Улучшение промптов.
✔️ Применение программ, которые структурируют reasoning модели и потоки информации между копиями модели.
✔️ Применение методов генерации и последующего выбора между несколькими вариантами решения проблемы.
✔️ Генерация более качественных данных для файн-тюнинга.
🔗 Блогпост по статье
📖 Сама статья
❤6👍2
👾 В каком направлении вам хотелось бы начать разбираться?
❤️ — NLP (обработка естественного языка)
👍 — компьютерное зрение
👾 — обучение с подкреплением
#интерактив
❤️ — NLP (обработка естественного языка)
👍 — компьютерное зрение
👾 — обучение с подкреплением
#интерактив
❤75👾56👍53
-35% на самый хардкорный курс по вышмату
🎄 Новый год начинается с подарков, а хороший подарок для себя — новые знания со скидкой 35%!
🌟«Математика для Data Science» — 19 490 ₽ (вместо 29 990 ₽)
Полугодовая программа от преподавателей МГУ, которая включает в себя все необходимые знания по математике для работы в Data Science.
Вас ждет развернутая обратная связь по всем домашним заданиям, а также ссылки на полезные дополнительные материалы.
У вас не будет шансов не усвоить какие-то темы курса👌
🔥 Переходите и активируйте вводные занятия курса — https://proglib.io/w/4468ec03
🎄 Новый год начинается с подарков, а хороший подарок для себя — новые знания со скидкой 35%!
🌟«Математика для Data Science» — 19 490 ₽ (вместо 29 990 ₽)
Полугодовая программа от преподавателей МГУ, которая включает в себя все необходимые знания по математике для работы в Data Science.
Вас ждет развернутая обратная связь по всем домашним заданиям, а также ссылки на полезные дополнительные материалы.
У вас не будет шансов не усвоить какие-то темы курса👌
🔥 Переходите и активируйте вводные занятия курса — https://proglib.io/w/4468ec03
🔥2🥱1
⭐ Простая сегментация изображений в KerasCV
В KerasCV появилась модель Segment Anything, которая позволяет сегментировать изображения с помощью так называемых points prompts (точек-подсказок).
Инструмент легко использовать: достаточно передать модели координаты точки, и она выделит несколько участков на выбор. В примере сверху Segment Anything вернула как выделенное окно, так и машину целиком.
Создатель Keras Франсуа Шолле утверждает, что с бэкендом JAX инструмент работает в 5 раз быстрее на GPU, чем оригинальная реализация в PyTorch.
🔗Официальный туториал по Segment Anything в KerasCV
В KerasCV появилась модель Segment Anything, которая позволяет сегментировать изображения с помощью так называемых points prompts (точек-подсказок).
Инструмент легко использовать: достаточно передать модели координаты точки, и она выделит несколько участков на выбор. В примере сверху Segment Anything вернула как выделенное окно, так и машину целиком.
Создатель Keras Франсуа Шолле утверждает, что с бэкендом JAX инструмент работает в 5 раз быстрее на GPU, чем оригинальная реализация в PyTorch.
🔗Официальный туториал по Segment Anything в KerasCV
❤5
❤️ Подборка лучших книг для дата сайентистов
Все эти книги доступны в нашем канале «Книги для дата сайентистов | Data Science».
▪️Communicating with Data (2023)
В книге рассказывается, как эффективно работать с данными, анализировать и визуализировать их.
▪️Data Science Bookcamp (2021)
Описывает пять DS-проектов. На их примере автор разбирает распространённые проблемы, такие как отсутствие данных, бардак в данных и плохой выбор алгоритма.
▪️Learning Data Science (2023)
Книга даёт фундаментальные навыки как в программировании, так и в статистике.
▪️R for Data Science (2023)
В книге объясняется, как работать с помощью R и RStudio, а также tidyverse — коллекции пакетов R.
▪️Data Science from Scratch: First Principles with Python, Second Edition (2019)
Содержит ускоренный курс по Python, основы линейной алгебры, статистики и теории вероятностей, а также основы машинного обучения.
Все эти книги доступны в нашем канале «Книги для дата сайентистов | Data Science».
▪️Communicating with Data (2023)
В книге рассказывается, как эффективно работать с данными, анализировать и визуализировать их.
▪️Data Science Bookcamp (2021)
Описывает пять DS-проектов. На их примере автор разбирает распространённые проблемы, такие как отсутствие данных, бардак в данных и плохой выбор алгоритма.
▪️Learning Data Science (2023)
Книга даёт фундаментальные навыки как в программировании, так и в статистике.
▪️R for Data Science (2023)
В книге объясняется, как работать с помощью R и RStudio, а также tidyverse — коллекции пакетов R.
▪️Data Science from Scratch: First Principles with Python, Second Edition (2019)
Содержит ускоренный курс по Python, основы линейной алгебры, статистики и теории вероятностей, а также основы машинного обучения.
👍15🔥5
🤖 Искусственный интеллект объяснит предсказания нейронной сети
Интерпретация результатов работы нейронных сетей — это нерешённая задача. И она становится всё труднее по мере того, как модели увеличиваются и усложняются.
👨⚕️Исследователи из MIT предложили новый подход, который использует ИИ-алгоритм для проведения экспериментов на других моделях и объяснения их поведения. Этот алгоритм они назвали «automated interpretability agent» (AIA). Он способен выдавать объяснения результатов работы других ИИ в нескольких формах: языковое описание того, что система делает и в каких местах она ошибается, а также код для воспроизведения поведения системы.
Новый подход также включает набор тестов FIND для оценки методов интерпретации.
📖Прочесть статью исследователей
Интерпретация результатов работы нейронных сетей — это нерешённая задача. И она становится всё труднее по мере того, как модели увеличиваются и усложняются.
👨⚕️Исследователи из MIT предложили новый подход, который использует ИИ-алгоритм для проведения экспериментов на других моделях и объяснения их поведения. Этот алгоритм они назвали «automated interpretability agent» (AIA). Он способен выдавать объяснения результатов работы других ИИ в нескольких формах: языковое описание того, что система делает и в каких местах она ошибается, а также код для воспроизведения поведения системы.
Новый подход также включает набор тестов FIND для оценки методов интерпретации.
📖Прочесть статью исследователей
👍7👾2🔥1
cheat_sheet_rag.pdf
11.3 MB
✏️ Шпаргалка по RAG (Retrieval-Augmented Generation)
RAG — это способ улучшить ответы большой языковой модели (LLM), предоставляя ей доступ к конкретным документам.
🦙 Шпаргалка от создателей LlamaIndex рассказывает, как устроен простейший RAG и какие существуют методы его улучшения.
🔗Ссылка на шпаргалку и статью
RAG — это способ улучшить ответы большой языковой модели (LLM), предоставляя ей доступ к конкретным документам.
🦙 Шпаргалка от создателей LlamaIndex рассказывает, как устроен простейший RAG и какие существуют методы его улучшения.
🔗Ссылка на шпаргалку и статью
👍9
👨🎓 Очень много туториалов по машинному обучению на Python
На GitHub обнаружили репозиторий с инструкциями, охватывающими обширный список тем. На каждую тему есть Jupyter Notebook с кодом и подробными объяснениями.
Вот какие темы можно найти:
▪️глубокое обучение: разные виды нейронных сетей,
▪️развёртывание моделей,
▪️извлечение информации из дополнительных источников для LLM,
▪️временные ряды,
▪️A/B-тестирование,
▪️классический ML,
▪️большие данные,
▪️скрипты на Python.
🔗 Ссылка на репозиторий
На GitHub обнаружили репозиторий с инструкциями, охватывающими обширный список тем. На каждую тему есть Jupyter Notebook с кодом и подробными объяснениями.
Вот какие темы можно найти:
▪️глубокое обучение: разные виды нейронных сетей,
▪️развёртывание моделей,
▪️извлечение информации из дополнительных источников для LLM,
▪️временные ряды,
▪️A/B-тестирование,
▪️классический ML,
▪️большие данные,
▪️скрипты на Python.
🔗 Ссылка на репозиторий
👍15❤7
✏️Что такое коэффициент детерминации в машинном обучении
Также известен как R-квадрат. Он измеряет долю дисперсии, объяснённую моделью, в общей дисперсии целевой переменной.
👉В контексте линейной регрессии, например, R-квадрат показывает, насколько хорошо линия регрессии аппроксимирует реальные точки данных.
Значение коэффициента детерминации варьируется от 0 до 1. Чем ближе к единице, тем лучше модель объясняет данные.
❗Стоит учитывать, что высокий R-квадрат не всегда означает, что модель будет хорошо работать на новых данных.
✔️ Пример расчёта коэффициента детерминации в scikit-learn:
Также известен как R-квадрат. Он измеряет долю дисперсии, объяснённую моделью, в общей дисперсии целевой переменной.
👉В контексте линейной регрессии, например, R-квадрат показывает, насколько хорошо линия регрессии аппроксимирует реальные точки данных.
Значение коэффициента детерминации варьируется от 0 до 1. Чем ближе к единице, тем лучше модель объясняет данные.
❗Стоит учитывать, что высокий R-квадрат не всегда означает, что модель будет хорошо работать на новых данных.
✔️ Пример расчёта коэффициента детерминации в scikit-learn:
from sklearn.metrics import r2_score
y_true = [3, -0.5, 2, 7]
y_pred = [2.5, 0.0, 2, 8]
print(r2_score(y_true, y_pred)) # -> 0.948...
👍14🥱5❤1🤔1