Машинное обучение RU
17.7K subscribers
1.58K photos
207 videos
11 files
2.04K links
Все о машинном обучении

админ - @workakkk

@data_analysis_ml - анализ даннных

@ai_machinelearning_big_data - Machine learning

@itchannels_telegram -лучшие ит-каналы

@pythonl - Python

@pythonlbooks- python 📚

@datascienceiot - 📚

РКН: clck.ru/3FmrUw
Download Telegram
⭐️ Обучение модели W2NER для поиска именованных сущностей в текстах на русском языке

Задача распознавания сущностей (NER) постоянно возникает при машинной обработке документов, продолжается улучшение показателей качества и скорости работы алгоритмов для решения данной задачи. Предлагаю рассмотреть модель W2NER – классификатор попарных отношений слов в предложении. Далее я обучу модель на русскоязычном датасете и оценю качество её работы. Данные взяты из научной публикации: Unified Named Entity Recognition as Word-Word Relation Classification авторов Jingye Li и др.

➡️ Читать дальше
↪️ Github

@machinelearning_ru
🔥9👍2
This media is not supported in your browser
VIEW IN TELEGRAM
🤖 5 классических алгоритмов машинного обучения, о которых вам обязательно следует знать

Статья дает базовое представление о классических алгоритмах машинного обучения, которые находят широкое применение при решении прикладных задач, таких как предсказание оттока клиентов, персонализация рекламы и так далее.

Формат статьи отличается от обычного списка невзаимосвязанных элементов. Вместо этого, все алгоритмы разделены на группы, и для каждой группы описаны самые популярные её представители.

Почему именно такой формат?

Практическое применение. Знания бесполезны, если они не могут быть применены. Разбивка на основные группы по применению даст лучшее понимание того, какие задачи вы можете решить, используя тот или иной алгоритм.
Актуальность. Правда в том, что не все алгоритмы машинного обучения сохраняют свою актуальность. Вы сразу увидите, что такие традиционные алгоритмы, как наивный байесовский алгоритм, не включены в статью просто потому, что они деклассированы более совершенными алгоритмами.
Усвояемость. Есть тысячи онлайн ресурсов, которые научат тебя реализовывать модели, о которых пойдет далее разговор. Мы же больше сфокусированы на оптимальном применении каждого типа алгоритмов.

➡️ Читать дальше
↪️ Machine Learning From Scratch

@machinelearning_ru
👍12🔥1
Выборка 9 человек из интересующей нас популяции выявила средний объем мозга = 1100 куб.см. со стандартным отклоненим 30 куб.см. Каким будет 95% Т-доверительный интервал Стьюдента для среднего объема мозга в этой популяции?

Ответ

Используем формулу доверительного интервала для выборки (картинка)

Учитывая уровень доверительности 95% и количество степеней свободы, равное 8, t-оценка = 2.306.

Доверительный интервал = 1100 +/- 2.306*(30/3) = [1076.94, 1123.06].

38. Девять испытуемых получали диетические пилюли на протяжении 6 недель. Средняя потеря веса составила -2 кг. Каким должно быть стандартное отклонение потери веса, чтобы верхняя граница 95% Т-доверительного интервала была равна 0?

Верхняя граница = среднее + t-оценка * (стандартное отклонение / квадратный корень из размера выборки).

0 = -2 + 2.306*(s/3)

2 = 2.306 * s / 3

s = 2.601903

Таким образом, стандартное отклонение должно быть примерно 2.60, чтобы Т-доверительный интервал заканчивался в нуле.

@machinelearning_interview
👍13🔥21
Stable-Diffusion альтернатива DALL-E 2 с открытым исходным кодом, для преобразование текста в изображение

Для нормальной работы инструмента требуется не менее 10 ГБ видеопамяти

Ссылка на проект

@machinelearning_ru
👍8🔥2
Компьютерное зрение. Распознаем позу человека с использованием OpenPose.

Анализ видео и изображений – одно из основных направлений применения технологий ML. Распознавание лиц и объектов позволяет автоматически анализировать данные, определяя положение тела, личность или даже эмоции человека, что может быть использовано как в системах безопасности — face id, определение действий человека, так и для улучшения клиентского опыта – детектирование эмоций клиентов и персонала.

Но каждый, кто писал программы распознавания объектов, используя opencv, знает, что выделение опорных точек и построение выпуклой оболочки — наименьшего выпуклого множества, содержащего опорные точки, дело часто тяжелое и неблагодарное.

➡️ Читать дальше
⚙️ Github

@machinelearning_ru
👍6🔥3
🧠 Нейросеть Stable Diffusion, генерирующая изображения высочайшего качества (вполне конкурирует с DALLE-2) теперь доступна для всех

Вы можете войти в систему с помощью своих учетных записей discord или Google или создать новую учетную запись.

➡️ Stable Diffusion регистарция
➡️ Github

@machinelearning_ru
👍9🔥1
#04TheNotSoToughML | “Давай, минимизируй ошибки” — Но достаточно ли этого?

Недообучение и переобучение.

Они часто дают о себе знать внезапно, перечеркивая всю работу над МО-моделью. Пока мы создаем модель — результаты выглядят вполне приемлемыми. Но стоит запустить ее в производство — оказывается, что наши решения были совершенно неправильными и модель плохо справляется с прогнозами.

Конечно, может быть множество факторов, способствующих “неправильным” результатам. Но чаще всего к таким сценариям приводит одна из двух оплошностей: недообучение или переобучение.

Мы подробно рассмотрим обе проблемы и найдем способы их решения. Хотя существует множество доступных методов, мы углубимся в следующие:

тестирование и валидация модели;
использование графа сложности модели.

➡️ Читать

@machinelearning_ru
🔥4👍1
25 прикольных вопросов для собеседования по машинному обучению

➡️ Читать

@machinelearning_ru
🔥7👍1
mv1p-dance-smpl.gif
4.4 MB
EasyMocap — набор инструментов с открытым исходным кодом для безмаркерного захвата движения человека и нового синтеза изображений из видео.

В этом проекте предоставляется множество демонстраций захвата движения в разных условиях.

Инструментарий находится здесь :3
🔥9👍1
Deep Reinforcement Learning in Action

Автор:
Brandon Brown, And Alexander Zai
Год издания: 2020

#deep_Learning #english

📖 Книга

@machinelearning_ru
🔥7👍3
🌠 Автоматическое МО (AutoML) с использованием PyCaret: основные принципы

Почему AutoML?
Когда-то давно модели машинного обучения с автоматическим обучением были мечтой исследователей данных. Типичная работа специалиста по изучению данных проходит по следующему алгоритму:

- Определение
- Понимание
- Получение
- Анализ
- Подготовка
- Обучение
- Оценка
- Передача

➡️ Читать дальше

@machinelearning_ru
🔥8👍2
💨 Ускорение алгоритмов машинного обучения.

С ростом потребности в распараллеливании алгоритмов машинного обучения из-за экспоненциального увеличения размеров данных и даже размеров моделей было бы очень полезно, если бы у нас был инструмент, который мог бы помочь распараллелить нашиPandasобработка DataFrame, которая может парализовать нашNumpyвычисления, и даже распараллелить наши алгоритмы машинного обучения (возможно, алгоритмы изsklearnа такжеtensorflow) без особых хлопот.

Но такая библиотека существует, и ее имя Dask,Dask библиотека параллельных вычислений, которая не только помогает распараллелить существующие инструменты машинного обучения (Pandasа такжеNumpy) [то есть используя коллекцию высокого уровня], но также помогает распараллеливать задачи / функции низкого уровня и может обрабатывать сложные взаимодействия между этими функциями, создавая график задач. [то есть используя планировщики низкого уровня] Это похоже на многопроцессорные или многопроцессорные модули Python.

➡️ Читать дальше

@machinelearning_ru
🔥5👍1
machinelearning_interview - канал подготовит к собеседованию по машинному обучению, статисике ,алгоритмам и науке о данных.

golang_interview - Вопросы с настоящих Golang собеседований, помогут Вам получить успешно пройти интервью.

python_job_interview - здесь собраны все возможные вопросы и ответы с собеседований по Python.

data_analysis_ml - аналитика данных.
👍85
🤖🎨 ИИ для рисования: раскрываем секреты нейронного переноса стиля

Раскладываем по полочками, как «думает» нейронная сеть VGG-19, когда ей прилетает задача скопировать стиль художника из вида Homo sapiens.

➡️ Читать дальше
⚙️ Ноутбук на Kaggle
⚙️ Код
🧠 Нейронный алгоритм переноса стиля

@machinelearning_ru
👍62🔥2
Полный список вопросов с собеседований по Python для дата-сайентистов и инженеров

Бывает, что компания ищет дата-сайентиста, а на самом деле ей нужен Python-разработчик. Поэтому при подготовке к собеседованию есть смысл освежить в памяти информацию по Python, а не только штудировать алгоритмы.

➡️ Читать дальше

@machinelearning_ru
🔥8👍5
🌉 Ансамбли методов в алгоритмах поиска выбросов

Большое число практических задач, например, поиск мошеннических операций, выявление брака или аномалий, обнаружение вирусных атак на основе нетипичной активности сводятся к задачам определения выбросов в данных. Для определения выбросов обычно используют стандартные методы, например, метод ближайших соседей (KNN) или метод локального уровня выбросов (LOF). Применение ансамблей позволяет улучшить точность работы стандартных методов. В посте рассмотрю, как это сделать.

Идея ансамблей методов проста. Буду делать подвыборки из обучающей выборки и обучать на них базовые алгоритмы. Получаю набор из независимых детекторов (этот набор называется ансамбль), которые выдают оценки для каждой точки данных. Комбинируя оценки выбросов от базовых алгоритмов, обученных на различных подвыборках, получаю более точное предсказание выбросов.

➡️ Читать дальше

@machinelearning_ru
👍13
Лассо- и ридж-регрессии: интуитивное сравнение

Чтобы понять, зачем нужны эти методы, обсудим дилемму смещения-дисперсии.

Дилемма смещения-дисперсии. Источник
В контролируемой среде у модели может быть два основных источника ошибок.

Смещение — ошибка, связанная с неверными предположениями в алгоритме обучения. Высокое смещение приводит к тому, что алгоритм упускает значимые взаимосвязи между признаками и целью (также называется “недостаточно близкой подгонкой”).
Дисперсия — ошибка, связанная с чувствительностью к малейшим флуктуациям в обучающих данных. Высокая дисперсия заставляет алгоритм моделировать случайный шум обучающих данных (также называется “чрезмерно близкой подгонкой”).

➡️ Читать дальше

@machinelearning_ru
🔥7👍2
This media is not supported in your browser
VIEW IN TELEGRAM
💻 Как легко развертывать модели МО в 2022 году с помощью Streamlit, BentoML и DagsHub

Вы создали модель машинного обучения. Что делать дальше? Хранить в ноутбуке Jupyter, как ценный актив, чтобы ее никто не видел? Вместо этого лучше самым простым и доступным образом дать возможность другим пользователям экспериментировать с вашей работой и делиться ей. Другими словами, модель необходимо развернуть.

Как это сделать? Просто распространить модель в виде файла? Такой вариант не подойдет.

А может в виде контейнера Docker? Это более удобный способ: пользователь получит необходимые данные для локального запуска модели. Однако делать это все равно придется в среде программирования, что не очень удобно.

А как насчет API? Довольно тяжело объяснить его принцип работы человеку, далекому от программирования.

А если создать веб-приложение? Это самый лучший вариант. Но разве для этого не нужны специальные знания?

К счастью, ничего из вышеперечисленного делать не придется. В этой статье представлен метод развертывания, который позволит представить модель в виде API, контейнера Docker и веб-приложения — и все это за несколько минут с помощью пары коротких скриптов Python.

➡️ Читать дальше
📖 Dataset
Github

@machinelearning_ru
👍10🔥1🤔1