Машинное обучение RU
17.7K subscribers
1.57K photos
207 videos
11 files
2.04K links
Все о машинном обучении

админ - @workakkk

@data_analysis_ml - анализ даннных

@ai_machinelearning_big_data - Machine learning

@itchannels_telegram -лучшие ит-каналы

@pythonl - Python

@pythonlbooks- python 📚

@datascienceiot - 📚

РКН: clck.ru/3FmrUw
Download Telegram
🚀 DeepSpeed ​​— это библиотека оптимизации глубокого обучения, которая делает распределенное обучение и логические выводы простыми, эффективными и действенными.

➡️ Github
🎯 Docs

@machinelearning_ru
🔥13
📝 Решение задачи определения границ предложений

В последнее время в Data Science сообществе фокус исследований сместился в сторону качества данных. Если еще пару лет назад большинство специалистов утверждали, что при использовании подходящих алгоритмов проблему можно решить достаточно хорошо, то сейчас большое внимание уделяют оценке качества данных. В своей практике я столкнулась с задачей, в которой результат напрямую зависел от качества нарезки текстов на предложения. Для разработки собственного алгоритма иногда просто нет времени, тут на помощь нам приходят библиотеки. В этой статье я хочу поделиться опытом, как я решала задачу определения границ предложений с использованием существующих алгоритмов и разработкой собственного перечня специфичных сокращений.

Задача определения границ предложений или Sentence boundary detection не является тривиальной по нескольким причинам:

Мы не можем однозначно понимать конец предложения по точке.
В текстах тематических областей используются разнообразные сокращения.
Неоднозначность определения границ из-за использования в текстах инициалов и сокращений, которые могут находиться как в середине предложения, так и в конце.

➡️ Читать дальше

@machinelearning_ru
👍4🔥3
Forwarded from Machinelearning
Эволюция машинного обучения и проблема «черного ящика»

Какие бенчмарки используются в ML?
Благодаря чему произошел прорыв в технологиях машинного обучения?
Как метод LIME помогает интерпретировать алгоритмы ИИ?
Почему нейронки по-прежнему работают не так, как хотелось бы ученым?

Ученые Yandex Research рассказали, как они исследуют логику нейросетей и почему людям до сих пор сложно прочитать их «мысли».
👍10🔥1
🪐 Визуализация архитектуры и отдельных блоков нейросети с помощью Netron

Netron поддерживает как наиболее популярные фреймворки глубокого обучения – Keras и PyTorch – так и менее известные, и даже scikit-learn.

Установка в виде сервера для python производится стандартным образом через pip. Также можно установить netron в виде отдельной программы командой.

winget install -s winget netron
(для Windows) или
snap install netron
(для Linux).


Читать дальше

@machinelearning_ru
👍7🔥3
🔥 Полезные библиотеки Python

AcurusTrack
- крутая утилита для трекинга одинаковых объектов вне зависимости от их природы.

Может следить за любыми одинаковыми объектами, хоть за людьми в масках, хоть хоккеистами, лошадьми или машинами.

GitHub

@machinelearning_ru
👍9🔥3
#03TheNotSoToughML | Регрессия: Ошибки → Спуск с вершины горы

https://nuancesprog.ru/p/16046/

@machinelearning_ru
🔥8
Как нейросети проводят лето: подборка самых ярких новостей в мире Data Science за месяц

В июле нейросети не теряли времени даром и успели предсказать структуру 200 млн белков, написать научную статью в соавторстве с человеком (и возможно на шаг приблизиться к той самой симфонии), а ещё дать футбольным фанатам надежду на крепкий сон. Подробнее об этих и других достижениях AI – в подборке новостей Data Science.

Читать дальше

@machinelearning_ru
👍7
deepfake от Samsung

А именно, у него есть показать новые варианты deepfake-ов в реальном времени с большим разрешением. Конечно, всё ещё не идеально, но намного лучше чем в 2020 году. А если вспомнить, как быстро менялась та же генерация изображений, то вероятно, что до совсем качественных deepfake-ов уже недалеко.

Видео: https://www.youtube.com/watch?v=JkUF40kPV4M

Статья: https://samsunglabs.github.io/MegaPortraits/

@machinelearning_ru
👍10🔥2
⭐️ Обучение модели W2NER для поиска именованных сущностей в текстах на русском языке

Задача распознавания сущностей (NER) постоянно возникает при машинной обработке документов, продолжается улучшение показателей качества и скорости работы алгоритмов для решения данной задачи. Предлагаю рассмотреть модель W2NER – классификатор попарных отношений слов в предложении. Далее я обучу модель на русскоязычном датасете и оценю качество её работы. Данные взяты из научной публикации: Unified Named Entity Recognition as Word-Word Relation Classification авторов Jingye Li и др.

➡️ Читать дальше
↪️ Github

@machinelearning_ru
🔥9👍2
This media is not supported in your browser
VIEW IN TELEGRAM
🤖 5 классических алгоритмов машинного обучения, о которых вам обязательно следует знать

Статья дает базовое представление о классических алгоритмах машинного обучения, которые находят широкое применение при решении прикладных задач, таких как предсказание оттока клиентов, персонализация рекламы и так далее.

Формат статьи отличается от обычного списка невзаимосвязанных элементов. Вместо этого, все алгоритмы разделены на группы, и для каждой группы описаны самые популярные её представители.

Почему именно такой формат?

Практическое применение. Знания бесполезны, если они не могут быть применены. Разбивка на основные группы по применению даст лучшее понимание того, какие задачи вы можете решить, используя тот или иной алгоритм.
Актуальность. Правда в том, что не все алгоритмы машинного обучения сохраняют свою актуальность. Вы сразу увидите, что такие традиционные алгоритмы, как наивный байесовский алгоритм, не включены в статью просто потому, что они деклассированы более совершенными алгоритмами.
Усвояемость. Есть тысячи онлайн ресурсов, которые научат тебя реализовывать модели, о которых пойдет далее разговор. Мы же больше сфокусированы на оптимальном применении каждого типа алгоритмов.

➡️ Читать дальше
↪️ Machine Learning From Scratch

@machinelearning_ru
👍12🔥1
Выборка 9 человек из интересующей нас популяции выявила средний объем мозга = 1100 куб.см. со стандартным отклоненим 30 куб.см. Каким будет 95% Т-доверительный интервал Стьюдента для среднего объема мозга в этой популяции?

Ответ

Используем формулу доверительного интервала для выборки (картинка)

Учитывая уровень доверительности 95% и количество степеней свободы, равное 8, t-оценка = 2.306.

Доверительный интервал = 1100 +/- 2.306*(30/3) = [1076.94, 1123.06].

38. Девять испытуемых получали диетические пилюли на протяжении 6 недель. Средняя потеря веса составила -2 кг. Каким должно быть стандартное отклонение потери веса, чтобы верхняя граница 95% Т-доверительного интервала была равна 0?

Верхняя граница = среднее + t-оценка * (стандартное отклонение / квадратный корень из размера выборки).

0 = -2 + 2.306*(s/3)

2 = 2.306 * s / 3

s = 2.601903

Таким образом, стандартное отклонение должно быть примерно 2.60, чтобы Т-доверительный интервал заканчивался в нуле.

@machinelearning_interview
👍13🔥21
Stable-Diffusion альтернатива DALL-E 2 с открытым исходным кодом, для преобразование текста в изображение

Для нормальной работы инструмента требуется не менее 10 ГБ видеопамяти

Ссылка на проект

@machinelearning_ru
👍8🔥2
Компьютерное зрение. Распознаем позу человека с использованием OpenPose.

Анализ видео и изображений – одно из основных направлений применения технологий ML. Распознавание лиц и объектов позволяет автоматически анализировать данные, определяя положение тела, личность или даже эмоции человека, что может быть использовано как в системах безопасности — face id, определение действий человека, так и для улучшения клиентского опыта – детектирование эмоций клиентов и персонала.

Но каждый, кто писал программы распознавания объектов, используя opencv, знает, что выделение опорных точек и построение выпуклой оболочки — наименьшего выпуклого множества, содержащего опорные точки, дело часто тяжелое и неблагодарное.

➡️ Читать дальше
⚙️ Github

@machinelearning_ru
👍6🔥3
🧠 Нейросеть Stable Diffusion, генерирующая изображения высочайшего качества (вполне конкурирует с DALLE-2) теперь доступна для всех

Вы можете войти в систему с помощью своих учетных записей discord или Google или создать новую учетную запись.

➡️ Stable Diffusion регистарция
➡️ Github

@machinelearning_ru
👍9🔥1
#04TheNotSoToughML | “Давай, минимизируй ошибки” — Но достаточно ли этого?

Недообучение и переобучение.

Они часто дают о себе знать внезапно, перечеркивая всю работу над МО-моделью. Пока мы создаем модель — результаты выглядят вполне приемлемыми. Но стоит запустить ее в производство — оказывается, что наши решения были совершенно неправильными и модель плохо справляется с прогнозами.

Конечно, может быть множество факторов, способствующих “неправильным” результатам. Но чаще всего к таким сценариям приводит одна из двух оплошностей: недообучение или переобучение.

Мы подробно рассмотрим обе проблемы и найдем способы их решения. Хотя существует множество доступных методов, мы углубимся в следующие:

тестирование и валидация модели;
использование графа сложности модели.

➡️ Читать

@machinelearning_ru
🔥4👍1
25 прикольных вопросов для собеседования по машинному обучению

➡️ Читать

@machinelearning_ru
🔥7👍1
mv1p-dance-smpl.gif
4.4 MB
EasyMocap — набор инструментов с открытым исходным кодом для безмаркерного захвата движения человека и нового синтеза изображений из видео.

В этом проекте предоставляется множество демонстраций захвата движения в разных условиях.

Инструментарий находится здесь :3
🔥9👍1