🚀 DeepSpeed — это библиотека оптимизации глубокого обучения, которая делает распределенное обучение и логические выводы простыми, эффективными и действенными.
➡️ Github
🎯 Docs
@machinelearning_ru
➡️ Github
🎯 Docs
@machinelearning_ru
🔥13
📝 Решение задачи определения границ предложений
В последнее время в Data Science сообществе фокус исследований сместился в сторону качества данных. Если еще пару лет назад большинство специалистов утверждали, что при использовании подходящих алгоритмов проблему можно решить достаточно хорошо, то сейчас большое внимание уделяют оценке качества данных. В своей практике я столкнулась с задачей, в которой результат напрямую зависел от качества нарезки текстов на предложения. Для разработки собственного алгоритма иногда просто нет времени, тут на помощь нам приходят библиотеки. В этой статье я хочу поделиться опытом, как я решала задачу определения границ предложений с использованием существующих алгоритмов и разработкой собственного перечня специфичных сокращений.
Задача определения границ предложений или Sentence boundary detection не является тривиальной по нескольким причинам:
Мы не можем однозначно понимать конец предложения по точке.
В текстах тематических областей используются разнообразные сокращения.
Неоднозначность определения границ из-за использования в текстах инициалов и сокращений, которые могут находиться как в середине предложения, так и в конце.
➡️ Читать дальше
@machinelearning_ru
В последнее время в Data Science сообществе фокус исследований сместился в сторону качества данных. Если еще пару лет назад большинство специалистов утверждали, что при использовании подходящих алгоритмов проблему можно решить достаточно хорошо, то сейчас большое внимание уделяют оценке качества данных. В своей практике я столкнулась с задачей, в которой результат напрямую зависел от качества нарезки текстов на предложения. Для разработки собственного алгоритма иногда просто нет времени, тут на помощь нам приходят библиотеки. В этой статье я хочу поделиться опытом, как я решала задачу определения границ предложений с использованием существующих алгоритмов и разработкой собственного перечня специфичных сокращений.
Задача определения границ предложений или Sentence boundary detection не является тривиальной по нескольким причинам:
Мы не можем однозначно понимать конец предложения по точке.
В текстах тематических областей используются разнообразные сокращения.
Неоднозначность определения границ из-за использования в текстах инициалов и сокращений, которые могут находиться как в середине предложения, так и в конце.
➡️ Читать дальше
@machinelearning_ru
👍4🔥3
Forwarded from Machinelearning
Эволюция машинного обучения и проблема «черного ящика»
Какие бенчмарки используются в ML?
Благодаря чему произошел прорыв в технологиях машинного обучения?
Как метод LIME помогает интерпретировать алгоритмы ИИ?
Почему нейронки по-прежнему работают не так, как хотелось бы ученым?
Ученые Yandex Research рассказали, как они исследуют логику нейросетей и почему людям до сих пор сложно прочитать их «мысли».
Какие бенчмарки используются в ML?
Благодаря чему произошел прорыв в технологиях машинного обучения?
Как метод LIME помогает интерпретировать алгоритмы ИИ?
Почему нейронки по-прежнему работают не так, как хотелось бы ученым?
Ученые Yandex Research рассказали, как они исследуют логику нейросетей и почему людям до сих пор сложно прочитать их «мысли».
nplus1.ru
Внимание, черный ящик
Как и зачем исследовать логику нейросетей
👍10🔥1
🪐 Визуализация архитектуры и отдельных блоков нейросети с помощью Netron
Netron поддерживает как наиболее популярные фреймворки глубокого обучения – Keras и PyTorch – так и менее известные, и даже scikit-learn.
Установка в виде сервера для python производится стандартным образом через pip. Также можно установить netron в виде отдельной программы командой.
winget install -s winget netron
(для Windows) или
snap install netron
(для Linux).
Читать дальше
@machinelearning_ru
Netron поддерживает как наиболее популярные фреймворки глубокого обучения – Keras и PyTorch – так и менее известные, и даже scikit-learn.
Установка в виде сервера для python производится стандартным образом через pip. Также можно установить netron в виде отдельной программы командой.
winget install -s winget netron
(для Windows) или
snap install netron
(для Linux).
Читать дальше
@machinelearning_ru
👍7🔥3
🔥 Полезные библиотеки Python
AcurusTrack - крутая утилита для трекинга одинаковых объектов вне зависимости от их природы.
Может следить за любыми одинаковыми объектами, хоть за людьми в масках, хоть хоккеистами, лошадьми или машинами.
GitHub
@machinelearning_ru
AcurusTrack - крутая утилита для трекинга одинаковых объектов вне зависимости от их природы.
Может следить за любыми одинаковыми объектами, хоть за людьми в масках, хоть хоккеистами, лошадьми или машинами.
GitHub
@machinelearning_ru
👍9🔥3
#03TheNotSoToughML | Регрессия: Ошибки → Спуск с вершины горы
https://nuancesprog.ru/p/16046/
@machinelearning_ru
https://nuancesprog.ru/p/16046/
@machinelearning_ru
🔥8
Как нейросети проводят лето: подборка самых ярких новостей в мире Data Science за месяц
В июле нейросети не теряли времени даром и успели предсказать структуру 200 млн белков, написать научную статью в соавторстве с человеком (и возможно на шаг приблизиться к той самой симфонии), а ещё дать футбольным фанатам надежду на крепкий сон. Подробнее об этих и других достижениях AI – в подборке новостей Data Science.
Читать дальше
@machinelearning_ru
В июле нейросети не теряли времени даром и успели предсказать структуру 200 млн белков, написать научную статью в соавторстве с человеком (и возможно на шаг приблизиться к той самой симфонии), а ещё дать футбольным фанатам надежду на крепкий сон. Подробнее об этих и других достижениях AI – в подборке новостей Data Science.
Читать дальше
@machinelearning_ru
👍7
deepfake от Samsung
А именно, у него есть показать новые варианты deepfake-ов в реальном времени с большим разрешением. Конечно, всё ещё не идеально, но намного лучше чем в 2020 году. А если вспомнить, как быстро менялась та же генерация изображений, то вероятно, что до совсем качественных deepfake-ов уже недалеко.
Видео: https://www.youtube.com/watch?v=JkUF40kPV4M
Статья: https://samsunglabs.github.io/MegaPortraits/
@machinelearning_ru
А именно, у него есть показать новые варианты deepfake-ов в реальном времени с большим разрешением. Конечно, всё ещё не идеально, но намного лучше чем в 2020 году. А если вспомнить, как быстро менялась та же генерация изображений, то вероятно, что до совсем качественных deepfake-ов уже недалеко.
Видео: https://www.youtube.com/watch?v=JkUF40kPV4M
Статья: https://samsunglabs.github.io/MegaPortraits/
@machinelearning_ru
YouTube
Samsung’s AI: Megapixel DeepFakes! 📷
❤️ Check out Lambda here and sign up for their GPU Cloud: https://lambdalabs.com/papers
📝 The paper "MegaPortraits: One-shot Megapixel Neural Head Avatars" is available here:
https://samsunglabs.github.io/MegaPortraits/
❤️ Watch these videos in early access…
📝 The paper "MegaPortraits: One-shot Megapixel Neural Head Avatars" is available here:
https://samsunglabs.github.io/MegaPortraits/
❤️ Watch these videos in early access…
👍10🔥2
⭐️ Обучение модели W2NER для поиска именованных сущностей в текстах на русском языке
Задача распознавания сущностей (NER) постоянно возникает при машинной обработке документов, продолжается улучшение показателей качества и скорости работы алгоритмов для решения данной задачи. Предлагаю рассмотреть модель W2NER – классификатор попарных отношений слов в предложении. Далее я обучу модель на русскоязычном датасете и оценю качество её работы. Данные взяты из научной публикации: Unified Named Entity Recognition as Word-Word Relation Classification авторов Jingye Li и др.
➡️ Читать дальше
↪️ Github
@machinelearning_ru
Задача распознавания сущностей (NER) постоянно возникает при машинной обработке документов, продолжается улучшение показателей качества и скорости работы алгоритмов для решения данной задачи. Предлагаю рассмотреть модель W2NER – классификатор попарных отношений слов в предложении. Далее я обучу модель на русскоязычном датасете и оценю качество её работы. Данные взяты из научной публикации: Unified Named Entity Recognition as Word-Word Relation Classification авторов Jingye Li и др.
➡️ Читать дальше
↪️ Github
@machinelearning_ru
🔥9👍2
This media is not supported in your browser
VIEW IN TELEGRAM
🤖 5 классических алгоритмов машинного обучения, о которых вам обязательно следует знать
Статья дает базовое представление о классических алгоритмах машинного обучения, которые находят широкое применение при решении прикладных задач, таких как предсказание оттока клиентов, персонализация рекламы и так далее.
Формат статьи отличается от обычного списка невзаимосвязанных элементов. Вместо этого, все алгоритмы разделены на группы, и для каждой группы описаны самые популярные её представители.
Почему именно такой формат?
Практическое применение. Знания бесполезны, если они не могут быть применены. Разбивка на основные группы по применению даст лучшее понимание того, какие задачи вы можете решить, используя тот или иной алгоритм.
Актуальность. Правда в том, что не все алгоритмы машинного обучения сохраняют свою актуальность. Вы сразу увидите, что такие традиционные алгоритмы, как наивный байесовский алгоритм, не включены в статью просто потому, что они деклассированы более совершенными алгоритмами.
Усвояемость. Есть тысячи онлайн ресурсов, которые научат тебя реализовывать модели, о которых пойдет далее разговор. Мы же больше сфокусированы на оптимальном применении каждого типа алгоритмов.
➡️ Читать дальше
↪️ Machine Learning From Scratch
@machinelearning_ru
Статья дает базовое представление о классических алгоритмах машинного обучения, которые находят широкое применение при решении прикладных задач, таких как предсказание оттока клиентов, персонализация рекламы и так далее.
Формат статьи отличается от обычного списка невзаимосвязанных элементов. Вместо этого, все алгоритмы разделены на группы, и для каждой группы описаны самые популярные её представители.
Почему именно такой формат?
Практическое применение. Знания бесполезны, если они не могут быть применены. Разбивка на основные группы по применению даст лучшее понимание того, какие задачи вы можете решить, используя тот или иной алгоритм.
Актуальность. Правда в том, что не все алгоритмы машинного обучения сохраняют свою актуальность. Вы сразу увидите, что такие традиционные алгоритмы, как наивный байесовский алгоритм, не включены в статью просто потому, что они деклассированы более совершенными алгоритмами.
Усвояемость. Есть тысячи онлайн ресурсов, которые научат тебя реализовывать модели, о которых пойдет далее разговор. Мы же больше сфокусированы на оптимальном применении каждого типа алгоритмов.
➡️ Читать дальше
↪️ Machine Learning From Scratch
@machinelearning_ru
👍12🔥1
Forwarded from Machine learning Interview
Выборка 9 человек из интересующей нас популяции выявила средний объем мозга = 1100 куб.см. со стандартным отклоненим 30 куб.см. Каким будет 95% Т-доверительный интервал Стьюдента для среднего объема мозга в этой популяции?
Ответ
Используем формулу доверительного интервала для выборки (картинка)
Учитывая уровень доверительности 95% и количество степеней свободы, равное 8, t-оценка = 2.306.
Доверительный интервал = 1100 +/- 2.306*(30/3) = [1076.94, 1123.06].
38. Девять испытуемых получали диетические пилюли на протяжении 6 недель. Средняя потеря веса составила -2 кг. Каким должно быть стандартное отклонение потери веса, чтобы верхняя граница 95% Т-доверительного интервала была равна 0?
Верхняя граница = среднее + t-оценка * (стандартное отклонение / квадратный корень из размера выборки).
0 = -2 + 2.306*(s/3)
2 = 2.306 * s / 3
s = 2.601903
Таким образом, стандартное отклонение должно быть примерно 2.60, чтобы Т-доверительный интервал заканчивался в нуле.
@machinelearning_interview
Ответ
Используем формулу доверительного интервала для выборки (картинка)
Учитывая уровень доверительности 95% и количество степеней свободы, равное 8, t-оценка = 2.306.
Доверительный интервал = 1100 +/- 2.306*(30/3) = [1076.94, 1123.06].
38. Девять испытуемых получали диетические пилюли на протяжении 6 недель. Средняя потеря веса составила -2 кг. Каким должно быть стандартное отклонение потери веса, чтобы верхняя граница 95% Т-доверительного интервала была равна 0?
Верхняя граница = среднее + t-оценка * (стандартное отклонение / квадратный корень из размера выборки).
0 = -2 + 2.306*(s/3)
2 = 2.306 * s / 3
s = 2.601903
Таким образом, стандартное отклонение должно быть примерно 2.60, чтобы Т-доверительный интервал заканчивался в нуле.
@machinelearning_interview
👍13🔥2❤1
Stable-Diffusion – альтернатива DALL-E 2 с открытым исходным кодом, для преобразование текста в изображение
Для нормальной работы инструмента требуется не менее 10 ГБ видеопамяти
⤷ Ссылка на проект
@machinelearning_ru
Для нормальной работы инструмента требуется не менее 10 ГБ видеопамяти
⤷ Ссылка на проект
@machinelearning_ru
👍8🔥2
Компьютерное зрение. Распознаем позу человека с использованием OpenPose.
Анализ видео и изображений – одно из основных направлений применения технологий ML. Распознавание лиц и объектов позволяет автоматически анализировать данные, определяя положение тела, личность или даже эмоции человека, что может быть использовано как в системах безопасности — face id, определение действий человека, так и для улучшения клиентского опыта – детектирование эмоций клиентов и персонала.
Но каждый, кто писал программы распознавания объектов, используя opencv, знает, что выделение опорных точек и построение выпуклой оболочки — наименьшего выпуклого множества, содержащего опорные точки, дело часто тяжелое и неблагодарное.
➡️ Читать дальше
⚙️ Github
@machinelearning_ru
Анализ видео и изображений – одно из основных направлений применения технологий ML. Распознавание лиц и объектов позволяет автоматически анализировать данные, определяя положение тела, личность или даже эмоции человека, что может быть использовано как в системах безопасности — face id, определение действий человека, так и для улучшения клиентского опыта – детектирование эмоций клиентов и персонала.
Но каждый, кто писал программы распознавания объектов, используя opencv, знает, что выделение опорных точек и построение выпуклой оболочки — наименьшего выпуклого множества, содержащего опорные точки, дело часто тяжелое и неблагодарное.
➡️ Читать дальше
⚙️ Github
@machinelearning_ru
👍6🔥3
🧠 Нейросеть Stable Diffusion, генерирующая изображения высочайшего качества (вполне конкурирует с DALLE-2) теперь доступна для всех
Вы можете войти в систему с помощью своих учетных записей discord или Google или создать новую учетную запись.
➡️ Stable Diffusion регистарция
➡️ Github
@machinelearning_ru
Вы можете войти в систему с помощью своих учетных записей discord или Google или создать новую учетную запись.
➡️ Stable Diffusion регистарция
➡️ Github
@machinelearning_ru
👍9🔥1
#04TheNotSoToughML | “Давай, минимизируй ошибки” — Но достаточно ли этого?
Недообучение и переобучение.
Они часто дают о себе знать внезапно, перечеркивая всю работу над МО-моделью. Пока мы создаем модель — результаты выглядят вполне приемлемыми. Но стоит запустить ее в производство — оказывается, что наши решения были совершенно неправильными и модель плохо справляется с прогнозами.
Конечно, может быть множество факторов, способствующих “неправильным” результатам. Но чаще всего к таким сценариям приводит одна из двух оплошностей: недообучение или переобучение.
Мы подробно рассмотрим обе проблемы и найдем способы их решения. Хотя существует множество доступных методов, мы углубимся в следующие:
тестирование и валидация модели;
использование графа сложности модели.
➡️ Читать
@machinelearning_ru
Недообучение и переобучение.
Они часто дают о себе знать внезапно, перечеркивая всю работу над МО-моделью. Пока мы создаем модель — результаты выглядят вполне приемлемыми. Но стоит запустить ее в производство — оказывается, что наши решения были совершенно неправильными и модель плохо справляется с прогнозами.
Конечно, может быть множество факторов, способствующих “неправильным” результатам. Но чаще всего к таким сценариям приводит одна из двух оплошностей: недообучение или переобучение.
Мы подробно рассмотрим обе проблемы и найдем способы их решения. Хотя существует множество доступных методов, мы углубимся в следующие:
тестирование и валидация модели;
использование графа сложности модели.
➡️ Читать
@machinelearning_ru
🔥4👍1
Новый ИИ от Microsoft: виртуальные люди становятся все реальнее! 🤯
Video: https://www.youtube.com/watch?v=6-FESfXHF5s
Статья: https://microsoft.github.io/DenseLandmarks/
@machinelearning_ru
Video: https://www.youtube.com/watch?v=6-FESfXHF5s
Статья: https://microsoft.github.io/DenseLandmarks/
@machinelearning_ru
YouTube
Microsoft's New AI: Virtual Humans Became Real! 🤯
❤️ Check out Runway and try it for free here: https://runwayml.com/papers/
📝 The paper "3D Face Reconstruction with Dense Landmarks" is available here:
https://microsoft.github.io/DenseLandmarks/
🙏 We would like to thank our generous Patreon supporters…
📝 The paper "3D Face Reconstruction with Dense Landmarks" is available here:
https://microsoft.github.io/DenseLandmarks/
🙏 We would like to thank our generous Patreon supporters…
🔥5👍1
mv1p-dance-smpl.gif
4.4 MB
EasyMocap — набор инструментов с открытым исходным кодом для безмаркерного захвата движения человека и нового синтеза изображений из видео.
В этом проекте предоставляется множество демонстраций захвата движения в разных условиях.
Инструментарий находится здесь :3
В этом проекте предоставляется множество демонстраций захвата движения в разных условиях.
Инструментарий находится здесь :3
🔥9👍1