Машинное обучение RU
17.7K subscribers
1.57K photos
207 videos
11 files
2.04K links
Все о машинном обучении

админ - @workakkk

@data_analysis_ml - анализ даннных

@ai_machinelearning_big_data - Machine learning

@itchannels_telegram -лучшие ит-каналы

@pythonl - Python

@pythonlbooks- python 📚

@datascienceiot - 📚

РКН: clck.ru/3FmrUw
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
🧔 Deepfake-Offensive-Toolkit

Мощный инструмент, что создает управляемые дипфейки высокого качества в режиме реального времени

Может применяться для обхода системы проверки личности и биометрической идентификации


↪️ Ссылка на проект
↪️ Colab

#Interesting #Video #Deepfake
🔥6👍2
Forwarded from Data Science Jobs
DevOps Engineer

Вакансия: В PREDICTO открыта вакансия

О компании:
Predicto с 2018 г. занимается анализом и сегментацией данных для крупных российских и иностранных клиентов. В этом году мы поставили себе амбициозную задачу разработки CDP и рекомендательной системы.
В нашей команде уже 13 сильных и классных ребят, но задач столько, что очень хотим еще!
📍Senior+ (важно)
📍в классном офисе в Москве/гибрид;
📍250-400+ руб., белая ЗП или ИП;
📍большой датасет, интересные задачи, возможность влиять на продукт.

Что нужно делать:
- Участие в построение платформы данных Predicto на всех этапах, включая проектирование, разработку и эксплуатацию;
- Ведущая роль в выстраивании экспертизы в области DevOps и SRE внутри компании и создании сильной команды;
- Автоматизация процессов сборки, тестирования и доставки компонентов платформы;
- Выстраивание DataOps и MLOps практик для обеспечения высокого качества данных и эксплуатации ML моделей в production’е.

Требования:
- Опыт работы и эксплуатации решений с одним из крупных публичных облаков (Яндекс Облако, AWS, GCP, Azure, Alibaba);
- Опыт работы с технологиями big data стека (в первую очередь Apache Spark) и экосистемой Python’а для data science;
- Понимание принципов контейнеризации, опыт эксплуатации решений с Docker’ом и кластерами Kubernetes;
- Опыт построения CI/CD пайплайнов;
- Понимание IaC подхода к управлению инфраструктурой, опыт работы с Terraform’ом;
- Понимание и использование принципов безопасности для облачных окружений.

Будет плюсом:
- Опыт работы с Яндекс.Облаком;
- Опыт развития команды и выстраивания DevOps и SRE практик;
- Опыт работы с реляционными и нереляционными базами данных, знание SQL;
- Опыт разработки и поддержки высоконагруженных сервисов;
- Знание инструментов и методов MLOps, опыт эксплуатации ML-intensive приложений в production.


Присылайте CV в telegram: @fedosovaAS

@datascienceml_jobs
👍5
Real-Time-Voice-Cloning – Инструмент для клонирования голоса в режиме реального времени

Этот репозиторий представляет собой реализацию Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis (SV2TTS) с вокодером, который работает в режиме реального времени.

SV2TTS - это трехступенчатая структура глубокого обучения, которая позволяет создавать численное представление голоса из нескольких секунд аудио и использовать его для подготовки модели преобразования текста в речь, обученной на воспроизведение голоса.

#GitHub | #Python #Voice

@machinelearning_ru
👍7😁1
📊 Путеводитель по Big Data для начинающих: методы и техники анализа больших данных

Методы и техники анализа Big Data: Machine Learning, Data mining, краудсорсинг, нейросети, предиктивный и статистический анализ, визуализация, смешение и интеграция данных, имитационные модели. Как разобраться во множестве названий и аббревиатур? Читайте наш путеводитель.

читать дальше

@machinelearning_ru
👍9👏1
DeepFaceDrawing — нейросеть, которая позволяет создавать реалистичные изображения лиц из набросков от руки

Метод отрисовки по существу использует входные эскизы в качестве «мягких» ограничений и, таким образом, способен создавать высококачественные изображения лиц даже из грубых и/или неполных эскизов. Данный инструмент прост в использовании даже для тех кто не рисует, сохраняя при этом тонкое управление деталями формы

#GitHub | #Python #Interesting

@machinelearning_ru
🔥13👍2
🔥 100 Data Science вопросов мидлу! Парень c Физтеха проходит собеседование

На этот раз мы встретились уже с опытным кандидатом в Data Science.
Будем интенсивно задавать разноплановые вопросы!

https://www.youtube.com/watch?v=BI-yjkRKymg

@machinelearning_ru
🔥6👍3👎1
CARLAсимулятор с открытым исходным кодом для исследования автономного вождения

CARLA была разработана с нуля для поддержки разработки, обучения и проверки систем автономного вождения. В дополнение к открытому коду и протоколам, CARLA предоставляет открытые цифровые активы (планы городов, здания, транспортные средства), которые были созданы для этой цели и могут свободно использоваться

Ссылка на проект

@machinelearning_ru | #Interesting #Simulator #AI
👍10
🔥 Practical Deep Learning

🚀Бесплатный курс от fast.ai поможет вам научиться применять глубокое и машинное обучение для решения практических задач.

Курс
Git

@machinelearning_ru
👍8🔥4
Исследования: как мозг строит гипотезы об окружающем мире и подгоняет ощущения под гипотезы

Некоторые нейробиологи объясняют восприятие человека теорией «контролируемых галлюцинаций». Эта теория предполагает, что восприятие, память, контроль движений и другие функции мозга зависят не от сенсорной информации, а скорее от сравнения текущего реального опыта и смоделированных ожиданий мозга.

Вместо того, чтобы ждать сенсорной информации о реальном мире, мозг всегда активно строит гипотезы о том, как устроен мир и предполагает какую информацию получит. А потом использует гипотезы для объяснения реального опыта и заполнения недостающих данных. Другими словами — мозг галлюцинирует, потому что создает информацию, которой нет в реальности.

Читать дальше

@machinelearning_ru
👍9🔥3
🧩 Продолжаем осваивать PySpark. Предобработка текста для машинного обучения

Для задач NLP, как мы знаем, недостаточно положить в модель голый текст. Датасет возьмем с кеггла (https://www.kaggle.com/rishisankineni/text-similarity) — оставим тренировочную часть и попробуем предобработать данные для наших моделей. Надеюсь, это моя не последняя статья и далее мы разберем уже конкретные модели, но сегодня остановимся на предобработке.

Читать дальше

@machinelearning_ru
🔥6👍3🤔1
Zero-shot classification

Стоит отдать должное NLI (Natural Language Inference), развитие которого позволило моделям пытаться искать логическую взаимосвязь между двумя высказываниями.

У меня есть некоторое выражение (например – «Сократ сказал, что никто не будет жить вечно») и гипотеза (например – «Сократ никогда не умрет»). Модели необходимо определить какое заключение получится:

Логическое следствие – из высказывания следует гипотеза;
Логическая нейтральность – гипотеза и высказывание не связаны;
Логическое противоречие – из высказывания не следует гипотеза.
В данном случае, при применении модели, на выходе получается, что наибольшая вероятность у метки логического противоречия, так как действительно гипотеза является полным противоречием высказыванию.

Читать дальше

@machinelearning_ru
9👍2
👀 Компьютерное зрение в поиске атмосферных осадков

При дожде или снегопаде капли дождя или снежинки оставляют на видеокадрах треки — протяженные линии. Особенно ярко этот эффект проявляется в темное время суток при активации инфракрасной подсветки видеокамер.

Читать дальше

@machinelearning_ru
👍9
💻 Аугментация Dataseta c помощью Tensorflow

В данный момент можно найти много подготовленных наборов данных для машинного обучения. Но что делать, если нужного под именно ваши задачи нет? Здесь приходится собирать данные вручную. Я столкнулся с такой ситуацией. Мне нужно обучить нейронную сеть распознавать сигналы светофора, а для этого соответственно мне нужны сами фотографии этих светофоров. Как бы странно это не казалось, но в интернете я не смог найти датасет с фотографиями светофоров. Максимум, который я откопал, на сайте Kaggle был датасет с пешеходными светофорами, в котором как побочный пример были представлены искомые изображения светофоров. Но этого все равно явно недостаточно, потому что на класс приходится примерно по 100 фотографий. Добавил еще несколько собственных фоток, но принципиально ничего не изменилось. Смешно, учитывая, что обычно нейросети обучаются на тысячах фотографий.

Читать дальше

@machinelearning_ru
👍8🔥43👎1
☑️ Подбор параметров для построения модели для различных видов переменных

Подбор признаков (Feature selection) — это процесс уменьшения количества входных параметров, используемых при построении моделей. Используя различные статистические подходы, можно определить взаимоотношение между признаками и целевой переменной, для определения тех переменных, которые имеют наиболее сильную связь. Однако, выбор статистических методов зависит как от создаваемой модели, так и от типов сравниваемых данных, а потому может представлять определённые трудности для разработчика.

➡️ Читать

@machinelearning_ru
🔥6👍1
🚀 DeepSpeed ​​— это библиотека оптимизации глубокого обучения, которая делает распределенное обучение и логические выводы простыми, эффективными и действенными.

➡️ Github
🎯 Docs

@machinelearning_ru
🔥13
📝 Решение задачи определения границ предложений

В последнее время в Data Science сообществе фокус исследований сместился в сторону качества данных. Если еще пару лет назад большинство специалистов утверждали, что при использовании подходящих алгоритмов проблему можно решить достаточно хорошо, то сейчас большое внимание уделяют оценке качества данных. В своей практике я столкнулась с задачей, в которой результат напрямую зависел от качества нарезки текстов на предложения. Для разработки собственного алгоритма иногда просто нет времени, тут на помощь нам приходят библиотеки. В этой статье я хочу поделиться опытом, как я решала задачу определения границ предложений с использованием существующих алгоритмов и разработкой собственного перечня специфичных сокращений.

Задача определения границ предложений или Sentence boundary detection не является тривиальной по нескольким причинам:

Мы не можем однозначно понимать конец предложения по точке.
В текстах тематических областей используются разнообразные сокращения.
Неоднозначность определения границ из-за использования в текстах инициалов и сокращений, которые могут находиться как в середине предложения, так и в конце.

➡️ Читать дальше

@machinelearning_ru
👍4🔥3
Forwarded from Machinelearning
Эволюция машинного обучения и проблема «черного ящика»

Какие бенчмарки используются в ML?
Благодаря чему произошел прорыв в технологиях машинного обучения?
Как метод LIME помогает интерпретировать алгоритмы ИИ?
Почему нейронки по-прежнему работают не так, как хотелось бы ученым?

Ученые Yandex Research рассказали, как они исследуют логику нейросетей и почему людям до сих пор сложно прочитать их «мысли».
👍10🔥1
🪐 Визуализация архитектуры и отдельных блоков нейросети с помощью Netron

Netron поддерживает как наиболее популярные фреймворки глубокого обучения – Keras и PyTorch – так и менее известные, и даже scikit-learn.

Установка в виде сервера для python производится стандартным образом через pip. Также можно установить netron в виде отдельной программы командой.

winget install -s winget netron
(для Windows) или
snap install netron
(для Linux).


Читать дальше

@machinelearning_ru
👍7🔥3
🔥 Полезные библиотеки Python

AcurusTrack
- крутая утилита для трекинга одинаковых объектов вне зависимости от их природы.

Может следить за любыми одинаковыми объектами, хоть за людьми в масках, хоть хоккеистами, лошадьми или машинами.

GitHub

@machinelearning_ru
👍9🔥3